Η OpenAI εισήγαγε ένα νέο σύστημα παρακολούθησης για τα τελευταία μοντέλα AI, O3 και O4-Mini, για να ανιχνεύσει και να αποτρέψει τις προτροπές που σχετίζονται με βιολογικές και χημικές απειλές, σύμφωνα με την ασφάλεια της εταιρείας έκθεση. Το σύστημα, το οποίο περιγράφεται ως “Monitor Safeting που επικεντρώνεται στη λογική”, έχει σχεδιαστεί για να εντοπίζει δυνητικά επικίνδυνα αιτήματα και να δίνει εντολή στα μοντέλα να αρνούνται να παρέχουν συμβουλές.
Τα νέα μοντέλα AI αντιπροσωπεύουν μια σημαντική αύξηση των δυνατοτήτων σε σχέση με τα προηγούμενα μοντέλα της OpenAi και δημιουργούν νέους κινδύνους εάν καταχραστούν οι κακόβουλοι ηθοποιοί. Το O3, ειδικότερα, έχει δείξει αυξημένη επάρκεια στην απάντηση σε ερωτήσεις σχετικά με τη δημιουργία ορισμένων βιολογικών απειλών, σύμφωνα με τα εσωτερικά σημεία αναφοράς της OpenAI. Για να μετριαστούν αυτοί οι κίνδυνοι, το σύστημα παρακολούθησης ήταν εκπαιδευμένο σε λογική για τις πολιτικές περιεχομένου του OpenAI και τρέχει πάνω από τα O3 και O4-Mini.
Για να αναπτύξει το σύστημα παρακολούθησης, οι κόκκινες ομάδες της OpenAI δαπάνησαν περίπου 1.000 ώρες, επισημαίνοντας τις συνομιλίες που σχετίζονται με το Biorisk από O3 και O4-Mini. Σε μια προσομοιωμένη δοκιμή, τα μοντέλα αρνήθηκαν να ανταποκριθούν σε επικίνδυνες προτροπές 98,7% του χρόνου. Ωστόσο, η OpenAI αναγνωρίζει ότι αυτή η δοκιμή δεν αντιπροσώπευε τους χρήστες που θα μπορούσαν να δοκιμάσουν νέες υποδείξεις μετά την αποκλεισμό τους και η εταιρεία θα συνεχίσει να βασίζεται στην ανθρώπινη παρακολούθηση.
Σύμφωνα με τα OpenAI, τα O3 και O4-Mini δεν διασχίζουν το κατώφλι “υψηλού κινδύνου” για βιορίκισκα. Ακόμα, οι πρώτες εκδόσεις αυτών των μοντέλων αποδείχθηκαν πιο χρήσιμες στην απάντηση σε ερωτήσεις που σχετίζονται με την ανάπτυξη βιολογικών όπλων σε σύγκριση με τα O1 και GPT-4. Η εταιρεία παρακολουθεί ενεργά τους πιθανούς κινδύνους που συνδέονται με τα μοντέλα της και βασίζεται όλο και περισσότερο σε αυτοματοποιημένα συστήματα για να μετριάσει αυτούς τους κινδύνους.
Το OpenAI χρησιμοποιεί παρόμοια οθόνη συλλογιστικής για να αποτρέψει τη γεννήτρια εικόνας της GPT-4O από τη δημιουργία υλικού σεξουαλικής κακοποίησης παιδιών (CSAM). Ωστόσο, ορισμένοι ερευνητές έχουν προκαλέσει ανησυχίες ότι η OpenAI δεν δίνει προτεραιότητα στην ασφάλεια όσο θα έπρεπε, αναφέροντας περιορισμένο χρόνο για να δοκιμάσει το O3 σε ένα σημείο αναφοράς για την παραπλανητική συμπεριφορά και την έλλειψη αναφοράς ασφάλειας για το GPT-4.1.
VIA: DataConomy.com