Την επόμενη φορά που κάποιος σας λέει AI θα μας βοηθήσει να ρυθμίσουμε το AI, ίσως θελήσετε να σταματήσετε. Επειδή όταν οι ερευνητές έβαλαν μεγάλα γλωσσικά μοντέλα (LLMS) σε ένα προσομοιωμένο ρυθμιστικό περιβάλλον, καθιστώντας τους να παίζουν τους ρόλους των χρηστών, των προγραμματιστών και των ρυθμιστικών αρχών, τα αποτελέσματα δεν ήταν ακριβώς καθησυχαστικά.
Αυτό το νέο μελέτημε επικεφαλής μια ομάδα από το Πανεπιστήμιο Teesside και τους συνεργάτες της σε ολόκληρη την Ευρώπη, χρησιμοποίησε την εξελικτική θεωρία των παιχνιδιών για να διερευνήσει ένα θεμελιώδες ερώτημα: Τα ίδια τα συστήματα AI θα ακολουθήσουν τους κανόνες του κανονισμού AI; Και ακόμη πιο ενδιαφέρον: υπό ποιες συνθήκες θα εξαπατούσαν;
Το πείραμα: Τρία AIS περπατούν σε αίθουσα συνεδριάσεων
Στο επίκεντρο της μελέτης υπάρχει ένα κλασικό παιχνίδι παιχνιδιών τριών παικτών: ένας παίκτης αντιπροσωπεύει τους χρήστες AI, έναν άλλο προγραμματιστές AI και τον τρίτο ρυθμιστή Α. Ο καθένας έχει απλές επιλογές: εμπιστοσύνη ή όχι, συμμορφώνεται ή ατέλειω, ρυθμίζει ή παραμένει τα χέρια.
Αλλά αντί να τρέχουν μόνο μαθηματικά μοντέλα, οι ερευνητές χρησιμοποίησαν πραγματικές LLMS, GPT-4O από OpenAI και Mistral Large, και τους είχαν να παίξουν αυτά τα σενάρια σε εκατοντάδες παιχνίδια.
Μερικές φορές ήταν μια συμφωνία με ένα shot (παίξτε μία φορά, αποκαλύψτε τη στρατηγική σας). Άλλες φορές ήταν ένα επαναλαμβανόμενο παιχνίδι, όπου οι πράκτορες μπορούσαν να μάθουν από παρελθούσες συμπεριφορές.
Βασικά, οι ερευνητές πρόσθεσαν ρεαλιστικές επιπλοκές:
- Ο κανονισμός έρχεται με το κόστος (η παρακολούθηση απαιτεί προσπάθεια)
- Οι προγραμματιστές αντιμετωπίζουν κυρώσεις εάν έχουν αλιευθεί κανόνες θραύσης
- Οι χρήστες μπορούν να εμπιστευτούν άνευ όρων – ή μόνο εμπιστοσύνη εάν οι ρυθμιστικές αρχές έχουν καλή φήμη
- Όλοι θέλουν να μεγιστοποιήσουν την αποπληρωμή τους
Τα αποτελέσματα: Οι πράκτορες AI συμπεριφέρονται χειρότερα όταν οι χρήστες είναι σκεπτικοί
Η επικεφαλίδα διορατικότητα; Εμπιστοσύνη υπό όρους, όταν οι χρήστες εμπιστεύονται μόνο εάν οι ρυθμιστικές αρχές φαίνονται ικανές, backfired θεαματικά.
Όταν οι χρήστες ήταν επιφυλακτικοί, τόσο οι προγραμματιστές όσο και οι ρυθμιστικές αρχές ήταν πιο πιθανό να καταστραφούν. Ο κανονισμός αποσυντίθεται. Οι προγραμματιστές κόβουν τις γωνίες. Οι ρυθμιστικές αρχές έγιναν τεμπέλης ή επιεικής. Η εμπιστοσύνη σπείρα κάτω.
Αλλά όταν οι χρήστες έβαλαν άνευ όρων εμπιστοσύνη στο σύστημα, ακόμη και χωρίς τέλεια απόδειξη, οι προγραμματιστές και οι ρυθμιστικές αρχές ήταν πιο πιθανό να συνεργαστούν και να οικοδομήσουν ασφαλέστερο AI. Είναι ένα βάναυσο παράδοξο: όσο πιο επιφυλακτικοί είναι οι χρήστες, τόσο πιο πιθανό είναι το σύστημα να είναι αναξιόπιστο.
GPT-4 VS MISTRAL: Οι προσωπικότητες του AI έχουν σημασία
Υπήρχε μια άλλη συναρπαστική ρυτίδα. Διαφορετικά LLMs συμπεριφέρθηκαν διαφορετικά.
- Το GPT-4O έσκυψε πιο αισιόδοξο. Ήταν πιο πιθανό να εμπιστευτεί και να συμμορφωθεί, ειδικά σε επαναλαμβανόμενα παιχνίδια όπου η συνεργασία θα μπορούσε να εμφανιστεί με την πάροδο του χρόνου.
- Το Mistral μεγάλο ήταν πιο απαισιόδοξο. Τείνει να ελαττώνει νωρίτερα, να εμπιστευτεί λιγότερο και ήταν πιο ευαίσθητο στο κανονιστικό κόστος.
Αυτό σημαίνει ότι ακόμη και το AI που επιλέγετε για προσομοιώσεις διακυβέρνησης θα μπορούσαν να διαμορφώσουν τα συμπεράσματά σας – μια σημαντική πρόκληση για την αναπαραγωγιμότητα στην έρευνα κανονισμού AI.
Προσθήκη προσωπικοτήτων: Οι κίνδυνοι συντονισμού της συμπεριφοράς AI
Οι ερευνητές εξέτασαν επίσης τι συμβαίνει όταν εισάγετε ρητές “προσωπικότητες” στους πράκτορες του AI.
- Οι χρήστες που αφορούν τον κίνδυνο εμπιστεύονται λιγότερο.
- Οι επιθετικοί προγραμματιστές απέρριψαν περισσότερο.
- Οι αυστηροί ρυθμιστές βελτίωσαν τη συμμόρφωση αλλά μόνο σε ένα σημείο.
Είναι ενδιαφέρον ότι ο καθορισμός συγκεκριμένων προσωπικοτήτων έκανε τις συμπεριφορές LLM σε όλη την GPT-4O και το Mistral πιο παρόμοιες. Χωρίς προσωπικότητες, οι πράκτορες της AI αθέτησαν μια πιο “απαισιόδοξη” κοσμοθεωρία, συχνά υποθέτοντας ότι οι προγραμματιστές και οι ρυθμιστικές αρχές δεν θα ενεργούσαν με καλή πίστη.
Μπορεί λοιπόν να ρυθμίσει το AI AI;
Εν ολίγοις: Μόνο εάν το περιβάλλον είναι ήδη εμπιστευτικό, διαφανές και καλά εκσφενδονισμένο.
Η μελέτη υποδηλώνει ότι τα συστήματα ρύθμισης που βασίζονται στους ίδιους τους πράκτορες του ΑΙ μπορεί να κληρονομήσουν την ακαταστασία και την απρόβλεπτη ανθρώπινη στρατηγική συμπεριφορά. Επισημαίνει επίσης ένα κρίσιμο ελάττωμα στην ιδέα της αυτοματοποίησης της διακυβέρνησης: τα συστήματα AI θα αντικατοπτρίζουν τις δομές εμπιστοσύνης του περιβάλλοντος που τοποθετούνται.
Εάν οι ρυθμιστικές αρχές είναι υποκειμενικές ή αδύναμες ή εάν οι χρήστες είναι σκεπτικοί, οι προγραμματιστές AI, ανθρώπινοι ή όχι, πιθανότατα θα κόψουν τις γωνίες. Τελικά, οι ερευνητές υποστηρίζουν ότι μόνο οι τεχνικές λύσεις δεν θα οικοδομήσουν αξιόπιστα οικοσυστήματα AI. Η θεωρία των παιχνιδιών μας δείχνει ότι τα κίνητρα, η φήμη και η διαφάνεια έχει βαθιά βαθιά. Και τα πειράματά τους δείχνουν ότι ακόμη και τα πιο έξυπνα LLMs δεν μπορούν να ξεφύγουν από αυτές τις δυναμικές.
Η προειδοποίησή τους για τους υπεύθυνους για τη χάραξη πολιτικής είναι σαφής: η ρύθμιση δεν αφορά μόνο τους κανόνες γραφής. Πρόκειται για την οικοδόμηση δομών όπου η εμπιστοσύνη ανταμείβεται, η επιβολή είναι αξιόπιστη και η κοπή γωνιών είναι δαπανηρή.
VIA: DataConomy.com