Όταν ένα σκυλί γαβγίζει σε ένα τσιγκούρι παιχνίδι ή ένας μηχανικός σταματά ξαφνικά να μιλάει μεσαία φράση, δεν χρειάζεστε διδακτορικό στη γνωστική επιστήμη για να καταλάβετε τι συμβαίνει-απλά παρακολουθείτε, ακούστε και καταλαβαίνετε. Αλλά για πολυτροπικά μοντέλα AI, αυτό το απλό ανθρώπινο αντανακλαστικό παραμένει εκπληκτικά δύσκολο να αναπαραχθεί. Παρά την πρόσφατη διαφημιστική εκστρατεία γύρω από μοντέλα “Frontier” όπως το GPT-4O και το Gemini 1.5 Pro, οι περισσότεροι από αυτούς εξακολουθούν να αναγκάζονται όταν αναγκάζονται να συνθέτουν πραγματικά αυτό που βλέπουν και ακούω. Αυτό είναι ακριβώς το πρόβλημα που προσπαθεί να λύσει το Maverix.
Όπου τα σημεία αναφοράς υπολείπονται – και το Maverix μπαίνει
Τα σημερινά κορυφαία πολυτροπικά σημεία αναφοράς ενδέχεται να ισχυρίζονται ότι δοκιμάζουν πραγματικό λόγο, αλλά πολλοί από αυτούς εξαπατούν. Αντιμετωπίζουν μοντέλα που μπορούν να περάσουν με μόνο όραμα ή απλά μεταγραφές κειμένου, αντί να τους αναγκάσουν να ενσωματώσουν πολλαπλές αισθήσεις όπως οι άνθρωποι κάνουν. Μοσχάρι (Σύντομη για τον δείκτη συλλογιστικής χρήσης οπτικοακουστικών αξιολόγησης που είναι ένα νέο σημείο αναφοράς που αυξάνει τελικά τη ράβδο απαιτώντας σφιχτά συζευγμένο οπτικοακουστικό λογικό σε 700 βίντεο και περισσότερες από 2.500 ερωτήσεις.
Σκεφτείτε το ως μια πορεία συντριβής με κοινή λογική για το AI: Εάν ακούσετε ένα buzzing και δείτε μια μέλισσα κοντά στην κάμερα, θα πρέπει πιθανώς να αποκλείσετε “μηχανική συσκευή εκτός οθόνης”. Αλλά το Maverix δεν έχει μόνο τα μοντέλα χειρός μερικά εύκολα παζλ. Έρχεται με ερωτήσεις πολλαπλών επιλογών οκτώ επιλογών (για να σκοτώσει τις εικασίες) και τις ανοιχτές προτροπές (για να δοκιμάσετε την αληθινή κατανόηση), πιέζοντας τα μοντέλα πέρα από την αναγνώριση προτύπων σε πλήρη γνωστικό συντονισμό.
Πραγματικές ερωτήσεις, πραγματική ανθρώπινη πολυπλοκότητα
Οι ερωτήσεις του Maverix σχεδιάζονται όπως οι ψυχολογικές δοκιμές Rorschach για μηχανές – που καλύπτουν την αιτιώδη λογική, το συναισθηματικό συμπέρασμα, τη χωρική συνειδητοποίηση και το δυναμικό πλαίσιο. Φανταστείτε ένα βίντεο δύο ατόμων που υποστηρίζουν. Αγωνίζονται για πραγματική, ενεργώντας σε μια ταινία ή απλά μιμούνται το WWE Wrestling για γέλια; Αυτή η απάντηση θα μπορούσε να εξαρτάται από το χαστούκι και Το κομμάτι γέλιου. Πρέπει να δεις και Ακούστε να καταλάβετε.
Για να γίνει αυτό το έργο, η ομάδα Maverix δημιούργησε έναν σχολαστικό αγωγό που συνδυάζει την ανθρώπινη τεχνογνωσία με την επικύρωση του AI. Κάθε βίντεο έρχεται με υπότιτλους, κατηγοριοποιημένους ήχους (ομιλία, μουσική, φυσικό θόρυβο) και σχολιασμένα βασικά πλαίσια. Κάθε ερώτηση εξετάζεται για να διασφαλιστεί ότι οι μονοδυναμία συντομεύσεις – όπως η ανάγνωση των υπότιτλων – δεν το κόβουν. Εάν ένα μοντέλο μπορούσε να απαντήσει χωρίς να χρησιμοποιήσει και τους δύο τρόπους, το ερώτημα ξαναγράφηκε ή πεταχτεί.
Λοιπόν, πόσο καλά εκτελούν οι σημερινές AIS;
Δεν είναι υπέροχο. Ακόμη και με άμεση πρόσβαση στον ήχο και το βίντεο, ο κορυφαίος καλλιτέχνης -Gemini 1.5 Pro έχει περάσει περίπου 71,9% ακρίβεια. Αυτό είναι κοντά στους ανθρώπους, αλλά ακόμα πίσω. Οι άνθρωποι, με πλήρη οπτικοακουστική είσοδο, ρολόι σε πάνω από 80%. Αλλά εδώ είναι το kicker: Ορισμένα μοντέλα ανοιχτού κώδικα μόλις σπάσουν το 30%. Και όταν απομακρύνετε τον ήχο ή το βίντεο, η απόδοση πέφτει σαν μικρόφωνο.
Σε ανοιχτά καθήκοντα όπου τα μοντέλα πρέπει να δημιουργούν τις δικές τους εξηγήσεις, τα πράγματα παίρνουν messier. Το μέσο μοντέλο σημείωσε μόλις 1,9 από τα 5 σε CPT-4O-κριτική συνοχή και συλλογιστική. Οι άνθρωποι σημείωσαν 2.79. Αυτό το χάσμα διευρύνεται ακόμη περισσότερο όταν τα καθήκοντα περιλαμβάνουν σύνθετα συναισθηματικά σημάδια ή εκδηλώσεις εκτός οθόνης-όπως η μαντέψει γιατί ένα πλήθος μετατοπίζει τραπέζια σε ένα παιχνίδι πόκερ ή αν δύο χορευτές αγωνίζονται ή απλώς πρόβες.
Δεν αγωνίζονται όλα τα μοντέλα με τον ίδιο τρόπο
Μία από τις πιο αποκαλυπτικές συνεισφορές του Maverix είναι πώς εκθέτει τα διαφορετικά μοντέλα στην πραγματικότητα βασίζομαι πάνω σε. Ο Δίδυμος εκτελεί καλύτερα όταν δοθεί ακατέργαστος ήχος, ενώ τα περισσότερα άλλα μοντέλα κάνουν καλύτερα με τους υπότιτλους. Αυτό λέει πολλά για το τι συμβαίνει κάτω από την κουκούλα – μερικά μοντέλα “ακούστε”, άλλοι απλά “διαβάζουν”. Αλλά ούτε ταιριάζει με την αντίληψη του ανθρώπου σε όλο το σκάφος.
Είναι ενδιαφέρον ότι τα καθήκοντα όπως τα ψώνια – όπου τα δομημένα, τα πραγματικά δεδομένα έχουν σημασία – είναι όπου τα μηχανήματα λάμπουν. Αλλά για αθλητικά σχόλια, στρατηγική τυχερών παιχνιδιών ή ερμηνεία ανθρώπινων συναισθημάτων; Οι άνθρωποι τους συντρίβουν. Αυτά τα κενά δείχνουν ότι το τρέχον AI είναι πολύ καλύτερο σε καταλόγους σάρωσης από ό, τι η ανάλυση της κοινωνικής απόχρωσης ή του πλαισίου που εξελίσσεται με την πάροδο του χρόνου.
Τα επίπεδα δυσκολίας έχουν σημασία, όπως και η μέθοδος
Οι εύκολες εργασίες έδωσαν τη μεγαλύτερη ώθηση από τις πολυτροπικές εισροές – επιδιορθώστε ότι ορισμένα μοντέλα χρησιμοποιούν ήχο και βίντεο για να βελτιώσουν τις προφανείς απαντήσεις. Αλλά όταν οι ερωτήσεις έγιναν σκληρότερες, πολλά μοντέλα έσκυψαν έντονα στην όραση και αγνοούσαν τον ήχο. Claude 3,5 Sonnet, για παράδειγμα, βελτίωσε το 41,5% σε εύκολα βίντεο με πολυτροπική είσοδο, αλλά μόνο το 17% σε σκληρά.
Αυτό υπογραμμίζει ένα βαθύτερο ζήτημα: τα περισσότερα μοντέλα δεν είναι πραγματικά συγχωνεύουν τους τρόπους. Τους στοιβάζουν. Μπορείτε να τους δώσετε τόσο ήχο όσο και βίντεο, αλλά εκτός αν το μοντέλο αναγκαία Και για να λύσουν την εργασία, θα επιλέξει ένα αγαπημένο. Το Maverix στοχεύει να αλλάξει αυτό με το σχεδιασμό ερωτήσεων που απαιτούν αληθινή σύντηξη – όπου η απάντηση εξαρτάται από την αλληλεπίδραση μεταξύ ήχου και όρασης.
Για να γεφυρώσει το χάσμα απόδοσης, θα χρειαστούμε καλύτερες αρχιτεκτονικές που αντιμετωπίζουν τον ήχο ως περισσότερο από μια δεύτερη σκέψη. Θα χρειαστούμε νέες στρατηγικές κατάρτισης που ανταμείβουν τη συγχρονισμένη κατανόηση και όχι τις απομονωμένες προβλέψεις. Και πάνω απ ‘όλα, θα χρειαστούμε σημεία αναφοράς όπως το Maverix που δεν εγκατασταθούν για το τι είναι εύκολο να μετρηθεί, αλλά ρωτήστε τις σκληρές ερωτήσεις σχετικά με τον τρόπο με τον οποίο τα μηχανήματα είναι πραγματικά μηχανήματα καταλαβαίνω.
Έτσι, την επόμενη φορά που ο βοηθός σας AI ανακατεύει μια απλή εντολή ή παραβιάζει έναν τόνο, θυμηθείτε: ίσως να μην είναι κωφός – απλά δεν έχει περάσει ακόμα τη δοκιμή Maverix.
VIA: DataConomy.com