Ακούμε συνεχώς για τα απίστευτα επιτεύγματα του AI όπως το GPT-4O και το Gemini-Code Writing, η κατασκευή ποίησης, οι εξετάσεις ACING. Μπορεί να πιστεύετε ότι αυτά τα ισχυρά πολυτροπικά μεγάλα γλωσσικά μοντέλα (MLLMS), τα οποία κατανοούν τόσο το κείμενο όσο και τις εικόνες, είναι καλά στο δρόμο για να κυριαρχήσουν τα πάντα. Αλλά τι συμβαίνει όταν τους ζητάτε να κάνουν κάτι φαινομενικά απλό, όπως να ακολουθήσετε τις οδηγίες LEGO;
Σύμφωνα με ένα νέο μελέτη Από τους ερευνητές στο Εργαστήριο Shanghai AI και στο Πανεπιστήμιο Tongji, η απάντηση είναι: σε μεγάλο βαθμό αποτυγχάνουν. Αυτοί οι μάγοι AI, αποδεικνύεται, είναι εκπληκτικά αδέξια όταν πρόκειται για κατανόηση και συλλογιστική για αντικείμενα στο διάστημα σε πολλά βήματα – μια ικανότητα που είναι κρίσιμη για την αλληλεπίδραση με τον πραγματικό κόσμο.
Γιατί να δοκιμάσετε το AI με Legos;
Οι ερευνητές σχεδίασαν ένα έξυπνο σημείο αναφοράς που ονομάζεται Lego-puzzles Ακριβώς επειδή η οικοδόμηση του Legos αντικατοπτρίζει τον τρόπο με τον οποίο οι άνθρωποι αναπτύσσουν «χωρική νοημοσύνη». Ακολουθώντας αυτά τα μικρά διαγράμματα απαιτείται κατανόηση 3D σχημάτων, πώς ταιριάζουν μαζί, τον προσανατολισμό τους και τη σωστή ακολουθία ενεργειών. Εάν ένα AI δεν μπορεί να το χειριστεί αυτό, πώς μπορούμε να περιμένουμε να καθοδηγήσει ένα βραχίονα ρομπότ που συναρμολογεί ένα προϊόν ή να περιηγηθεί σε ένα αυτο-οδήγηση αυτοκινήτου μέσα από μια πολύπλοκη ζώνη κατασκευής;
Το δείκτη αναφοράς του Lego-Puzzles δεν είναι παιδικό παιχνίδι. Περιλαμβάνει πάνω από 1.100 οπτικές ερωτήσεις που καλύπτουν 11 διαφορετικές εργασίες. Αυτά κυμαίνονται από βασικούς ελέγχους (“Είναι αυτό το κομμάτι ψηλότερο από αυτό;”, “Είναι αυτά τα δύο μπλοκ να αγγίζουν;”) σε σύνθετες ακολουθίες (“Βάλτε αυτά τα βήματα συναρμολόγησης στη σωστή σειρά”, “Ποια εικόνα δείχνει την λανθασμένος βήμα;”).
Η εκπληκτική κάρτα βαθμολογίας: AI εναντίον ανθρώπων
Λοιπόν, πώς τα κορυφαία μοντέλα AI του σημερινού AI σε αυτές τις προκλήσεις LEGO; Τα αποτελέσματα ήταν εντυπωσιακά, και ειλικρινά, λίγο ενοχλητικά για το AI.
- Μαζικό χάσμα: Ακόμα και τα καλύτερα μοντέλα, όπως το GPT-4O της OpenAI και το Gemini-2,0-Flash της Google, απάντησαν μόνο 50-58% των ερωτήσεων σωστά.
- Ανθρώπινο θρίαμβο: Οι ανθρώπινοι συμμετέχοντες, αντίθετα, έπεσαν μέσα από τα παζλ με πάνω από το 90% ακρίβεια.
- Αγώνες ανοιχτού κώδικα: Πολλά MLLMs ανοιχτού κώδικα εκτελούσαν μόνο ελαφρώς καλύτερα από την τυχαία εικασία. Ορισμένες εντελώς αποτυχημένες συγκεκριμένες εργασίες, όπως η παραγγελία βημάτων συναρμολόγησης, μερικές φορές απλώς εξάγουν το ίδιο λάθος γράμμα για σχεδόν κάθε ερώτηση.
Το AI αγωνίστηκε ιδιαίτερα με καθήκοντα που αφορούν:
- Αντίληψη ύψους: Συχνά συγχέοντας μια προβολή εικόνας 2D με 3D πραγματικότητα (σκεφτείτε οπτικές ψευδαισθήσεις).
- Περιστροφή: Κατανόηση του τρόπου με τον οποίο τα αντικείμενα φροντίζουν να γυρίσουν.
- Λογιστική πολλαπλών βημάτων: Τα περισσότερα βήματα που εμπλέκονται σε μια ακολουθία, τόσο χειρότερα το AI εκτελείται, υπογραμμίζοντας την αποτυχία να παρακολουθείται τις αλλαγές με την πάροδο του χρόνου.
Ο Kaist μεγάλωσε εγκέφαλο για το AI που μπορεί να μάθει αμέσως συσκευές
Μπορεί το AI να μας δείξει το επόμενο βήμα;
Ίσως ακόμη πιο ξεκάθαρο ήταν η δοκιμή δημιουργίας εικόνων. Οι ερευνητές ζήτησαν από τα MLLM να δημιουργήσουν μια εικόνα που να δείχνει το αποτέλεσμα ενός συγκεκριμένου βήματος συναρμολόγησης Lego.
Το αποτέλεσμα; Μια σχεδόν συνολική αποτυχία. Τα περισσότερα μοντέλα είτε αγνόησαν τις οδηγίες, απλώς αντιγράφηκαν την εικόνα εισόδου, είτε δημιούργησαν κάτι εντελώς άσχετο. Μόνο οι Gemini-2,0-Flash και GPT-4O έδειξαν μια “περιορισμένη ικανότητα”-ο Δίδυμος ήταν καλύτερος στην επεξεργασία της υπάρχουσας εικόνας με ακρίβεια, ενώ η GPT-4O φάνηκε να αναγεννά τη σκηνή εννοιολογικά, συχνά χάνοντας την οπτική συνέπεια. Τα μοντέλα ανοιχτού κώδικα χάθηκαν απελπισμένα.
Αυτή η έρευνα εκθέτει μια κρίσιμη αδυναμία στην τρέχουσα ανάπτυξη του ΑΙ. Ενώ τα μοντέλα υπερέχουν σε μοτίβα που ταιριάζουν σε γλώσσες και στατικές εικόνες, δεν έχουν ισχυρή κατανόηση Πολλαπλός χώρος χωρικής συλλογιστικής – Η δυναμική κατανόηση του τρόπου με τον οποίο τα πράγματα λειτουργούν στον φυσικό χώρο και στο χρόνο.
Η μελέτη διαπίστωσε ότι ακόμη και οι τεχνικές όπως η “αλυσίδα της σκέψης” (ζητώντας από το AI να “σκεφτεί βήμα προς βήμα”), η οποία συχνά βοηθά στα προβλήματα κειμένου, παρείχε ελάχιστο όφελος και μερικές φορές ακόμη και ακόμη παρεμποδισμένος Απόδοση σε αυτά τα χωρικά καθήκοντα, ιδιαίτερα περίπλοκα.
Φαίνεται ότι πραγματικά η κατανόηση του τρισδιάστατου μας κόσμου και ο τρόπος με τον οποίο οι ενέργειες ξεδιπλώνονται μέσα σε αυτό απαιτεί κάτι περισσότερο από την επεξεργασία τεράστιων ποσοτήτων κειμένου και εικόνων. Τα MLLMs χρειάζονται καλύτερους τρόπους για να αντιπροσωπεύουν το διάστημα, να παρακολουθήσουν τις αλλαγές διαδοχικά και ίσως να αναπτύξουν μια μορφή “οπτικής μνήμης”.
Προτεινόμενη πίστωση εικόνας: Kerem Gülen/Imagen 3
VIA: DataConomy.com