Η εξέλιξη της Τεχνητής Νοημοσύνης μετατοπίζεται προς μοντέλα που κατανοούν πώς λειτουργεί ο κόσμος



Μετά από μια δεκαετία που καθορίστηκε από συστήματα τα οποία αναγνωρίζουν πρότυπα και προβλέπουν κείμενο, το όριο εξέλιξης της Τεχνητής Νοημοσύνης (ΤΝ) μετατοπίζεται προς μοντέλα που κατανοούν πώς λειτουργεί ο κόσμος, τονίζεται στο πολύ ενδιαφέρον White Paper για την του Global Institute της Goldman Sachs.


Σύμφωνα με την ανάλυση, η επόμενη φάση εξέλιξης της ΤΝ ενδέχεται να προκύψει λιγότερο από μεγαλύτερα μοντέλα και περισσότερο από συστήματα που μπορούν να προσομοιώνουν την πραγματικότητα, να δοκιμάζουν ενέργειες πριν τις υλοποιήσουν και να συλλογίζονται τις συνέπειες. Αυτή η νέα κατηγορία μοντέλων, γνωστή ως «μοντέλα κατανόησης του κόσμου», αποτελεί μια σιωπηλή αλλά καθοριστική αλλαγή στον τρόπο με τον οποίο οι μηχανές αποκτούν νοημοσύνη.

Τα τελευταία χρόνια, η τεχνητή νοημοσύνη έχει καθοριστεί από τα μεγάλα γλωσσικά μοντέλα (LLM). Εκπαιδευμένα σε τεράστιους όγκους κειμένου, έμαθαν να προβλέπουν την επόμενη λέξη με εντυπωσιακή ακρίβεια. Από αυτόν τον απλό στόχο προέκυψαν συστήματα που γράφουν, μεταφράζουν, προγραμματίζουν και συνομιλούν με αξιοσημείωτη ευχέρεια. Αυτό το επίτευγμα είναι πραγματικό και μετασχηματιστικό, όμως αναδεικνύει και έναν περιορισμό της σημερινής γενιάς μοντέλων ΤΝ.


Τα LLM είναι ιδιαίτερα ισχυρά στην ολοκλήρωση προτύπων, αλλά στερούνται της εσωτερικής αίσθησης του κόσμου που περιγράφουν αυτά τα πρότυπα. Ανταποκρίνονται αποτελεσματικά σε ερωτήματα, αλλά δυσκολεύονται να συλλογιστούν τις συνέπειες ή να λειτουργήσουν αξιόπιστα σε περιβάλλοντα όπου τα λάθη έχουν κόστος. Αυτός ο περιορισμός γίνεται ολοένα και πιο εμφανής καθώς τα συστήματα αυτά επεκτείνονται πέρα από το κείμενο. Όταν καλούνται να ελέγξουν ρομπότ, να διαχειριστούν ολόκληρες εφοδιαστικές αλυσίδες ή να συντονίσουν σύνθετες επιχειρησιακές ροές εργασίας, η πρόβλεψη από μόνη της αποδεικνύεται ανεπαρκής. Η νοημοσύνη, σε αυτά τα πλαίσια, απαιτεί περισσότερα από συσχετισμούς. Απαιτεί ένα εσωτερικό μοντέλο για το πώς λειτουργεί ο κόσμος.

Αν δούμε τα επίπεδα στην πράξη: ένα LLM μπορεί να εξάγει όρους (covenants) από μια στοίβα συμβάσεων δανείων ή να συντάξει ένα σημείωμα προς την επενδυτική επιτροπή. Ένα μοντέλο φυσικού κόσμου μπορεί να προσομοιώσει πώς μια περίοδος τυφώνων μεταβάλλει την κατανομή ζημιών σε ένα χαρτοφυλάκιο αντασφάλισης. Ένα μοντέλο κοινωνικού κόσμου μπορεί να προβλέψει πώς ένα πολιτικό σοκ διαχέεται στις αγορές και στη συμπεριφορά. Οι πιο κρίσιμες αποφάσεις ενδέχεται τελικά να βασίζονται και στις τρεις αυτές δυνατότητες — ωστόσο, ήδη σήμερα αρκετές υψηλής αξίας χρηματοοικονομικές εργασίες παραμένουν ξεκάθαρα εντός του πεδίου των LLMs.


Αυτό που αλλάζει είναι ότι η ανάπτυξη αυτών των φυσικών εξελίξεων των LLM δεν αποτελεί πλέον μια περιθωριακή φιλοδοξία. Έχει εξελιχθεί σε στρατηγική προτεραιότητα για ορισμένους από τους πιο επιδραστικούς ερευνητές της Τεχνητής Νοημοσύνης.

Ο Yann LeCun, ο οποίος πρόσφατα αποχώρησε από τη θέση του Chief Scientist στη , έχει τοποθετήσει τα world models στο επίκεντρο του οράματός του για την τεχνητή γενική νοημοσύνη, καθώς και της νέας του πρωτοβουλίας, της AMI Labs. Το πλαίσιο Joint-Embedding Predictive Architecture (JEPA) στοχεύει ρητά στη δημιουργία μηχανών που μαθαίνουν μοντέλα κατανόησης του κόσμου μέσω παρατήρησης, όπως οι άνθρωποι, εστιάζοντας στην πρόβλεψη αφηρημένων αναπαραστάσεων ή εννοιών για το τι ακολουθεί, χωρίς να αναπαράγουν κάθε λεπτομέρεια της πραγματικότητας. Παράλληλα, η Fei-Fei Li, η καθηγήτρια του Stanford της οποίας το σύνολο δεδομένων ImageNet συνέβαλε καθοριστικά στην έκρηξη της deep learning εποχής, έχει ιδρύσει μια νέα πρωτοβουλία με επίκεντρο τη χωρική νοημοσύνη. Το έργο της στη World Labs υπογραμμίζει ότι η πραγματική νοημοσύνη δεν αφορά μόνο την αναγνώριση αντικειμένων σε εικόνες, αλλά και την κατανόηση του πώς αυτά τα αντικείμενα υπάρχουν στον χώρο, πώς αλληλεπιδρούν και πώς μεταβάλλονται με την πάροδο του χρόνου.

Με άλλα λόγια, αντί να ζητάμε από τα μοντέλα να απαντούν απλώς σε ερωτήματα, οι ερευνητές δημιουργούν εσωτερικές αναπαραστάσεις του κόσμου ώστε να μπορούν να εκτελούν προσομοιώσεις μέσα σε αυτές. Αυτά τα λεγόμενα world models επιτρέπουν στα συστήματα να «φαντάζονται» αποτελέσματα πριν προβούν σε μια ενέργεια. Εκτελούν νοητικά πειράματα. Δοκιμάζουν πιθανότητες. Θα μπορούσε κανείς να το περιγράψει ως μια πρωτόλεια μορφή μηχανικής πρόβλεψης του μέλλοντος. Όμως ο όρος “world model” κρύβει μια σημαντική διάκριση.

Υπάρχουν δύο είδη κόσμων που η Τεχνητή Νοημοσύνη μαθαίνει να μοντελοποιεί. Ο ένας είναι ο φυσικός κόσμος της βαρύτητας, της τριβής, της θερμότητας και των δυνάμεων. Ο άλλος είναι ένας εικονικός ή κοινωνικός κόσμος, αποτελούμενος από πολλαπλούς αλληλεπιδρώντες «δρώντες» με στόχους, μνήμες και περιορισμούς. Ο καθένας από αυτούς δείχνει προς ένα διαφορετικό πεδίο εξέλιξης. Μαζί, υποδηλώνουν μια βαθύτερη μετατόπιση στο πώς ορίζεται η νοημοσύνη.


Με απλά λόγια, ένα μοντέλο κατανόησης του κόσμου λειτουργεί ως εσωτερικός προσομοιωτής — επιτρέπει σε ένα σύστημα να θέτει επανειλημμένα ένα απλό ερώτημα: «Αν κάνω αυτό, τι θα συμβεί στη συνέχεια;» Οι άνθρωποι βασίζονται σε αυτό το ένστικτο διαρκώς. Φανταζόμαστε ένα ποτήρι να γέρνει πριν πέσει. Προβλέπουμε μια δύσκολη εξέλιξη σε μια συνάντηση πριν επιλέξουμε τα λόγια μας.

Μέχρι πρόσφατα, οι μηχανές δεν μπορούσαν να το κάνουν αυτό αποτελεσματικά. Το να εκπαιδεύσεις ένα ρομπότ να αναγνωρίζει ένα φλιτζάνι είναι εύκολο. Το να το εκπαιδεύσεις να το σηκώσει χωρίς να το σπάσει είναι δύσκολο. Ο πραγματικός κόσμος δεν συγχωρεί λάθη. Τα αντικείμενα έχουν βάρος. Οι επιφάνειες έχουν τριβή. Τα υγρά χύνονται. Μικρές αποκλίσεις συσσωρεύονται γρήγορα και οδηγούν σε μεγάλες αποτυχίες. Για δεκαετίες, τα ρομπότ λειτουργούσαν καλύτερα σε ελεγχόμενα περιβάλλοντα, απομονωμένα από την απρόβλεπτη πραγματικότητα του ανθρώπινου κόσμου. Ακόμη και σήμερα, τα ρομπότ σε αποθήκες κινούνται σε χαρτογραφημένους, εν μέρει κανονιστικά ορισμένους χώρους. Τα μοντέλα φυσικού κόσμου υπόσχονται κάτι πιο φιλόδοξο: συστήματα που μπορούν να διαχειριστούν τον αδόμητο, πραγματικό κόσμο.

Αντί να μαθαίνουν μόνο μέσω δοκιμής και λάθους στον πραγματικό κόσμο, τα μοντέλα φυσικού κόσμου επιτρέπουν στις μηχανές να μαθαίνουν τους κανόνες που τον διέπουν. Απορροφούν τη λογική της φυσικής, της θερμοδυναμικής, της ρευστοδυναμικής και της επιστήμης των υλικών. Εξασκούνται μέσα σε προσομοιώσεις που προσεγγίζουν αρκετά την πραγματικότητα ώστε να έχουν ουσιαστική αξία.

Αυτές οι προσομοιώσεις δεν είναι καινούργιες. Αυτό που είναι νέο είναι η κλίμακα και η πιστότητά τους. Οι εξελίξεις στην υπολογιστική ισχύ, στη μάθηση ενίσχυσης (reinforcement learning) και στα συνθετικά δεδομένα επιτρέπουν στις μηχανές να εκτελούν εκατομμύρια «νοητά» πειράματα πριν έρθουν σε επαφή με τον πραγματικό κόσμο. Ένα ρομπότ μπορεί να μάθει να περπατά, να πιάνει αντικείμενα ή να ισορροπεί αποτυγχάνοντας χιλιάδες φορές μέσα σε μια προσομοίωση, όπου η αποτυχία είναι φθηνή. Όταν τελικά δράσει στον πραγματικό κόσμο, το κάνει με σχέδιο.

Αυτή η προσέγγιση έχει ήδη οδηγήσει σε αθόρυβες αλλά σημαντικές εξελίξεις στα logistics, στη βιομηχανία και στα αυτόνομα συστήματα. Ρομπότ αποθηκών κινούνται σε πυκνά περιβάλλοντα με λιγότερες συγκρούσεις, ακόμη και σε συνθήκες πλήρους σκοταδιού. Μηχανές προσαρμόζονται σε άγνωστα αντικείμενα αντί να «κολλάνε». Αυτόνομα οχήματα προεξασκούν ακραία σενάρια πολύ πριν τα συναντήσουν στον δρόμο. Η ουσιαστική πρόοδος δεν έγκειται απλώς σε καλύτερο hardware (αν και αυτό βοηθά), αλλά σε πιο εξελιγμένα εσωτερικά μοντέλα της πραγματικότητας.

Αν τα μοντέλα φυσικού κόσμου διδάσκουν στις μηχανές πώς συμπεριφέρεται ο κόσμος, τα μοντέλα εικονικού ή κοινωνικού κόσμου εξετάζουν πώς συμπεριφέρονται οι άνθρωποι και οι θεσμοί. Εδώ, η «φυσική» δεν είναι μηχανική αλλά κοινωνική. Οι δυνάμεις δεν είναι βάρος και τριβή, αλλά κίνητρα, κανόνες, πληροφορία και ισχύς.

Αυτά τα μοντέλα αποτελούνται από ψηφιακά περιβάλλοντα που κατοικούνται από πολλαπλούς πράκτορες Τεχνητής Νοημοσύνης (AI agents). Κάθε πράκτορας διαθέτει στόχους, μνήμη και ικανότητα συλλογισμού. (Οι πράκτορες μπορούν ακόμη και να διαθέτουν «προσωπικότητες» που προσομοιώνουν συγκεκριμένα πραγματικά συμπεριφορικά προφίλ και χαρακτηριστικά.) Αλληλεπιδρούν μεταξύ τους με την πάροδο του χρόνου. Από αυτές τις αλληλεπιδράσεις προκύπτουν μοτίβα. Ορισμένα από αυτά είναι αποτέλεσμα τυχαίας αλληλεπίδρασης, ενώ άλλα αποτελούν προϊόντα αναγνωρίσιμων χαρακτηριστικών των υποκείμενων συστημάτων.

Αυτό που καθιστά τα μοντέλα εικονικού κόσμου ιδιαίτερα ισχυρά είναι η ικανότητά τους να προσεγγίζουν τη συμπεριφορά πραγματικών ομάδων ανθρώπων, όχι σε επίπεδο απλής συγκέντρωσης, αλλά σε επίπεδο αλληλεπίδρασης. Οι επιχειρήσεις ήδη καταβάλλουν τεράστια προσπάθεια για να προβλέψουν πώς θα αντιδράσουν οι άλλοι, πώς θα κινηθούν οι ανταγωνιστές, πώς θα ερμηνεύσουν τα σήματα οι αγορές, πώς θα αντιδράσουν τα διοικητικά συμβούλια υπό πίεση. Σήμερα, αυτές οι κρίσεις βασίζονται σε εμπειρία, στατική ανάλυση και διαίσθηση. Οι πολυπρακτορικές προσομοιώσεις προσφέρουν κάτι πιο κοντινό σε ένα «ζωντανό» μοντέλο ανθρώπινων συστημάτων. Δημιουργώντας ψηφιακά περιβάλλοντα με πράκτορες που αντανακλούν διαφορετικά κίνητρα, περιορισμούς και επίπεδα πληροφόρησης, οι οργανισμοί αποκτούν ένα υψηλότερης πιστότητας λειτουργικό σύστημα για τη λήψη αποφάσεων. Οι στρατηγικές μπορούν να δοκιμαστούν απέναντι σε προσαρμοστικά στοιχεία. Οι δομές διακυβέρνησης μπορούν να υποβληθούν σε stress tests πριν ξεσπάσει μια κρίση. Στο trading, στη στρατηγική εταιρικού επιπέδου και στη λήψη αποφάσεων από διοικητικά συμβούλια, το πλεονέκτημα δεν βρίσκεται τόσο στις ταχύτερες απαντήσεις όσο στην καλύτερη προετοιμασία μέσω προσομοίωσης.

Οι πρακτικές εφαρμογές είναι ήδη ορατές. Πολλές εταιρείες και κυβερνήσεις χρησιμοποιούν πολυπροσωπικές προσομοιώσεις για να δοκιμάσουν στρατηγικές πριν τις εφαρμόσουν. Ίσως το πιο γνωστό παράδειγμα είναι τα πολεμικά παιχνίδια, όπου στρατιωτικοί ηγέτες χρησιμοποιούν προσομοιώσεις βασισμένες σε σενάρια για να εξετάσουν πώς μπορεί να εξελιχθεί μια σύγκρουση. Οι υπεύθυνοι χάραξης πολιτικής προεξασκούν πώς ενδέχεται να διαχυθούν εκστρατείες πληροφόρησης μέσα σε έναν πληθυσμό. Οι οργανισμοί δοκιμάζουν αντιδράσεις σε κρίσεις χωρίς πραγματικό κόστος. Φανταστείτε την πιο άρτια σχεδιασμένη προσομοίωση που βασίζεται σε πραγματικούς ανθρώπους που υποδύονται ρόλους – και τώρα φανταστείτε την ίδια ακριβώς συνθήκη να αναπαράγεται σε ένα ψηφιακό περιβάλλον χιλιάδες φορές, με παρατήρηση όλων των διαφοροποιήσεων στα αποτελέσματα. Αυτή είναι η δύναμη των μοντέλων κατανόησης του κόσμου.

Αυτά τα συστήματα δεν προβλέπουν το μέλλον με τη στενή έννοια· έχουν ως στόχο να αποκαλύψουν πιθανά μέλλοντα και να αναδείξουν κρυφές δυναμικές. Αυτή η διάκριση — μεταξύ πρόβλεψης και προσομοίωσης — είναι κρίσιμη. Η πρόβλεψη προϋποθέτει ένα μοναδικό σωστό αποτέλεσμα. Τα μοντέλα κατανόησης του κόσμου αποκαλύπτουν εύρη, διαδρομές και βρόχους ανατροφοδότησης. Δείχνουν πώς συμπεριφέρονται τα συστήματα υπό πίεση και πώς συμπεριφέρονται τα άτομα μέσα σε αυτά τα συστήματα. Για τους ηγέτες, αυτό είναι συχνά πιο χρήσιμο από μια στατική εκτίμηση ενός αποτελέσματος.

Με μια πρώτη ματιά, τα μοντέλα φυσικού και εικονικού κόσμου φαίνονται άσχετα μεταξύ τους. Το ένα αφορά ρομπότ και μηχανές· το άλλο αφορά ανθρώπους και θεσμούς. Ωστόσο, μοιράζονται μια κοινή λογική. Και τα δύο απαιτούν από την Τεχνητή Νοημοσύνη να κατανοεί συστήματα που διέπονται από περιορισμούς. Και τα δύο δίνουν έμφαση στην αιτιότητα έναντι της απλής συσχέτισης. Και τα δύο επιβραβεύουν την πρόβλεψη έναντι της αντίδρασης

Οι παραλληλισμοί είναι βαθύτεροι, και είναι εύκολο να επιχειρήσει κανείς να τους συνδέσει με τον τρόπο που ο ανθρώπινος εγκέφαλος χτίζει εσωτερικές προσομοιώσεις του περιβάλλοντός του. Δεν διαθέτουμε ένα ενιαίο, μονολιθικό σύστημα κατανόησης της νοημοσύνης. Αντίθετα, ο εγκέφαλος λειτουργεί ως μια «ομοσπονδία» εξειδικευμένων περιοχών. Ο οπτικός φλοιός επεξεργάζεται εικόνες, η περιοχή του Broca διαχειρίζεται την παραγωγή λόγου, ο κινητικός φλοιός συντονίζει την κίνηση και ο προμετωπιαίος φλοιός οργανώνει τον σχεδιασμό και τη λήψη αποφάσεων. Αυτά τα συστήματα εξελίχθηκαν ξεχωριστά, αλλά λειτουργούν συντονισμένα. Η γλώσσα επηρεάζει τον κινητικό σχεδιασμό, η οπτική αντίληψη διαμορφώνει τη λεκτική περιγραφή και η αφηρημένη σκέψη αντλεί από ενσώματη εμπειρία.

Όπως ο εγκέφαλος ενσωματώνει εξειδικευμένες μονάδες σε συνεκτική σκέψη, έτσι και οι προηγμένες αρχιτεκτονικές ΤΝ πιθανότατα θα συνδυάζουν γλωσσικά μοντέλα, φυσικούς προσομοιωτές και μηχανισμούς κοινωνικής συλλογιστικής σε ενιαία συστήματα. Μεγάλο μέρος της σημερινής συζήτησης αντιπαραθέτει τα LLMs με τα world models, αναζητώντας ποιο παράδειγμα θα επικρατήσει. Η συζήτηση για το ποιο «κερδίζει» παρερμηνεύει θεμελιωδώς τον τρόπο με τον οποίο αναδύεται η σύνθετη νοημοσύνη: όχι από μία κυρίαρχη προσέγγιση, αλλά από τον συντονισμό πολλών. Το πιο ικανό σύστημα ΤΝ του μέλλοντος πιθανότατα θα ενσωματώνει και τα δύο, χρησιμοποιώντας τη γλώσσα ως διεπαφή για εντολές και επεξήγηση, ενώ θα βασίζεται σε μοντέλα κατανόησης του κόσμου για σχεδιασμό και δράση με επίγνωση συνεπειών.

Οι φυσικοί νόμοι περιορίζουν την κίνηση. Οι κοινωνικοί κανόνες περιορίζουν τη συμπεριφορά. Τα αντικείμενα ασκούν δυνάμεις. Τα κίνητρα κάνουν το ίδιο. Και στις δύο τελευταίες περιπτώσεις, η νοημοσύνη αναδύεται από την κατανόηση του πώς οι τοπικές ενέργειες διαχέονται και επηρεάζουν ευρύτερα το σύστημα. Υπό αυτό το πρίσμα, τα μοντέλα κατανόησης του κόσμου σηματοδοτούν μια μετάβαση της ΤΝ από την αναγνώριση προτύπων στην κατανόηση συστημάτων. Αυτή η μετατόπιση έχει τόσο οικονομικές όσο και στρατηγικές συνέπειες.

Ας φανταστούμε μια μελλοντική εφοδιαστική αλυσίδα. Τα μοντέλα φυσικού κόσμου κατευθύνουν ρομπότ που μετακινούν αγαθά μέσα σε αποθήκες και λιμάνια. Τα μοντέλα εικονικού κόσμου προσομοιώνουν διαταραχές στη ζήτηση, αντιδράσεις της εργασίας και γεωπολιτικές αναταράξεις. Οι αποφάσεις σε έναν κόσμο ενημερώνουν τις ενέργειες στον άλλο. Ο σχεδιασμός γίνεται συνεχής αντί για περιοδικός.

Αυτός είναι και ο λόγος που τα μοντέλα κατανόησης του κόσμου έχουν σημασία τώρα. Το όριο της Τεχνητής Νοημοσύνης δεν βρίσκεται πλέον μόνο σε μεγαλύτερα μοντέλα και περισσότερα δεδομένα. Βρίσκεται σε καλύτερες αναπαραστάσεις της πραγματικότητας.

Αυτό εγείρει ένα προκλητικό ερώτημα: μήπως υποτιμούμε τη συνολική δαπάνη για την Τεχνητή Νοημοσύνη; Οι απαιτήσεις και οι ευκαιρίες που σχετίζονται με τα μοντέλα κατανόησης του κόσμου δεν αποτυπώνονται ακόμη στις κυρίαρχες προβλέψεις προσφοράς και ζήτησης για υποδομές ΤΝ, οι οποίες σήμερα επικεντρώνονται κυρίως σε LLMs βασισμένα σε αρχιτεκτονικές transformer. Οι τρέχουσες προβλέψεις για την υπολογιστική ισχύ, την ενέργεια και τη ζήτηση chips διαμορφώνονται σε μεγάλο βαθμό γύρω από την κλιμάκωση των μεγάλων γλωσσικών μοντέλων – από τα δεδομένα και την εκπαίδευση έως την εκτέλεση (inference). Όμως, εάν τα μοντέλα κατανόησης του κόσμου αποδειχθούν εξίσου σημαντικά με όσα περιεγράφηκαν παραπάνω – και λειτουργήσουν συμπληρωματικά και όχι υποκαταστατικά των LLMs — τότε οι επιπτώσεις ενδέχεται να είναι ιδιαίτερα σημαντικές;

Βραχυπρόθεσμα, οι επενδύσεις στα μοντέλα κατανόησης του κόσμου είναι πιθανό να παραμείνουν ένα μικρό μέρος της συνολικής δαπάνης για την Τεχνητή Νοημοσύνη, ιδιαίτερα δεδομένης της σημερινής κατάστασης και του ρυθμού εμπορικής υιοθέτησης των LLMs. Ωστόσο, η πορεία έχει μεγαλύτερη σημασία: καθώς αυτά τα συστήματα ανοίγουν και επιταχύνουν ένα ευρύ φάσμα νέων δυνατοτήτων σε προσομοίωση, ρομποτική, αυτόνομα συστήματα και στρατηγικό σχεδιασμό, οι συνολικές απαιτήσεις σε υπολογιστική ισχύ ενδέχεται να ξεπεράσουν τις τρέχουσες προβλέψεις. Παρόλα αυτά, μέρος αυτής της συμπληρωματικής υποδομής επικαλύπτεται. Τα ίδια clusters GPU και οι πλατφόρμες inference που υποστηρίζουν τα LLMs μπορούν επίσης να χρησιμοποιηθούν για την εκπαίδευση και εκτέλεση μοντέλων κατανόησης του κόσμου. Ωστόσο, οι ομοιότητες έχουν όρια: τα περιβάλλοντα προσομοίωσης συνήθως απαιτούν εξειδικευμένα data pipelines, συστήματα παραγωγής συνθετικών δεδομένων και μηχανές βασισμένες στη φυσική, που υπερβαίνουν κατά πολύ τα απλά text corpora. Η εικόνα της υποδομής είναι επομένως μία μερική επικάλυψη και όχι μια πλήρως ενιαία ή άμεσα επαναχρησιμοποιήσιμη αρχιτεκτονική.

Αυτό ίσως δεν είναι φθηνό. Οι επικριτές σημειώνουν – σωστά – ότι τα μοντέλα κατανόησης του κόσμου είναι υπολογιστικά απαιτητικά. Η υψηλής πιστότητας προσομοίωση, η πολυπρακτορική αλληλεπίδραση και ο συνεχής σχεδιασμός καταναλώνουν πολύ περισσότερη υπολογιστική ισχύ από την απλή πρόβλεψη της επόμενης λέξης σε μια πρόταση. Όμως το κόστος από μόνο του είναι το λάθος μέτρο σύγκρισης. Σε πεδία όπου τα λάθη είναι δαπανηρά και η πρόβλεψη δημιουργεί στρατηγικό πλεονέκτημα, η αξία της προσομοίωσης αυξάνεται ταχύτερα από τον υπολογιστικό της λογαριασμό.

Η δημιουργία υψηλής πιστότητας προσομοιώσεων φυσικών διεργασιών και σύνθετων κοινωνικών συστημάτων μπορεί να ακούγεται απαγορευτικά ακριβή, αλλά ενδέχεται να είναι πιο εφικτή απ’ όσο υποδηλώνει η διαίσθηση. Για παράδειγμα, οι «κόσμοι» που μοντελοποιούνται δεν χρειάζεται να είναι πλήρεις, αλλά σχετικοί. Ένα ρομπότ αποθήκης δεν χρειάζεται να προσομοιώνει καιρικά φαινόμενα ή γεωπολιτική. Μια προσομοίωση διαχείρισης γεωπολιτικής κρίσης δεν χρειάζεται να κατανοεί την οργανική χημεία. Τα μοντέλα κατανόησης του κόσμου μπορούν να είναι στοχευμένα, συμπιεσμένα και εξειδικευμένα.

Αυτό είναι ήδη εμφανές τον τελευταίο χρόνο, και εξηγεί γιατί οι εργασίες σε κώδικα και μαθηματικά έχουν παρουσιάσει τόσο σημαντικές βελτιώσεις. Το περιβάλλον, όταν είναι εξειδικευμένο στον προγραμματισμό και στα μαθηματικά, παρέχει καθαρά και αυστηρά σήματα: μια λύση είτε κάνει compile και περνά τα tests είτε όχι.

Ωστόσο, η επέκταση αυτής της έννοιας στους φυσικούς και κοινωνικούς τομείς – τους οποίους επιχειρούν να προσομοιώσουν τα μοντέλα κατανόησης του κόσμου – παραμένει ένα σύνθετο και εξελισσόμενο πεδίο έρευνας. Η πρόκληση έγκειται στον σχεδιασμό σημάτων ανταμοιβής σε περιβάλλοντα όπου τα κριτήρια επιτυχίας είναι λιγότερο σαφή και τα αποτελέσματα καθυστερημένα. Κανένα σύστημα δεν «τιμωρείται» συστηματικά επειδή ρίχνει ένα ποτήρι, επειδή δεν κατανοεί σωστά μια αίθουσα επιχειρησιακής διαχείρισης κρίσεων ή επειδή επιλέγει λέξεις που διαβρώνουν την εμπιστοσύνη. Όταν ένα μοντέλο ανταμείβεται επειδή αφιέρωσε περισσότερο χρόνο σε έναν κώδικα και παρήγαγε το σωστό αποτέλεσμα, το οποίο επαληθεύεται άμεσα μέσω αυτοματοποιημένων tests, τότε μαθαίνει να σκέφτεται. Όταν αποτυγχάνει, τιμωρείται. Αυτό είναι άμεσο, ακριβές και κλιμακώσιμο. Οι βρόχοι ανατροφοδότησης που καθορίζουν την ενσώματη και κοινωνική νοημοσύνη παραμένουν σε μεγάλο βαθμό απόντες από τα σημερινά training regimes, τα οποία βασίζονται κυρίως σε δεδομένα βίντεο – ενθαρρύνοντας συστήματα που μαθαίνουν πώς μοιάζουν οι σκηνές, όχι πώς «αισθάνονται» ή πώς εξελίσσονται οι συνέπειες μέσα σε αυτές.

Η πρόβλεψη των ακριβών αναγκών σε υπολογιστική ισχύ είναι δύσκολη, αλλά η κατεύθυνση είναι σαφής. Καθώς τα foundation models γίνονται πιο αποδοτικά και οι εξειδικευμένοι επιταχυντές πολλαπλασιάζονται, το κόστος εκτέλεσης σύνθετων προσομοιώσεων συνεχίζει να μειώνεται. Το bottleneck μετατοπίζεται από την ακατέργαστη υπολογιστική ισχύ προς το εύρος και την ποιότητα της προσομοίωσης, καθώς και στο πόσο πιστά αυτή αποτυπώνει δυναμικές που έχουν πραγματική σημασία.

Αρκετά σήματα αξίζουν προσοχή. Οι επενδύσεις μετατοπίζονται από αυτόνομα μοντέλα προς πλήρη περιβάλλοντα προσομοίωσης. Τα συνθετικά δεδομένα αρχίζουν να υπερβαίνουν τα πραγματικά δεδομένα σε ορισμένα training regimes. Οι δείκτες αξιολόγησης μετακινούνται από την απλή πρόβλεψη προς την ποιότητα των αποφάσεων σε βάθος χρόνου. Μεγάλες οργανώσεις αναπτύσσουν ψηφιακά δίδυμα (digital twins) λειτουργιών, αγορών και υποδομών.

Τα μοντέλα που εκπαιδεύονται σε κείμενο φαίνεται να μπορούν να επιδεικνύουν μια μορφή κατανόησης του κόσμου μας. Ωστόσο, αυτή η κατανόηση προκύπτει μέσω δευτερογενούς ερμηνείας — κατανοούν πώς λειτουργεί ο κόσμος μας με βάση τα δεδομένα και τα κείμενα στα οποία έχουν εκτεθεί. Δεν διαθέτουν κατανόηση από πρώτες αρχές της φυσικής, της κίνησης, του φωτός, της δράσης/αντίδρασης ή άλλων θεμελιωδών ιδιοτήτων του σύμπαντός μας.

Οι επιπτώσεις των μοντέλων κατανόησης του κόσμου είναι λεπτές αλλά βαθιές. Η νοημοσύνη, τεχνητή ή μη, αφορά λιγότερο τις απαντήσεις και περισσότερο την πρόβλεψη και την πρόνοια. Τα μοντέλα κατανόησης του κόσμου δίνουν στις μηχανές κάτι που τους έλειπε για πολύ καιρό: μια αίσθηση των συνεπειών.

Για μεγάλο μέρος της πρόσφατης ιστορίας της, αντιμετωπίζαμε την Τεχνητή Νοημοσύνη ως ένα σύστημα που παράγει απαντήσεις. Τα μοντέλα κατανόησης του κόσμου υποδηλώνουν κάτι πιο φιλόδοξο. Δείχνουν προς μηχανές που κατανοούν το πλαίσιο, τους περιορισμούς και τις συνέπειες. Αν τα μεγάλα γλωσσικά μοντέλα προσδίδουν στην ΤΝ ευχέρεια στη γλώσσα, τα μοντέλα κατανόησης του κόσμου της δίνουν επίγνωση της κατάστασης στην οποία βρίσκονται. Αυτή η μετατόπιση αλλάζει το ίδιο το παράδειγμα. Η νοημοσύνη γίνεται λιγότερο ζήτημα παραγωγής εύλογων αποτελεσμάτων και περισσότερο ζήτημα πλοήγησης μέσα σε δομημένες πραγματικότητες. Σε αυτή τη μετάβαση βρίσκεται το επόμενο όριο – όχι μεγαλύτερα μοντέλα, αλλά βαθύτερα, συστήματα που συλλογίζονται μέσα σε κόσμους αντί απλώς να τους περιγράφουν.

Αν αυτή η μετάβαση πραγματοποιηθεί, θα αναδιαμορφώσει την ίδια τη βιομηχανία. Το ανταγωνιστικό πλεονέκτημα ενδέχεται να μην εξαρτάται μόνο από το ποιος εκπαιδεύει το μεγαλύτερο μοντέλο, αλλά και από το ποιος κατασκευάζει τις πιο πιστές προσομοιώσεις της πραγματικότητας – φυσικής, κοινωνικής και οικονομικής. Γι’ αυτό τα μοντέλα κατανόησης του κόσμου αποτελούν κάτι περισσότερο από μια τεχνική εξέλιξη. Υποδηλώνουν μια βαθύτερη αλλαγή στο τι είναι η Τεχνητή Νοημοσύνη και στο πόσο ριζικά μπορεί να αναδιαμορφώσει τις αποφάσεις που καθορίζουν τη σύγχρονη ζωή. Αυτή η αλλαγή θα απαιτήσει νέες επενδύσεις, νέες υποδομές και νέους τρόπους μέτρησης της προόδου. Οι οργανισμοί που θα αναγνωρίσουν έγκαιρα αυτή τη μετατόπιση θα είναι καλύτερα τοποθετημένοι όχι απλώς για να υιοθετήσουν την ΤΝ, αλλά για να την αξιοποιήσουν εκεί όπου έχει τη μεγαλύτερη σημασία – στις αποφάσεις που διαμορφώνουν τον πραγματικό κόσμο.



VIA: www.reporter.gr

Dimitris Marizas
Dimitris Marizashttps://techbit.gr
Μεταφράζω bits και bytes σε απλά ελληνικά. Λατρεύω την τεχνολογία που λύνει προβλήματα και αναζητώ πάντα το επόμενο "big thing" πριν γίνει mainstream.

Related Articles

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

- Advertisement -

Stay Connected

0ΥποστηρικτέςΚάντε Like
0ΑκόλουθοιΑκολουθήστε
- Advertisement -

Most Popular 48hrs

- Advertisement -

Latest Articles