Οι ερευνητές της Apple κατασκεύασαν ένα AI που δοκιμάζει πολλές ιδέες παράλληλα πριν απαντήσουν


Σε μια νέα , μια ομάδα ερευνητών της Apple περιγράφει λεπτομερώς ένα δημιουργικό πλαίσιο που βελτιώνει τις απαντήσεις LLM σε μαθηματικούς συλλογισμούς, δημιουργία κώδικα και πολλά άλλα. Εδώ είναι οι λεπτομέρειες.

Διάχυση και αυτοπαλίνδρομο, ενωμένα

Σε μια πρόσφατα αναθεωρημένη μελέτη με τίτλο LaDiR: Η λανθάνουσα διάχυση ενισχύει τα LLM για συλλογισμό κειμένουοι ερευνητές της Apple, μαζί με ερευνητές από το Πανεπιστήμιο της Καλιφόρνια, στο Σαν Ντιέγκο, περιγράφουν λεπτομερώς έναν ενδιαφέροντα τρόπο βελτίωσης της ποιότητας των απαντήσεων που παράγονται από μεγάλα γλωσσικά μοντέλα (LLM) σε ορισμένους τομείς.

Στο παρελθόν, έχουμε συζητήσει μοντέλα διάχυσης, τα οποία δημιουργούν κείμενο επαναλαμβάνοντας πολλά διακριτικά παράλληλα με κάθε πέρασμα, σε αντίθεση με τα αυτοπαλινδρομικά μοντέλα, τα οποία λειτουργούν με τον υπολογισμό και την πρόβλεψη των διακριτικών ένα προς ένα.

Η Apple εξέτασε ακόμη και μοντέλα διάχυσης που εφαρμόζονται στην πρόβλεψη και την κωδικοποίηση αναδίπλωσης πρωτεϊνών, κάτι που είναι ατελείωτα ενδιαφέρον.

Αυτό που κάνει το LaDiR, με λίγα λόγια, είναι να συνδυάζει και τις δύο προσεγγίσεις: υιοθετεί τη διάχυση κατά τη διαδικασία συλλογιστικής και στη συνέχεια δημιουργεί την τελική έξοδο αυτοπαλινδρομικά.

Επιπλέον, λειτουργεί με πολλά μονοπάτια συλλογιστικής παράλληλα, με το καθένα να τρέχει τη δική του διαδικασία διάχυσης, με έναν μηχανισμό που τους ωθεί να εξερευνήσουν διαφορετικές δυνατότητες, παράγοντας έτσι ένα ποικίλο σύνολο υποψηφίων απαντήσεων.

Εξηγούν ότι κατά τη διάρκεια του χρόνου εξαγωγής συμπερασμάτων, όταν το μοντέλο ουσιαστικά καταλήγει στο τι και πώς θα απαντήσει στην προτροπή του χρήστη, το LaDiR δημιουργεί μια σειρά κρυφών συλλογισμών, το καθένα ξεκινώντας ως ένα τυχαίο μοτίβο (ή θόρυβο) και σταδιακά βελτιώνεται σε ένα πιο συνεκτικό βήμα.

Μόλις το μοντέλο διαπιστώσει ότι έχει κάνει αρκετό συλλογισμό, μεταβαίνει στη δημιουργία της τελικής απάντησης αυτοπαλινδρομικά, ένα διακριτικό τη φορά.

Η βασική λεπτομέρεια είναι ότι το LaDiR μπορεί να τρέξει πολλά από αυτά τα μονοπάτια συλλογιστικής παράλληλα, με έναν μηχανισμό που το ενθαρρύνει να εξερευνήσει διαφορετικές δυνατότητες για να αποφύγει όλες να συγκλίνουν στην ίδια ιδέα πολύ νωρίς, ανατρέποντας τον σκοπό του όλου πράγματος.

Είναι σημαντικό ότι το LaDiR δεν είναι ένα νέο μοντέλο από μόνο του, αλλά μάλλον ένα πλαίσιο που βασίζεται στα υπάρχοντα γλωσσικά μοντέλα. Αλλάζει τον τρόπο με τον οποίο συλλογίζονται μέσα από ένα πρόβλημα, αντί να τα αντικαθιστά πλήρως.

Πώς αποδίδει το LaDiR

Στη μελέτη, οι ερευνητές εφάρμοσαν το LaDiR στο LLaMA 3.1 8B της για μαθηματικούς συλλογισμούς και σχεδιασμό παζλ και το Qwen3-8B-Base για τη δημιουργία κώδικα.

Στα σημεία αναφοράς, το LaDiR πέτυχε μεγαλύτερη ακρίβεια από τις υπάρχουσες προσεγγίσεις και έδειξε ισχυρότερη απόδοση ακόμη και σε πιο δύσκολες εργασίες εκτός διανομής.

Σε δείκτες αναφοράς δημιουργίας κώδικα όπως το HumanEval, το LaDiR παρήγαγε πιο αξιόπιστα αποτελέσματα, ξεπερνώντας την τυπική λεπτομέρεια με αξιοσημείωτο περιθώριο, ιδιαίτερα σε πιο δύσκολα προβλήματα.

Και σε εργασίες σχεδιασμού τύπου παζλ, όπως το παιχνίδι Αντίστροφης μέτρησης, το LaDiR διερεύνησε ένα ευρύτερο φάσμα έγκυρων απαντήσεων από οποιοδήποτε βασικό μοντέλο και βρήκε σωστές λύσεις πιο αξιόπιστα από όλες τις βασικές γραμμές γενικής χρήσης. Ωστόσο, υστερούσε σε ένα εξειδικευμένο, ειδικό μοντέλο για την ακρίβεια μιας προσπάθειας.

Ενώ ορισμένες από τις πτυχές του χαρτιού LaDiR μπορεί να γίνουν αρκετά τεχνικές, αξίζει να το διαβάσετε εάν ενδιαφέρεστε για την εσωτερική λειτουργία μεγάλων γλωσσικών μοντέλων και νέες προσεγγίσεις για τη βελτίωση της απόδοσης στη δημιουργία κειμένου.

Για να διαβάσετε ολόκληρη την εφημερίδα, ακολουθήστε αυτόν τον σύνδεσμο.

Αξίζει να το δείτε στο Amazon

Προσθέστε το 9to5Mac ως προτιμώμενη πηγή στο Google
Προσθέστε το 9to5Mac ως προτιμώμενη πηγή στο Google

FTC: Χρησιμοποιούμε συνδέσμους θυγατρικών που κερδίζουν αυτόματα εισόδημα. Περισσότερο.



VIA: 9to5mac.com

Dimitris Marizas
Dimitris Marizashttps://techbit.gr
Μεταφράζω bits και bytes σε απλά ελληνικά. Λατρεύω την τεχνολογία που λύνει προβλήματα και αναζητώ πάντα το επόμενο "big thing" πριν γίνει mainstream.

Related Articles

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

- Advertisement -

Stay Connected

0ΥποστηρικτέςΚάντε Like
0ΑκόλουθοιΑκολουθήστε
- Advertisement -

Most Popular 48hrs

- Advertisement -

Latest Articles