Η απόκτηση μεγάλων γλωσσικών μοντέλων (LLMS) για να λογοδοτήσει καλύτερα είναι ένα πράγμα. Να τους κάνει να το κάνουν χωρίς να καίγονται μέσα από παράλογες ποσότητες υπολογισμού είναι ένα άλλο. Ένα νέο ερευνητικό έγγραφο από τους Tu Darmstadt, UCLA, Google Deepmind και Mila σκάβει βαθιά σε αυτό το συμβιβασμό-και μπορεί απλώς να αλλάξει τον τρόπο με τον οποίο οι προγραμματιστές της AI σκέφτονται για την κλιμάκωση της λογικής κατά τη διάρκεια της δοκιμής.
Η βασική ένταση; Το αν τα LLMs πρέπει να ξοδεύουν τον υπολογισμό τους δημιουργώντας περισσότερες απαντήσεις (αυτό που είναι γνωστό ως αυτοσυγκέντρωση ή SC), ή επαληθεύοντας μερικές υποσχόμενες απαντήσεις χρησιμοποιώντας γενετικά μοντέλα ανταμοιβής (GENRMS). Αποδεικνύεται ότι η επιλογή του Wrong μπορεί να κάνει το μοντέλο σας να απορρίψει έως και 128 φορές περισσότερο υπολογισμό – για ένα ελάχιστα αξιοσημείωτο χτύπημα απόδοσης.
Τα νέα μαθηματικά της λογικής σε κλίμακα
Τα LLMs όπως το GPT-4, το LLAMA ή το QWEN έχουν πάρει συγκλονιστικά καλά στην επίλυση μαθηματικών και επιστημονικών προβλημάτων δημιουργώντας πολλαπλές αλυσίδες σκέψης (COTS) και επιλέγοντας το πιο κοινό αποτέλεσμα. Αυτή είναι η ιδέα πίσω από τη σοφία της σοφίας του πλήθους. Αλλά οι ερευνητές έχουν επίσης ενθουσιασμένους από το GENRMS, μια νεότερη προσέγγιση που επιτρέπει στο LLMS να ενεργεί σαν τον δικό τους δικαστή, επαληθεύοντας τις απαντήσεις μέσω περαιτέρω λογικής αλυσίδας.
Οι προηγούμενες συγκρίσεις που έκαναν το GENRM να φαίνονται άγρια αποτελεσματικές: η αντιστοίχιση της ακρίβειας της SC με 4 × λιγότερες λύσεις. Αλλά αυτό το έγγραφο καλεί αυτό το πλαίσιο – σκληρά. Γιατί; Επειδή κανείς δεν υπολογίζει το πραγματικό κόστος υπολογισμού όλων αυτών των βημάτων επαλήθευσης.
Υπολογίστε τους προϋπολογισμούς αλλάζουν τα πάντα
Αυτή η μελέτη εισάγει ένα καθαρό πλαίσιο για τη μέτρηση του πραγματικού κόστους των προσεγγίσεων SC και GENRM υπό σταθερό προϋπολογισμό υπολογισμού. Λειτουργεί έτσι: Μπορείτε είτε να περάσετε υπολογισμό δημιουργώντας περισσότερες απαντήσεις (SC), είτε να χωρίσετε αυτόν τον προϋπολογισμό ανάμεσα σε μερικές απαντήσεις και πολλές επαληθεύσεις (GENRM). Το μοντέλο τους για τον υπολογισμό του υπολογισμού του συνολικού συμπερασμού είναι αναζωογονητικά απλό: C (S, V) = S (1 + λV), όπου S είναι ο αριθμός των λύσεων, V ο αριθμός των επαληθεύσεων και το λ αντανακλά το μήκος επαλήθευσης σε σχέση με τις λύσεις.
Το βάναυσο αποτέλεσμα: Το SC εξακολουθεί να είναι βασιλιάς (εκτός αν είστε πλούσιοι)
Τα πειράματα άφησαν λίγη αμφιβολία. Σε όλα τα μοντέλα LLAMA και QWEN, από 7B έως 70B παραμέτρους, και σε καθήκοντα συλλογισμού μαθηματικών και επιστημών, η ιστορία επαναλήφθηκε: η SC ξεπέρασε το GENRM σε χαμηλότερους προϋπολογισμούς υπολογισμού. Μόνο όταν ο υπολογισμός κλιμάκωσε το παρελθόν 8 × το GENRM προκάλεσε. Και η απόκτηση μέτριας αύξησης της απόδοσης κατά 3,8% πάνω από το SC απαιτούσε ένα μάτι με 128 × πιο υπολογισμό.
Αυτό το αποτέλεσμα συγκρατήθηκε ακόμη και για προχωρημένα “μοντέλα σκέψης” όπως το QWQ-32B, και σε σκληρά σύνολα δεδομένων μαθηματικών όπως το AIME24. Η SC κερδίζει όταν ο υπολογισμός είναι σφιχτός. Το GENRM έχει νόημα μόνο όταν ο υπολογισμός είναι πρακτικά δωρεάν – ή όταν τα προβλήματα είναι τόσο δύσκολα ώστε η επαλήθευση να αποδίδει δραματικά.
Το IEA προειδοποιεί: Το AI θα μπορούσε να διπλασιάσει τη χρήση ενέργειας παγκόσμιου κέντρου δεδομένων μέχρι το 2030
Ο έξυπνος τρόπος για να χρησιμοποιήσετε το genrm (αν πρέπει)
Ακόμα, η μελέτη δεν απορρίπτει εξ ολοκλήρου το GENRM. Στην πραγματικότητα, προέρχεται νόμοι περί κλιμάκωσης των συμπερασμάτων Για το genrm-ένα σχέδιο για την επίλυση προβλημάτων υπολογισμού. Το βασικό εύρημα; Κατά την κλιμάκωση του GENRM, κατανείμει τον υπολογισμό προς τη δημιουργία λύσεων ταχύτερα από τις επαληθεύσεις – περίπου 1,5 έως 2 φορές ταχύτερα. Στους αριθμούς, οι νόμοι κλιμάκωσης τους βρήκαν τις βέλτιστες κλίμακες μέτρησης λύσεων με τον υπολογισμό του προϋπολογισμού ως S ∝ C^0.57, ενώ η βέλτιστη κλίμακα επαληθεύσεων ως V ∝ C^0.39.
Αυτή η έρευνα αφήνει τους επαγγελματίες με έναν πολύ πρακτικό οδηγό: εάν ο υπολογιστής είναι περιορισμένος, εμπιστοσύνη SC και ξοδεύει για τη δημιουργία περισσότερων λύσεων. Εάν ο υπολογισμός είναι άφθονος και ειδικά αν ασχολείστε με σκληρότερα καθήκοντα συλλογισμού, η χρήση του GENRM με τη σωστή ισορροπία κλιμάκωσης μπορεί να αξίζει τον κόπο – αλλά μόνο με σοβαρή βελτιστοποίηση.
Για τους προγραμματιστές του AI που αντιμετωπίζουν περιορισμούς πραγματικού κόσμου, το Takeaway είναι σχεδόν κωμικά απλό: περισσότερη σκέψη χτυπά πιο επαλήθευση, εκτός και αν έχετε πλησιέστερους πόρους. Και ακόμη και τότε, η επαλήθευση πρέπει να είναι έξυπνη, αποτελεσματική και ελάχιστη.
Το πλήρες χαρτί, “Πότε να λύσουμε, πότε θα επαληθεύσετε: Υπολογίστε τη βέλτιστη επίλυση προβλημάτων και γενετική επαλήθευση για τη συλλογιστική LLM“Είναι διαθέσιμο στις arxiv. Το codebase είναι ανοιχτό στο Github.
VIA: DataConomy.com