Γιατί να ρίξετε περισσότερους υπολογιστές AI στην επαλήθευση μπορεί να είναι λάθος

11 Απριλίου, 2025

194

Περιεχόμενα Άρθρου [hide]

Τα νέα μαθηματικά της λογικής σε κλίμακα
- Μείνετε μπροστά από την καμπύλη!
Υπολογίστε τους προϋπολογισμούς αλλάζουν τα πάντα
Το βάναυσο αποτέλεσμα: Το SC εξακολουθεί να είναι βασιλιάς (εκτός αν είστε πλούσιοι)
Ο έξυπνος τρόπος για να χρησιμοποιήσετε το genrm (αν πρέπει)

Η απόκτηση μεγάλων γλωσσικών μοντέλων (LLMS) για να λογοδοτήσει καλύτερα είναι ένα πράγμα. Να τους κάνει να το κάνουν χωρίς να καίγονται μέσα από παράλογες ποσότητες υπολογισμού είναι ένα άλλο. Ένα νέο ερευνητικό έγγραφο από τους Tu Darmstadt, UCLA, Google Deepmind και Mila σκάβει βαθιά σε αυτό το συμβιβασμό-και μπορεί απλώς να αλλάξει τον τρόπο με τον οποίο οι προγραμματιστές της AI σκέφτονται για την κλιμάκωση της λογικής κατά τη διάρκεια της δοκιμής.

Η βασική ένταση; Το αν τα LLMs πρέπει να ξοδεύουν τον υπολογισμό τους δημιουργώντας περισσότερες απαντήσεις (αυτό που είναι γνωστό ως αυτοσυγκέντρωση ή SC), ή επαληθεύοντας μερικές υποσχόμενες απαντήσεις χρησιμοποιώντας γενετικά μοντέλα ανταμοιβής (GENRMS). Αποδεικνύεται ότι η επιλογή του Wrong μπορεί να κάνει το μοντέλο σας να απορρίψει έως και 128 φορές περισσότερο υπολογισμό – για ένα ελάχιστα αξιοσημείωτο χτύπημα απόδοσης.

Τα νέα μαθηματικά της λογικής σε κλίμακα

Τα LLMs όπως το GPT-4, το LLAMA ή το QWEN έχουν πάρει συγκλονιστικά καλά στην επίλυση μαθηματικών και επιστημονικών προβλημάτων δημιουργώντας πολλαπλές αλυσίδες σκέψης (COTS) και επιλέγοντας το πιο κοινό αποτέλεσμα. Αυτή είναι η ιδέα πίσω από τη σοφία της σοφίας του πλήθους. Αλλά οι ερευνητές έχουν επίσης ενθουσιασμένους από το GENRMS, μια νεότερη προσέγγιση που επιτρέπει στο LLMS να ενεργεί σαν τον δικό τους δικαστή, επαληθεύοντας τις απαντήσεις μέσω περαιτέρω λογικής αλυσίδας.

Οι προηγούμενες συγκρίσεις που έκαναν το GENRM να φαίνονται άγρια αποτελεσματικές: η αντιστοίχιση της ακρίβειας της SC με 4 × λιγότερες λύσεις. Αλλά αυτό το έγγραφο καλεί αυτό το πλαίσιο – σκληρά. Γιατί; Επειδή κανείς δεν υπολογίζει το πραγματικό κόστος υπολογισμού όλων αυτών των βημάτων επαλήθευσης.

Υπολογίστε τους προϋπολογισμούς αλλάζουν τα πάντα

Αυτή η μελέτη εισάγει ένα καθαρό πλαίσιο για τη μέτρηση του πραγματικού κόστους των προσεγγίσεων SC και GENRM υπό σταθερό προϋπολογισμό υπολογισμού. Λειτουργεί έτσι: Μπορείτε είτε να περάσετε υπολογισμό δημιουργώντας περισσότερες απαντήσεις (SC), είτε να χωρίσετε αυτόν τον προϋπολογισμό ανάμεσα σε μερικές απαντήσεις και πολλές επαληθεύσεις (GENRM). Το μοντέλο τους για τον υπολογισμό του υπολογισμού του συνολικού συμπερασμού είναι αναζωογονητικά απλό: C (S, V) = S (1 + λV), όπου S είναι ο αριθμός των λύσεων, V ο αριθμός των επαληθεύσεων και το λ αντανακλά το μήκος επαλήθευσης σε σχέση με τις λύσεις.

Το βάναυσο αποτέλεσμα: Το SC εξακολουθεί να είναι βασιλιάς (εκτός αν είστε πλούσιοι)

Τα πειράματα άφησαν λίγη αμφιβολία. Σε όλα τα μοντέλα LLAMA και QWEN, από 7B έως 70B παραμέτρους, και σε καθήκοντα συλλογισμού μαθηματικών και επιστημών, η ιστορία επαναλήφθηκε: η SC ξεπέρασε το GENRM σε χαμηλότερους προϋπολογισμούς υπολογισμού. Μόνο όταν ο υπολογισμός κλιμάκωσε το παρελθόν 8 × το GENRM προκάλεσε. Και η απόκτηση μέτριας αύξησης της απόδοσης κατά 3,8% πάνω από το SC απαιτούσε ένα μάτι με 128 × πιο υπολογισμό.

Αυτό το αποτέλεσμα συγκρατήθηκε ακόμη και για προχωρημένα “μοντέλα σκέψης” όπως το QWQ-32B, και σε σκληρά σύνολα δεδομένων μαθηματικών όπως το AIME24. Η SC κερδίζει όταν ο υπολογισμός είναι σφιχτός. Το GENRM έχει νόημα μόνο όταν ο υπολογισμός είναι πρακτικά δωρεάν – ή όταν τα προβλήματα είναι τόσο δύσκολα ώστε η επαλήθευση να αποδίδει δραματικά.

Το IEA προειδοποιεί: Το AI θα μπορούσε να διπλασιάσει τη χρήση ενέργειας παγκόσμιου κέντρου δεδομένων μέχρι το 2030

Ο έξυπνος τρόπος για να χρησιμοποιήσετε το genrm (αν πρέπει)

Ακόμα, η μελέτη δεν απορρίπτει εξ ολοκλήρου το GENRM. Στην πραγματικότητα, προέρχεται νόμοι περί κλιμάκωσης των συμπερασμάτων Για το genrm-ένα σχέδιο για την επίλυση προβλημάτων υπολογισμού. Το βασικό εύρημα; Κατά την κλιμάκωση του GENRM, κατανείμει τον υπολογισμό προς τη δημιουργία λύσεων ταχύτερα από τις επαληθεύσεις – περίπου 1,5 έως 2 φορές ταχύτερα. Στους αριθμούς, οι νόμοι κλιμάκωσης τους βρήκαν τις βέλτιστες κλίμακες μέτρησης λύσεων με τον υπολογισμό του προϋπολογισμού ως S ∝ C^0.57, ενώ η βέλτιστη κλίμακα επαληθεύσεων ως V ∝ C^0.39.

Αυτή η έρευνα αφήνει τους επαγγελματίες με έναν πολύ πρακτικό οδηγό: εάν ο υπολογιστής είναι περιορισμένος, εμπιστοσύνη SC και ξοδεύει για τη δημιουργία περισσότερων λύσεων. Εάν ο υπολογισμός είναι άφθονος και ειδικά αν ασχολείστε με σκληρότερα καθήκοντα συλλογισμού, η χρήση του GENRM με τη σωστή ισορροπία κλιμάκωσης μπορεί να αξίζει τον κόπο – αλλά μόνο με σοβαρή βελτιστοποίηση.

Για τους προγραμματιστές του AI που αντιμετωπίζουν περιορισμούς πραγματικού κόσμου, το Takeaway είναι σχεδόν κωμικά απλό: περισσότερη σκέψη χτυπά πιο επαλήθευση, εκτός και αν έχετε πλησιέστερους πόρους. Και ακόμη και τότε, η επαλήθευση πρέπει να είναι έξυπνη, αποτελεσματική και ελάχιστη.

Το πλήρες χαρτί, “Πότε να λύσουμε, πότε θα επαληθεύσετε: Υπολογίστε τη βέλτιστη επίλυση προβλημάτων και γενετική επαλήθευση για τη συλλογιστική LLM“Είναι διαθέσιμο στις arxiv. Το codebase είναι ανοιχτό στο Github.

Προτεινόμενη πίστωση εικόνας

VIA: DataConomy.com

- Advertisement -

Προηγούμενο άρθρο

Οξεία επίθεση της Έφης Κουτσουρέλη, αντιπροέδρου της Quest, στη διοίκηση του ΣΕΠΕ

Επόμενο άρθρο

Η Microsoft λέει ότι το Browser Edge είναι τώρα 9% ταχύτερο μετά τις βελτιστοποιήσεις

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

εισάγετε το σχόλιό σας!

παρακαλώ εισάγετε το όνομά σας εδώ

έχετε εισάγει εσφαλμένη διεύθυνση ηλεκτρονικού ταχυδρομείου!

παρακαλώ εισάγετε εδώ την ηλεκτρονική σας διεύθυνση

Γιατί να ρίξετε περισσότερους υπολογιστές AI στην επαλήθευση μπορεί να είναι λάθος

Περιεχόμενα Άρθρου [hide]

Τα νέα μαθηματικά της λογικής σε κλίμακα

Υπολογίστε τους προϋπολογισμούς αλλάζουν τα πάντα

Το βάναυσο αποτέλεσμα: Το SC εξακολουθεί να είναι βασιλιάς (εκτός αν είστε πλούσιοι)

Ο έξυπνος τρόπος για να χρησιμοποιήσετε το genrm (αν πρέπει)

Το Google Gemini AI παίρνει τη δυνατότητα προγραμματισμένων ενεργειών που μοιάζει με το ChatGPT

Είναι οι πράκτορες AI τα νέα σύνορα μετάφρασης μηχανής;

Υπολογισμός χρόνου ύπνου: Γνωρίστε το LLM που σκέφτεται ενώ κοιμάστε

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

Most Popular

Ένα Apple Watch από γυαλί – Το iPhone των ονείρων του Jony Ive;

Entrepreneurial Advertising: The Future Of Marketing

Ηθοποιοί τέλος στον 5ο κύκλο

Αρχαιολόγοι ανακάλυψαν μυστηριώδεις δομές κάτω από τις πυραμίδες της Αιγύπτου

EDITOR PICKS

Ubisoft Αντιτίθεται σε Αγωγή για το Κλείσιμο του The Crew

Κρίσιμη Ευπάθεια στα Windows Χρησιμοποιήθηκε σε Στοχευμένες Επιθέσεις Ransomware

Πενήντα Χρόνια Microsoft: Από το Altair 8800 στην Επανάσταση της Τεχνητής Νοημοσύνης

POPULAR POSTS

Ένα Apple Watch από γυαλί – Το iPhone των ονείρων του Jony Ive;

Entrepreneurial Advertising: The Future Of Marketing

Ηθοποιοί τέλος στον 5ο κύκλο

POPULAR CATEGORY

Σχετικά με το TechBit

FOLLOW US

Γιατί να ρίξετε περισσότερους υπολογιστές AI στην επαλήθευση μπορεί να είναι λάθος

Περιεχόμενα Άρθρου [hide]

Τα νέα μαθηματικά της λογικής σε κλίμακα

Μείνετε μπροστά από την καμπύλη!

Υπολογίστε τους προϋπολογισμούς αλλάζουν τα πάντα

Το βάναυσο αποτέλεσμα: Το SC εξακολουθεί να είναι βασιλιάς (εκτός αν είστε πλούσιοι)

Ο έξυπνος τρόπος για να χρησιμοποιήσετε το genrm (αν πρέπει)

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

Most Popular

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY

Σχετικά με το TechBit

FOLLOW US