back to top
Σάββατο, 19 Απριλίου, 2025
ΑρχικήEconomyΥπολογισμός χρόνου ύπνου: Γνωρίστε το LLM που σκέφτεται ενώ κοιμάστε

Υπολογισμός χρόνου ύπνου: Γνωρίστε το LLM που σκέφτεται ενώ κοιμάστε

- Advertisment -


Πατήστε “Εκτέλεση” σε έναν βοηθό με την GPT και, στη συνέχεια, παρακολουθήστε τον κλώστη. Τα δευτερόλεπτα τεντώνονται σε λεπτά, τα μέτρα συμβολαίων ανεβαίνουν και ο μετρητής στο τιμολόγιο OpenAi σέρνεται ψηλότερα. Η καθυστέρηση και το κόστος έχουν γίνει ο αόρατος φόρος για την έκρηξη μεγάλου γλωσσικού μοντέλου, ειδικά όταν ένα ενιαίο σκληρό ερώτημα μπορεί να προκαλέσει χιλιάδες μάρκες φρέσκων συμπερασμάτων. Μια νέα ερευνητική πρόταση που ονομάζεται Υπολογισμός ύπνου Υποστηρίζει ότι αυτά τα μάρκες συχνά δαπανώνται σε λάθος φάση της ροής εργασίας. Αντί να γεμίζετε όλους τους συλλογισμούς στη στιγμή που εισέρχεται ο χρήστης, γιατί να μην αφήσετε το μοντέλο να “σκεφτεί” κατά τη διάρκεια των ωρών του, να μετατρέψετε το ακατέργαστο πλαίσιο σε επαναχρησιμοποιήσιμη διορατικότητα και να μειώσετε το νομοσχέδιο όταν τελικά φτάσει το πραγματικό ερώτημα;

Η ιδέα αισθάνεται οικεία σε όποιον έχει προγραμματίσει ποτέ έναν δείκτη βάσης δεδομένων ή έναν κώδικα που έχει καταρτιστεί πριν από την αποστολή: προεπεξεργασία ενώ κανείς δεν κοιτάζει, ανταποκρίνεται αμέσως όταν είναι. Ωστόσο, η εφαρμογή αυτής της νοοτροπίας στα γλωσσικά μοντέλα απαιτεί νέα σημεία αναφοράς, προσεκτική λογιστική και απόδειξη ότι οι μεταφορές προσπαθειών εκτός σύνδεσης στην online ακρίβεια. Ο Kevin Lin και οι συνάδελφοί του από την Letta και την UC Berkeley παρέχουν ακριβώς αυτά τα στοιχεία στο “Υπολογισμός χρόνου ύπνου: Πέρα από την κλιμάκωση των συμπερασμάτων κατά τη διάρκεια της δοκιμής“Και οι αριθμοί τους υποδηλώνουν μια επανεξέταση του τρόπου με τον οποίο οι κύκλοι GPU του προϋπολογισμού των επιχειρήσεων AI.

Η παραδοσιακή κλιμάκωση του χρόνου δοκιμής λέει στο LLM να λειτουργεί σκληρότερα όταν το ερώτημα είναι δύσκολο: δείγμα πολλαπλών αλυσίδων σκέψης, επεκτείνει το ίχνος συλλογιστικής, τις απαντήσεις rerank ή τις δεκάδες υποψήφιες απαντήσεις παράλληλα. Αυτά τα κόλπα ενισχύουν την ακρίβεια για τα μαθηματικά, την κωδικοποίηση και τα καθήκοντα γνώσης, αλλά επίσης φουσκώνουν την καθυστέρηση και την αποχέτευση πορτοφολιών. Οι χρήστες περιμένουν. Οι πωλητές πληρώνουν. Ακόμη χειρότερα, το παράδειγμα αναλαμβάνει κάθε ερώτημα είναι ένα απάθυρο εφάπαξ που φτάνει με το πλήρες πλαίσιο του στο ίδιο αίτημα.

Στον πραγματικό κόσμο, τα πλαίσια επιμένουν. Τα bots -υποστήριξης πελατών ξαναδιαβάζουν την ίδια βάση γνώσεων, οι κωδικοποιητικοί πράκτορες περιηγούνται στο ίδιο αποθετήριο και οι ερευνητικοί copilots επανεξετάζουν ένα κοινό σώμα εγγράφων. Οι συγγραφείς υποστηρίζουν ότι σε αυτές τις κρατικές ρυθμίσεις, τα τεράστια κομμάτια της συλλογιστικής εκτελούνται περιττά. Ο υπολογισμός του χρόνου ύπνου εκμεταλλεύεται αυτή την απόλυση, επιτρέποντας στο μοντέλο να προ -παραβιάζει το πλαίσιο κατά τη διάρκεια των παραθύρων αδράνειας, να δημιουργήσει μια αποσταγμένη, έτοιμη αναπαράσταση και να το αποθηκεύσει για μεταγενέστερη επαναχρησιμοποίηση. Όταν ο χρήστης ρωτά τελικά, το LLM απαντά σε ένα κλάσμα των μαρκών, επειδή μεγάλο μέρος της βαριάς ανύψωσης είναι ήδη ψημένο στην προτροπή.

Γιατί ο υπολογισμός του χρόνου ύπνου ξαναγράφει την καμπύλη κόστους

Οι ερευνητές επισημοποιούν τη ροή εργασίας σε δύο φάσεις. Κατά την διάρκεια ύπνος Το μοντέλο βλέπει μόνο το πλαίσιο ντοπροβλέπει πιθανές γωνίες ενδιαφέροντος και παράγει ένα επανορθωμένο πλαίσιο ντο’ Αυτό περιέχει ενδιάμεσες μειώσεις, δομημένες περιλήψεις ή αποθηκευμένη αλυσίδα με θεωρημένες αποσπάσματα. Κατά την διάρκεια δοκιμή Το ερώτημα του χρήστη q φτάνει. Το μοντέλο λαμβάνει τώρα ντο’ Αντί για το ακατέργαστο πλαίσιο και μπορεί να φτάσει στη σωστή απάντηση με έναν πολύ μικρότερο προϋπολογισμό υπολογισμού σι. Επειδή οι ώρες αδράνειας είναι φθηνές και παραλληλισμένες, ο οργανισμός πληρώνει τα ποσοστά χαμηλής προέλευσης για την προεπεξεργασία και διατηρεί την ικανότητα συμπερασμάτων για την ανταπόκριση της αντιμετώπισης των χρηστών.

Για να ποσοτικοποιήσει το όφελος, η ομάδα χωρίστηκε δύο κλασικές σουίτες μαθηματικών – GSM -Symbolic και Aime -Into Κρατικός Παραλλαγές όπου κάθε πρόβλημα αποσυντίθεται σε παράγραφο πλαισίου και ξεχωριστή ερώτηση. Κατασκευάστηκαν επίσης Συμβατικό Multi -Queryστο οποίο κάθε πλαίσιο δημιουργεί αρκετές σχετικές ερωτήσεις, μιμώντας έναν χρήστη που συνεχίζει να σπρώχνει στο ίδιο έγγραφο. Ο πίνακας αξιολόγησης συνέκρινε την αρχική γραμμή GPT -4O, GPT -4O -Mini, O1, O3 -Mini, Claude Sonnet και Deepseek -R1 κάτω από τρεις συνθήκες: τυπική κλιμάκωση δοκιμής, υπολογισμός χρόνου ύπνου με διαφορετικούς προϋπολογισμούς εκτός σύνδεσης και pass-@@@k παράλληλη δειγματοληψία.

Τι δείχνουν τα πειράματα

Σε κάθε μοντέλο εκτός από το μικρότερο O1, η στρατηγική ύπνου έσπρωξε τα σύνορα ακρίβειας –. Επί Κρατικός GSM -symbolic και Κρατικό aime Οι συγγραφείς αναφέρουν:

  • 5 × χαμηλότερη Οι μάρκες δοκιμής για να χτυπήσουν την ίδια ακρίβεια με τη βασική διαδοχική αλυσίδα με τη σκέψη.
  • 13 % Κερδίστε ακρίβεια στο GSM όταν ο προϋπολογισμός εκτός σύνδεσης μειώθηκε έως και πέντε παράλληλες γενιές ύπνου.
  • 18 % Κερδίστε ακρίβεια στο AIME με ίχνη εκτός σύνδεσης υψηλότερης προσπάθειας.
  • 2,5 × μείωση με μέσο κόστος ανά ερώτημα όταν δέκα σχετικές ερωτήσεις μοιράστηκαν το ίδιο προεπεξεργασμένο πλαίσιο.

Ίσως πιο εντυπωσιακό, υπολογιστικό ύπνου Κτυπήστε το κανονικό πέρασμα -@k κόλπο σε ίσους προϋπολογισμούς δοκιμής. Πέρασμα-@k υποθέτει ότι ένας επαληθευτής μαντείου μπορεί να επιλέξει αμέσως το καλύτερο k Συλλέχθηκαν απαντήσεις, ένα μη ρεαλιστικό δεκανίκι στην παραγωγή. Ο υπολογισμός του χρόνου ύπνου φτάνει σε υψηλότερη ακρίβεια χωρίς αυτή την πολυτέλεια, επειδή η βαριά συλλογιστική ήδη ζει ντο’.

Η αποπληρωμή είναι ευαίσθητη στο πόσο προβλέψιμη είναι η τελική ερώτηση. Όταν οι ερευνητές διέκοψαν τα στοιχεία του GSM από την πιθανότητα καταγραφής ότι το LLAMA -2 ανατέθηκε στο ερώτημα δεδομένου του πλαισίου, το δέλτα ακρίβειας μεταξύ του χρόνου ύπνου και της γραμμής βάσης διευρύνθηκε για το πιο προβλέψιμο πεμπτημόριο. Σε απλά αγγλικά: Όσο πιο προφανές είναι η ερώτηση που ακολουθεί, τόσο μεγαλύτερη είναι η νίκη από την προετοιμασία της εργασίας σας εκ των προτέρων.

Οι αριθμοί είναι ένα πράγμα. Οι επιπτώσεις των προϊόντων είναι άλλες. Οι συγγραφείς εκτελούν μια πραγματική δοκιμή αποθετηρίου που ονομάζεται Γλυκές στην οποία ένας πράκτορας πρέπει να τροποποιήσει τρία ή περισσότερα αρχεία για να εφαρμόσει μια λειτουργία. Με μόνο χαμηλό προϋπολογισμό δοκιμής, ο υπολογιστής sleep -time compute cut token χρησιμοποιεί κατά περίπου 50 τοις εκατό, ενώ ταιριάζει με το F1, που σημαίνει ταχύτερες συγχωνεύσεις και χαμηλότερους λογαριασμούς GPU σε bots συνεχούς ενσωμάτωσης. Σε πολύ υψηλούς προϋπολογισμούς, η κλασική συλλογιστική δοκιμής επανέκτησε ένα ελαφρύ πλεονέκτημα στην ακρίβεια, υποδηλώνοντας μια υβριδική πολιτική: να κατανείμει εκτός σύνδεσης να υπολογίζει επιθετικά όταν η καθυστέρηση έχει σημασία ή όταν τα πλαίσια θα επαναχρησιμοποιηθούν, θα επιστρέψουν σε πλούσιες σε απευθείας σύνδεση αλυσίδες μόνο για ένα one -off ή εξαιρετικά απρόβλεπτα ερωτήματα.

Το πλαίσιο ανοίγει επίσης τις πόρτες για τη δημιουργία συνθετικών δεδομένων. Εάν η συλλογιστική του ύπνου παράγει πλούσιες αναπαραστάσεις φυσικής γλώσσας ενός κώδικα ή εγγράφου, τα ίδια τα αντικείμενα γίνονται δεδομένα κατάρτισης για μελλοντική λεπτή εκκαθάριση – έναν ενάρετο βρόχο όπου οι σπόροι που σκέφτονται εκτός σύνδεσης την επόμενη γενιά βελτιώσεων μοντέλου χωρίς να ξύνουν περισσότερο κείμενο στο Διαδίκτυο.

Λειτουργικά, η τεχνική προσκαλεί ερωτήσεις μηχανικής. Πόσο συχνά πρέπει να ανανεώνεται η ανανέωση της προσωρινής μνήμης περιβάλλοντος; Πόσο μεγάλο μπορεί ντο’ Αναπτύξτε πριν ακυρώσει την εξοικονόμηση συμβόλων; Ποιοι κύκλοι αδράνειας είναι πραγματικά ελεύθεροι σε ένα κοινόχρηστο σύμπλεγμα; Ωστόσο, κανένα από αυτά τα εμπόδια δεν φαίνεται τόσο τρομερά όσο η σημερινή πραγματικότητα της πληρωμής των τιμών σε πραγματικό χρόνο για περιττή συλλογιστική. Οι επιχειρήσεις που ήδη προγραμματίζουν νυχτερινά χτίζουν, ανιχνεύει η αναζήτηση ή οι υλοποιημένες προβολές έχουν ψυχικά μοντέλα για αυτή τη βελτιστοποίηση.


Πώς το LLMS γίνεται ήσυχα οι τελικοί ιστορικοί της πόλης


Όπου η σκέψη εκτός σύνδεσης ταιριάζει στη συνέχεια

Ο υπολογιστής ύπνου δεν είναι ασημένια σφαίρα. Ερωτήματα που τυφλά -δίπλα στο σύστημα ή τα περιβάλλοντα που μεταλλάσσονται πολύ γρήγορα θα απαιτούν ακόμα φρέσκες αλυσίδες σκέψης. Το ίδιο το έγγραφο σηματοδοτεί την ανοικτή έρευνα σε προσαρμοστικές πολιτικές που προβλέπουν όταν οι επενδύσεις εκτός σύνδεσης θα αποδώσουν, ίσως με την εκτίμηση της εντροπίας του περιβάλλοντος ή της διανομής προθέσεων χρήστη. Ακόμα κι έτσι, το βασικό takeaway στέκεται: μεγάλα μοντέλα γλωσσών δεν χρειάζεται να σκέφτονται μόνο όταν ο χρήστης παρακολουθεί. Με το δανεισμό ενός τέχνασμα πληροφορικής για την ηλικία – να δουλέψει απόψε απόψε – οι αναπτυγμένοι μπορούν να μειώσουν την καθυστέρηση, να συρρικνώσουν τους λογαριασμούς και να ανεβαίνουν στη σκάλα ακρίβειας.

Το συμπέρασμα: Η επόμενη λειτουργία LLM ενδέχεται να μην απαιτεί μεγαλύτερο μοντέλο ή βαθύτερο προϋπολογισμό συλλογισμού. Μπορεί απλώς να χρειαστεί να αφήσουμε πρώτα το μοντέλο να κοιμηθεί στο πρόβλημα.


Προτεινόμενη πίστωση εικόνας



VIA: DataConomy.com

- Advertisement -
- Advertisment -
Dimitris Marizas
Dimitris Marizashttps://techbit.gr
Παθιασμένος με τις νέες τεχνολογίες, με έφεση στην καινοτομία και τη δημιουργικότητα. Διαρκώς αναζητώ τρόπους αξιοποίησης της τεχνολογίας για την επίλυση προβλημάτων και τη βελτίωση της καθημερινής ζωής.
RELATED ARTICLES

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

- Advertisment -

Most Popular

- Advertisment -