back to top
Κυριακή, 20 Απριλίου, 2025
ΑρχικήEconomyBytedance Vapo: Η αναβάθμιση AI θα ακούσετε σύντομα

Bytedance Vapo: Η αναβάθμιση AI θα ακούσετε σύντομα

- Advertisment -

Περιεχόμενα Άρθρου [hide]


Οι ερευνητές των σπόρων από την TETENCE ανέτρεψαν την αύξηση της βελτιστοποίησης της εγγύς πολιτικής (VAPO), ένα πλαίσιο εκπαίδευσης ενίσχυσης που σχεδιάστηκε για να ακονίσει τη συλλογιστική των μεγάλων γλωσσικών μοντέλων σε πολύπλοκα, χρονοβόρα καθήκοντα, επιτυγχάνοντας νέα προκύπτουντα προκύπτουσα στο σημείο αναφοράς του AIME24.

Εκπαίδευση LLMS για περίπλοκη συλλογιστική χρησιμοποιώντας την εκμάθηση ενισχυτής με βάση την αξία που αντιμετωπίζει προηγουμένως σημαντικά εμπόδια. Οι μέθοδοι αγωνίστηκαν με μεροληψία μοντέλου αξίας, προσαρμόστε αποτελεσματικά τις ακολουθίες απόκρισης ευρέως μεταβαλλόμενων μήκους και τη διαχείριση σήματος αραιής ανταμοιβής, ειδικά σε εργασίες που βασίζονται σε επαληθευτές που παρέχουν μόνο δυαδική ανατροφοδότηση.

Το VAPO αντιμετωπίζει αυτές τις προκλήσεις μέσω τριών βασικών καινοτομιών: ένα λεπτομερές πλαίσιο κατάρτισης που βασίζεται στην αξία, ένας μηχανισμός που προσαρμόζει τις παραμέτρους που προσαρμόζουν τις παραμέτρους που βασίζονται στο μήκος απόκρισης και τη συστηματική ενσωμάτωση τεχνικών από προηγούμενη έρευνα.

Αυτός ο συνδυασμός δημιουργεί ένα σύστημα όπου οι βελτιώσεις λειτουργούν συνεργιστικά. Χρησιμοποιώντας το μοντέλο QWEN2.5-32B χωρίς συγκεκριμένα δεδομένα SFT, η VAPO βελτίωσε τις βαθμολογίες αναφοράς από 5 σε 60, ξεπερνώντας τις προηγούμενες τελευταίες μεθόδους με 10 βαθμούς.

Το VAPO βασίζεται στον αλγόριθμο βελτιστοποίησης της εγγύς πολιτικής (PPO), αλλά ενσωματώνει βασικές τροποποιήσεις για την ενίσχυση της μαθηματικής συλλογιστικής. Η ανάλυση κατάρτισης αποκάλυψε ότι το VAPO παρουσιάζει ομαλότερες καμπύλες κατάρτισης σε σύγκριση με τη μέθοδο DAPO χωρίς αξία, υποδεικνύοντας πιο σταθερή βελτιστοποίηση.

Η VAPO έδειξε επίσης καλύτερη κλιμάκωση μήκους για βελτιωμένη γενίκευση, ταχύτερη ανάπτυξη βαθμολογίας που αποδίδεται στα κοκκώδη σήματα από το μοντέλο αξίας του και η χαμηλότερη εντροπία σε μεταγενέστερα στάδια κατάρτισης. Ενώ η μειωμένη εντροπία μπορεί ενδεχομένως να περιορίσει την εξερεύνηση, η μέθοδος εξισορροπεί αποτελεσματικά αυτό, βελτιώνοντας την αναπαραγωγιμότητα και τη σταθερότητα με ελάχιστη επίδραση απόδοσης.

Εικόνα: Bytedance Seed

Στο σημείο αναφοράς AIME24, το DeepSeek R1 χρησιμοποιώντας το GRPO πέτυχε 47 πόντους και η DAPO έφτασε τα 50 πόντους. Το VAPO, χρησιμοποιώντας το μοντέλο QWEN-32B, αντιστοιχούσε στην απόδοση του DAPO με μόνο το 60% των βημάτων ενημέρωσης και έθεσε μια νέα υπερσύγχρονη βαθμολογία 60,4 εντός 5.000 βημάτων. Αντίθετα, η Vanilla PPO σημείωσε μόλις 5 βαθμούς λόγω της κατάρρευσης της εκμάθησης μοντέλων αξίας.


Αυτό το σημείο αναφοράς ρωτά αν το AI μπορεί να σκεφτεί σαν μηχανικός


Οι μελέτες αφαίρεσης επιβεβαίωσαν την αποτελεσματικότητα επτά ξεχωριστών τροποποιήσεων στο VAPO. Η μετατόπιση της αξίας εμποδίζει την κατάρρευση του μοντέλου. Το αποσυνδεδεμένο GAE επιτρέπει την πλήρη βελτιστοποίηση των μεγάλων απαντήσεων. Η προσαρμοστική GAE εξισορροπεί τη βελτιστοποίηση της μικρής και της μακράς ανταπόκρισης. Το Clip Higher ενθαρρύνει διεξοδική εξερεύνηση. Η απώλεια σε επίπεδο συμβολαίου αυξάνει τη στάθμιση για μεγάλες απαντήσεις. Η ενσωμάτωση της απώλειας LM θετικού παραμέτρου προστέθηκε 6 βαθμοί. και η δειγματοληψία της ομάδας συνέβαλε 5 βαθμούς στο τελικό σκορ.

Ερευνητές αποκορύφωμα Ότι το VAPO, χρησιμοποιώντας το μοντέλο QWEN2.5-32B, καταδεικνύει ότι αυτή η προσέγγιση που βασίζεται στην αξία μπορεί να ξεπεράσει τις μεθόδους χωρίς αξία, όπως η GRPO και η DAPO, δημιουργώντας ένα νέο επίπεδο απόδοσης για πολύπλοκα καθήκοντα λογικής και αντιμετωπίζουν θεμελιώδεις προκλήσεις σε μοντέλα αξίας για μακρά αλυσίδα.


Προτεινόμενη πίστωση εικόνας



VIA: DataConomy.com

- Advertisement -
- Advertisment -
Dimitris Marizas
Dimitris Marizashttps://techbit.gr
Παθιασμένος με τις νέες τεχνολογίες, με έφεση στην καινοτομία και τη δημιουργικότητα. Διαρκώς αναζητώ τρόπους αξιοποίησης της τεχνολογίας για την επίλυση προβλημάτων και τη βελτίωση της καθημερινής ζωής.
RELATED ARTICLES

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

- Advertisment -

Most Popular

- Advertisment -