Το DeepSeek V4 συμπιέζει το περιβάλλον εκατομμυρίων συμβολαίων στο 10% της μνήμης του V3.2, κλιμακώνοντας τον πόλεμο απόδοσης AI της Κίνας με το OpenAI


Το κινεζικό εργαστήριο τεχνητής νοημοσύνης DeepSeek ισχυρίζεται ότι μειώνει σημαντικά τους υπολογιστικούς πόρους που απαιτούνται για την εξαγωγή συμπερασμάτων και τους πόρους μνήμης με το πιο πρόσφατο μοντέλο V4 του, σύμφωνα με τις σημειώσεις κυκλοφορίας του. Η DeepSeek ισχυρίζεται ότι το μοντέλο V4 απαιτεί μόλις 27% FLOP συμπερασμάτων με ένα διακριτικό και 10% της κρυφής μνήμης κλειδιού-τιμής (KV) σε σύγκριση με τον προκάτοχό του, το μοντέλο DeepSeek V3.2. Η μείωση των απαιτήσεων της κρυφής μνήμης καλύπτει τις απαιτήσεις μνήμης, με χαμηλότερες απαιτήσεις διατήρησης της μνήμης και αύξησης του περιβάλλοντος που είναι διαθέσιμο στους κατασκευαστές μοντέλων κατά τη δημιουργία των μοντέλων τους.

Πώς το DeepSeek V4 Slashes υπολογίζει το κόστος και τη μνήμη

Στις σημειώσεις έκδοσης για το DeepSeek V4, το DeepSeek υπογραμμίζει ότι το νέο μοντέλο είναι σε θέση να χρησιμοποιεί μόνο το 27% των FLOP συμπερασμάτων ενός διακριτικού και το 10% της κρυφής μνήμης κλειδιού-τιμής (KV) κατά την εκτέλεση ενός παραθύρου περιβάλλοντος ενός εκατομμυρίου διακριτικών. Ένα παράθυρο περιβάλλοντος είναι η ποσότητα κειμένου που μπορεί να επεξεργαστεί ένα μοντέλο μεγάλης γλώσσας τεχνητής νοημοσύνης πριν χρειαστεί να ελευθερώσει πόρους μνήμης.

Αυτή η βελτιωμένη χρήση μνήμης είναι ιδιαίτερα σημαντική όταν πρόκειται για τη φάση Αποκωδικοποίησης του υπολογισμού τεχνητής νοημοσύνης, η οποία ορίζεται ευρέως σε δύο φάσεις, την προπλήρωση και την αποκωδικοποίηση. Εφόσον το μοντέλο τεχνητής νοημοσύνης δημιουργεί εξόδους στη φάση της Αποκωδικοποίησης, πρέπει να αποθηκεύσει το πλαίσιο της συνομιλίας ή την προτροπή που έλαβε στο στάδιο Προπλήρωσης. Ως αποτέλεσμα, η φάση Decode απαιτεί περισσότερη μνήμη από την Prefill, ιδιαίτερα όταν πρόκειται για την προσωρινή μνήμη κλειδιού-τιμής (KV).

The Trade-off: επιθετική συμπίεση και αποτυχίες “Needle in a Haystack”

Καθώς ο αριθμός των διακριτικών σε ένα περιβάλλον αυξάνεται, αυξάνονται και οι απαιτήσεις από την κρυφή μνήμη KV, πράγμα που σημαίνει ότι με ένα εκατομμύριο διακριτικά, ένα μοντέλο που χρησιμοποιεί χαμηλότερη κρυφή μνήμη μπορεί να επεξεργαστεί περισσότερα αιτήματα ή να απαιτεί λιγότερους πόρους μνήμης.

Ο άλλος ισχυρισμός του DeepSeek για το μοντέλο V4 που απαιτεί 27% FLOP διακριτικών μεμονωμένων συμπερασμάτων βελτιώνει την απόδοση μόνο εάν υπάρχει επαρκής διαθέσιμη μνήμη για την GPU για την εκτέλεση υπολογισμών. Επιπλέον, η χρήση σημαντικά λιγότερης μνήμης cache απαιτεί το μοντέλο να βασίζεται σε συμβιβασμούς, κάτι που μπορεί να το κάνει να χάσει τις ιδιαιτερότητες. Αυτό ονομάζεται αστοχία “βελόνα σε θημωνιά” και μπορεί να οδηγήσει σε ανακριβή αποτελέσματα.

Ο αντίκτυπος του υλικού: Μετριάζοντας τη συμπίεση DRAM που βασίζεται στο AI

Ο λόγος για τον οποίο αυτή η εξέλιξη είναι απαραίτητη είναι ότι η επιθετική μείωση του αποτυπώματος της κρυφής μνήμης KV δεν είναι απλώς ένα ορόσημο αφηρημένου λογισμικού. έχει τεράστιες συνέπειες για την πραγματική αλυσίδα εφοδιασμού μνήμης. Εξετάζετε έναν κλάδο που αυτή τη στιγμή είναι κλειδωμένος σε έναν υπερκύκλο DRAM που οδηγείται από μια ακόρεστη ζήτηση για HBM. Αυτή η δυναμική έχει δημιουργήσει μια «συμπίεση ανεφοδιασμού» που κυματίζει κατευθείαν στα καταναλωτικά DIMM και SSD που αγοράζετε για τον υπολογιστή σας. Τεχνικές συμπίεσης σε επίπεδο λογισμικού, όπως αυτές στο DeepSeek V4, παράλληλα με παράλληλες αλγοριθμικές αλλαγές όπως το TurboQuant της , θα μπορούσαν επιτέλους να αρχίσουν να μετριάζουν την ακραία πίεση υλικού που επιβαρύνει την αγορά καταναλωτικών υπολογιστών. Εν ολίγοις: εάν οι κατασκευαστές μοντέλων μπορούν να συνεχίσουν να εξάγουν περισσότερη παραγωγή ανά gigabyte HBM, το τελικό βάρος που αρθεί έρχεται από την πλάτη του καταναλωτή που επωμίζεται το κόστος της όρεξης μνήμης της τεχνητής νοημοσύνης.

Under the Hood: The Multi-Head Latent Attention (MLA) Mechanism

Ο μηχανισμός πίσω από αυτά τα κέρδη είναι η αρχιτεκτονική Multi-Head Latent Attention (MLA) του DeepSeek, την οποία η εταιρεία εισήγαγε για πρώτη φορά σε προηγούμενα μοντέλα. Εξετάζετε ένα σχέδιο που βασίζεται στους περιορισμούς της μνήμης από την αρχή. Αντί να αποθηκεύει το πλήρες κλειδί και τους τανυστές τιμής για κάθε διακριτικό, το MLA τους προβάλλει σε μια κοινή λανθάνουσα αναπαράσταση χαμηλής κατάταξης που επεκτείνεται ξανά προς τα έξω κατά τον χρόνο υπολογισμού. Είναι αυτή η προσέγγιση συμπίεσης-και στη συνέχεια επέκτασης που κάνει τη βαριά ανύψωση στο αποτύπωμα της κρυφής μνήμης KV, επιτρέποντας στο μοντέλο να λειτουργεί αποτελεσματικά χωρίς να πληρώνει τον πλήρη φόρο μνήμης που απαιτούν οι υλοποιήσεις προσοχής.

Φωτογραφία Ramish Zafar

Σχετικά με τον συγγραφέα: Ο Ramish είναι ένας έμπειρος συγγραφέας και συντάκτης τεχνολογίας με πάνω από μια δεκαετία εμπειρίας. Ειδικεύεται στην κατασκευή ημιαγωγών και στην ανάλυση αγοράς. Με υπόβαθρο στα χρηματοοικονομικά και τη διαχείριση της εφοδιαστικής αλυσίδας – μέσω των πτυχιούχων του στα Οικονομικά και ενός μικρομάστερ στη διαχείριση αλυσίδας εφοδιασμού από το MIT – ο Ramish συνδυάζει την οικονομική αυστηρότητα με τη βαθιά γνώση του κλάδου για να παρέχει ακριβή και έγκυρη κάλυψη.

Ακολουθώ Wccftech στο Google για να λαμβάνετε περισσότερες από τις ειδήσεις μας στις ροές δεδομένων σας.



VIA: wccftech.com

Dimitris Marizas
Dimitris Marizashttps://techbit.gr
Μεταφράζω bits και bytes σε απλά ελληνικά. Λατρεύω την τεχνολογία που λύνει προβλήματα και αναζητώ πάντα το επόμενο "big thing" πριν γίνει mainstream.

Related Articles

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

- Advertisement -

Stay Connected

0ΥποστηρικτέςΚάντε Like
0ΑκόλουθοιΑκολουθήστε
- Advertisement -

Most Popular 48hrs

- Advertisement -

Latest Articles