Το DeepSeek V4 συμπιέζει το περιβάλλον εκατομμυρίων συμβολαίων στο 10% της μνήμης του V3.2, κλιμακώνοντας τον πόλεμο απόδοσης AI της Κίνας με το OpenAI

25 Απριλίου, 2026

3

Το DeepSeek V4 συμπιέζει το περιβάλλον εκατομμυρίων συμβολαίων στο 10% της μνήμης του V3.2, κλιμακώνοντας τον πόλεμο απόδοσης AI της Κίνας με το OpenAI

Το κινεζικό εργαστήριο τεχνητής νοημοσύνης DeepSeek ισχυρίζεται ότι μειώνει σημαντικά τους υπολογιστικούς πόρους που απαιτούνται για την εξαγωγή συμπερασμάτων και τους πόρους μνήμης με το πιο πρόσφατο μοντέλο V4 του, σύμφωνα με τις σημειώσεις κυκλοφορίας του. Η DeepSeek ισχυρίζεται ότι το μοντέλο V4 AI απαιτεί μόλις 27% FLOP συμπερασμάτων με ένα διακριτικό και 10% της κρυφής μνήμης κλειδιού-τιμής (KV) σε σύγκριση με τον προκάτοχό του, το μοντέλο DeepSeek V3.2. Η μείωση των απαιτήσεων της κρυφής μνήμης καλύπτει τις απαιτήσεις μνήμης, με χαμηλότερες απαιτήσεις διατήρησης της μνήμης και αύξησης του περιβάλλοντος που είναι διαθέσιμο στους κατασκευαστές μοντέλων κατά τη δημιουργία των μοντέλων τους.

Πώς το DeepSeek V4 Slashes υπολογίζει το κόστος και τη μνήμη

Στις σημειώσεις έκδοσης για το DeepSeek V4, το DeepSeek υπογραμμίζει ότι το νέο μοντέλο είναι σε θέση να χρησιμοποιεί μόνο το 27% των FLOP συμπερασμάτων ενός διακριτικού και το 10% της κρυφής μνήμης κλειδιού-τιμής (KV) κατά την εκτέλεση ενός παραθύρου περιβάλλοντος ενός εκατομμυρίου διακριτικών. Ένα παράθυρο περιβάλλοντος είναι η ποσότητα κειμένου που μπορεί να επεξεργαστεί ένα μοντέλο μεγάλης γλώσσας τεχνητής νοημοσύνης πριν χρειαστεί να ελευθερώσει πόρους μνήμης.

Αυτή η βελτιωμένη χρήση μνήμης είναι ιδιαίτερα σημαντική όταν πρόκειται για τη φάση Αποκωδικοποίησης του υπολογισμού τεχνητής νοημοσύνης, η οποία ορίζεται ευρέως σε δύο φάσεις, την προπλήρωση και την αποκωδικοποίηση. Εφόσον το μοντέλο τεχνητής νοημοσύνης δημιουργεί εξόδους στη φάση της Αποκωδικοποίησης, πρέπει να αποθηκεύσει το πλαίσιο της συνομιλίας ή την προτροπή που έλαβε στο στάδιο Προπλήρωσης. Ως αποτέλεσμα, η φάση Decode απαιτεί περισσότερη μνήμη από την Prefill, ιδιαίτερα όταν πρόκειται για την προσωρινή μνήμη κλειδιού-τιμής (KV).

The Trade-off: επιθετική συμπίεση και αποτυχίες “Needle in a Haystack”

Καθώς ο αριθμός των διακριτικών σε ένα περιβάλλον αυξάνεται, αυξάνονται και οι απαιτήσεις από την κρυφή μνήμη KV, πράγμα που σημαίνει ότι με ένα εκατομμύριο διακριτικά, ένα μοντέλο που χρησιμοποιεί χαμηλότερη κρυφή μνήμη μπορεί να επεξεργαστεί περισσότερα αιτήματα ή να απαιτεί λιγότερους πόρους μνήμης.

Ο άλλος ισχυρισμός του DeepSeek για το μοντέλο V4 που απαιτεί 27% FLOP διακριτικών μεμονωμένων συμπερασμάτων βελτιώνει την απόδοση μόνο εάν υπάρχει επαρκής διαθέσιμη μνήμη για την GPU για την εκτέλεση υπολογισμών. Επιπλέον, η χρήση σημαντικά λιγότερης μνήμης cache απαιτεί το μοντέλο να βασίζεται σε συμβιβασμούς, κάτι που μπορεί να το κάνει να χάσει τις ιδιαιτερότητες. Αυτό ονομάζεται αστοχία “βελόνα σε θημωνιά” και μπορεί να οδηγήσει σε ανακριβή αποτελέσματα.

Ο αντίκτυπος του υλικού: Μετριάζοντας τη συμπίεση DRAM που βασίζεται στο AI

Ο λόγος για τον οποίο αυτή η εξέλιξη είναι απαραίτητη είναι ότι η επιθετική μείωση του αποτυπώματος της κρυφής μνήμης KV δεν είναι απλώς ένα ορόσημο αφηρημένου λογισμικού. έχει τεράστιες συνέπειες για την πραγματική αλυσίδα εφοδιασμού μνήμης. Εξετάζετε έναν κλάδο που αυτή τη στιγμή είναι κλειδωμένος σε έναν υπερκύκλο DRAM που οδηγείται από μια ακόρεστη ζήτηση για HBM. Αυτή η δυναμική έχει δημιουργήσει μια «συμπίεση ανεφοδιασμού» που κυματίζει κατευθείαν στα καταναλωτικά DIMM και SSD που αγοράζετε για τον υπολογιστή σας. Τεχνικές συμπίεσης σε επίπεδο λογισμικού, όπως αυτές στο DeepSeek V4, παράλληλα με παράλληλες αλγοριθμικές αλλαγές όπως το TurboQuant της Google, θα μπορούσαν επιτέλους να αρχίσουν να μετριάζουν την ακραία πίεση υλικού που επιβαρύνει την αγορά καταναλωτικών υπολογιστών. Εν ολίγοις: εάν οι κατασκευαστές μοντέλων μπορούν να συνεχίσουν να εξάγουν περισσότερη παραγωγή ανά gigabyte HBM, το τελικό βάρος που αρθεί έρχεται από την πλάτη του καταναλωτή που επωμίζεται το κόστος της όρεξης μνήμης της τεχνητής νοημοσύνης.

Under the Hood: The Multi-Head Latent Attention (MLA) Mechanism

Ο μηχανισμός πίσω από αυτά τα κέρδη είναι η αρχιτεκτονική Multi-Head Latent Attention (MLA) του DeepSeek, την οποία η εταιρεία εισήγαγε για πρώτη φορά σε προηγούμενα μοντέλα. Εξετάζετε ένα σχέδιο που βασίζεται στους περιορισμούς της μνήμης από την αρχή. Αντί να αποθηκεύει το πλήρες κλειδί και τους τανυστές τιμής για κάθε διακριτικό, το MLA τους προβάλλει σε μια κοινή λανθάνουσα αναπαράσταση χαμηλής κατάταξης που επεκτείνεται ξανά προς τα έξω κατά τον χρόνο υπολογισμού. Είναι αυτή η προσέγγιση συμπίεσης-και στη συνέχεια επέκτασης που κάνει τη βαριά ανύψωση στο αποτύπωμα της κρυφής μνήμης KV, επιτρέποντας στο μοντέλο να λειτουργεί αποτελεσματικά χωρίς να πληρώνει τον πλήρη φόρο μνήμης που απαιτούν οι υλοποιήσεις προσοχής.

Φωτογραφία Ramish Zafar

Σχετικά με τον συγγραφέα: Ο Ramish είναι ένας έμπειρος συγγραφέας και συντάκτης τεχνολογίας με πάνω από μια δεκαετία εμπειρίας. Ειδικεύεται στην κατασκευή ημιαγωγών και στην ανάλυση αγοράς. Με υπόβαθρο στα χρηματοοικονομικά και τη διαχείριση της εφοδιαστικής αλυσίδας – μέσω των πτυχιούχων του στα Οικονομικά και ενός μικρομάστερ στη διαχείριση αλυσίδας εφοδιασμού από το MIT – ο Ramish συνδυάζει την οικονομική αυστηρότητα με τη βαθιά γνώση του κλάδου για να παρέχει ακριβή και έγκυρη κάλυψη.

Ακολουθώ Wccftech στο Google για να λαμβάνετε περισσότερες από τις ειδήσεις μας στις ροές δεδομένων σας.

VIA: wccftech.com

Προηγούμενο άρθρο

Η Cloud Office ανακηρύσσεται «Google Cloud Partner of the Year 2026» για την Κεντρική και Ανατολική Ευρώπη

Επόμενο άρθρο

Προσφορές στο Gizchina Telegram: Γίνετε ο πρώτος που θα μάθετε για τα κουπόνια και τις προσφορές!

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

εισάγετε το σχόλιό σας!

παρακαλώ εισάγετε το όνομά σας εδώ

έχετε εισάγει εσφαλμένη διεύθυνση ηλεκτρονικού ταχυδρομείου!

παρακαλώ εισάγετε εδώ την ηλεκτρονική σας διεύθυνση

Το DeepSeek V4 συμπιέζει το περιβάλλον εκατομμυρίων συμβολαίων στο 10% της μνήμης του V3.2, κλιμακώνοντας τον πόλεμο απόδοσης AI της Κίνας με το OpenAI

Πώς το DeepSeek V4 Slashes υπολογίζει το κόστος και τη μνήμη

The Trade-off: επιθετική συμπίεση και αποτυχίες “Needle in a Haystack”

Ο αντίκτυπος του υλικού: Μετριάζοντας τη συμπίεση DRAM που βασίζεται στο AI

Under the Hood: The Multi-Head Latent Attention (MLA) Mechanism

Related Articles

Αυτά είναι τα παιχνίδια που αφαιρούνται από το PlayStation Plus μέσα στον Μάιο

Skroutz: Σχολιάζοντας την προσφορά στα δωρεάν μεταφορικά |Techmaniacs

Η Gamescom Dev 2026 ανακοινώνει τους πρώτους ομιλητές και συνεδρίες

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

Most Popular 48hrs

The Cleaning Lady: Το εθιστικό θρίλερ που πρέπει να δείτε στο Netflix

«Εσείς το ξέρετε; Το Xiaomi 17 Ultra αποκτά HyperOS 3.1 στην ΕΕ!»

«ΦΗΜΗ: Remake του Mafia 2 και νέο sequel του Mafia: The Old Country»

Αρχεία ΕΡΤ: Σπάνια οπτικοακουστικά αφιερώματα

Ναρκοτέστ στα Μπλόκα Τροχαίας 2026: Τι Αλλάζει

Latest Articles

Αυτά είναι τα παιχνίδια που αφαιρούνται από το PlayStation Plus μέσα στον Μάιο

Skroutz: Σχολιάζοντας την προσφορά στα δωρεάν μεταφορικά |Techmaniacs

Η Gamescom Dev 2026 ανακοινώνει τους πρώτους ομιλητές και συνεδρίες

Νέας γενιάς Huawei MatePad Mini για να φέρει την εξαιρετικά στενή οθόνη

Τα πιο πρόσφατα αναδιπλούμενα Samsung είναι τώρα διαθέσιμα ως προκαταρκτικά

Το DeepSeek V4 συμπιέζει το περιβάλλον εκατομμυρίων συμβολαίων στο 10% της μνήμης του V3.2, κλιμακώνοντας τον πόλεμο απόδοσης AI της Κίνας με το OpenAI

Πώς το DeepSeek V4 Slashes υπολογίζει το κόστος και τη μνήμη

The Trade-off: επιθετική συμπίεση και αποτυχίες “Needle in a Haystack”

Ο αντίκτυπος του υλικού: Μετριάζοντας τη συμπίεση DRAM που βασίζεται στο AI

Under the Hood: The Multi-Head Latent Attention (MLA) Mechanism

Related Articles

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

Stay Connected

Most Popular 48hrs

Latest Articles