Ο νέος ανοιχτού κώδικα Colossus του Deepseek ανατρέπει την τρέχουσα κατάσταση στην τεχνητή νοημοσύνη

31 Μαρτίου, 2025

197

Περιεχόμενα Άρθρου [hide]

Μείνετε μπροστά από την καμπύλη!
Τρέχοντας σε ένα μηχάνημα “καταναλωτή”;
Ανατρέποντας ένα βιομηχανικό πρότυπο;
Η μαγεία πίσω από την ανακάλυψη του Deepseek
Open Source: Ο Μεγάλος Διαφοροποιητής
Deepseek-R2
Πώς να δοκιμάσετε το Deepseek-V3-0324
Ένα εξελισσόμενο πρόσωπο

Μόλις πριν από δύο ημέρες, η κινεζική εκκίνηση AI Deepseek έριξε ήσυχα μια βόμβα στο αγκάλιασμα προσώπου: ένα μεγάλο γλωσσικό μοντέλο 685 δισεκατομμυρίων παραμέτρων που ονομάζεται Deepseek-V3-0324. Ενώ μερικές καινοτομίες φτάνουν με fanfare, αυτή η απελευθέρωση ήταν διαφορετική. Χωρίς splashy ενημερώσεις τύπου. Δεν υπάρχουν γυαλισμένες αναρτήσεις ιστολογίου. Μόνο ένα τεράστιο σύνολο μοντέλων βάρη, μια άδεια MIT και μερικοί τεχνικοί ψίθυροι που ήταν αρκετοί για να θέσουν την κοινότητα AI.

Τώρα, καθώς οι προγραμματιστές αγωνίζονται να το δοκιμάσουν, το μοντέλο έχει ήδη αυξήσει τα κουδούνια συναγερμού για να οδηγήσει τις δυτικές εταιρείες AI όπως το OpenAI – όχι μόνο για την ακατέργαστη δύναμη και την αποτελεσματικότητά του, αλλά για το πού μπορεί να τρέξει: ένα Mac Studio M3 Ultra. Ποτέ δεν έπρεπε να είναι τόσο απλό να φιλοξενήσει ένα μοντέλο αυτής της κλίμακας. Ωστόσο, οι πρώτες αναφορές υποδεικνύουν ότι η DeepSeek-V3-0324 λειτουργεί, δημιουργώντας πάνω από 20 μάρκες ανά δευτερόλεπτο σε ένα μόνο μηχάνημα. Για πολλούς εμπλεκόμενους AI, αυτό είναι και μια εντυπωσιακή ανακάλυψη και μια σοβαρή κλήση αφύπνισης.

Οι περισσότερες κυκλοφορίες AI μεγάλης κλίμακας ακολουθούν ένα γνωστό σενάριο: μια ανακοίνωση teaser, ένα επίσημο έγγραφο και μια ώθηση PR. Ωστόσο, η Deepseek επέλεξε την προσέγγιση του εμπορικού σήματος “Under-the-Radar”, μεταφορτώνει ήσυχα 641 GB των δεδομένων υπό άδεια MIT. Το μοντέλο κενό readme μπορεί να προτείνει μια δεύτερη σκέψη. Στην πραγματικότητα, σηματοδοτεί μια σκόπιμη, αυτοπεποίθηση: “Εδώ είναι το μοντέλο μας-κάνουμε ό, τι θέλεις, και καλή τύχη να το ξεπεράσεις”.

Αυτό το modus operandi βρίσκεται σε έντονη αντίθεση με το σχολαστικά ενορχηστρωμένο προϊόν αποκαλύπτει στο Silicon Valley. Οι ερευνητές του AI αναμένουν συνήθως λεπτομερή τεκμηρίωση, σημεία αναφοράς απόδοσης και λαμπερά demos. Το Gambit του Deepseek, από την άλλη πλευρά, εξαρτάται από την ακατέργαστη, ανοιχτή διαθεσιμότητα. Θέλετε να μάθετε πώς λειτουργεί; Κατεβάστε το και δείτε μόνοι σας.

Τρέχοντας σε ένα μηχάνημα “καταναλωτή”;

Το Mac Studio M3 Ultra δεν μπορεί να καθίσει στο γραφείο του καθενός-είναι μια συσκευή $ 9.499 και σίγουρα high-end. Παρόλα αυτά, το γεγονός ότι το Deepseek-V3-0324 μπορεί να τρέξει τοπικά σε αυτό το υλικό είναι αξιοσημείωτο. Τα σύγχρονα μοντέλα συγκρίσιμου μεγέθους συνήθως απαιτούν πολύ μεγαλύτερες συστάδες GPU που μασούν μέσω της εξουσίας σε ειδικά κέντρα δεδομένων. Αυτή η μετατόπιση των απαιτήσεων υπολογιστών θα μπορούσε να ανακοινώσει μια νέα εποχή όπου το Advanced AI δεν είναι αυστηρά συνδεδεμένο με μεγάλους εταιρικούς διακομιστές.

Πρώιμες δοκιμές από τον ερευνητή AI Awni Hannun επιβεβαιώνουν ότι ένα 4-bit κβαντισμένη Η έκδοση του Deepseek-V3 μπορεί να υπερβεί τα 20 μάρκες ανά δευτερόλεπτο σε αυτό το σύστημα. Αυτή είναι η ζαλιστική ταχύτητα για ένα μοντέλο πολλαπλών εκατοντάδων δισεκατομμυρίων παραμέτρων. Μέρος του μυστικού ψέματα Αρχιτεκτονική “Mixture-of-Exper (Moe)” του Deepseekη οποία ενεργοποιεί έξυπνα μόνο ένα κλάσμα των συνολικών παραμέτρων του για οποιαδήποτε δεδομένη εργασία. Οι επικριτές απέρριψαν κάποτε το Moe ως πολύ εξειδικευμένο. Η επιτυχία του Deepseek υποδηλώνει ότι μπορεί να είναι απλώς η πιο αποτελεσματική πορεία για την τεράστια κλίμακα AI.

Ανατρέποντας ένα βιομηχανικό πρότυπο;

Το μεγαλύτερο δεν είναι πάντα καλύτερο, αλλά το Deepseek-V3-0324 είναι και τα δύο: τεράστια σε πεδίο εφαρμογής και εκπληκτικά ευκίνητο. Ένας γνωστός ερευνητής, Xeophon, δημοσίευσε τις αρχικές δοκιμές τους, υποδεικνύοντας “ένα τεράστιο άλμα σε όλες τις μετρήσεις” σε σύγκριση με την προηγούμενη έκδοση του Deepseek. Ο ισχυρισμός ότι έχει εκθρονιστεί Claude Sonnet 3.5 από τον ανθρωπογενή – μέχρι πρόσφατα θεωρείται ένα ελίτ εμπορικό σύστημα – γυρίζει τα κεφάλια. Εάν επαληθευτεί, το Deepseek θα μπορούσε να σταθεί κοντά στην κορυφή της μοντελοποίησης γλωσσών AI.

Η διαφορά στα μοντέλα διανομής είναι εξίσου αξιοσημείωτη. Ο Claude Sonnet, όπως και πολλά δυτικά συστήματα, γενικά απαιτεί μια πληρωμένη συνδρομή για τις καλύτερες προσφορές του. Αντίθετα, η ολοκαίνουργια έκδοση του Deepseek 0324 είναι ΔΩΡΕΑΝ για λήψη σύμφωνα με τους όρους MIT. Οι προγραμματιστές παντού μπορούν να πειραματιστούν χωρίς να παραδώσουν πιστωτικές κάρτες ή να τρέχουν σε όρια χρήσης – μια έντονα διαφορετική προσέγγιση που υπογραμμίζει το κέντρο μετατόπισης της βαρύτητας στο AI.

Η μαγεία πίσω από την ανακάλυψη του Deepseek

Πέρα από την αρχιτεκτονική MOE, το Deepseek-V3-0324 ενσωματώνει δύο σημαντικά τεχνικά άλματα:

Λανθάνουσα προσοχή πολλαπλών κεφαλών (MLA): Αυτή η τεχνολογία ενισχύει την ικανότητα του μοντέλου να ακολουθεί το μακρύ πλαίσιο, καθιστώντας την πολύ λιγότερο επιρρεπή στην πτώση των προηγούμενων τμημάτων μιας συνομιλίας ή ενός κειμένου.
Πρόβλεψη πολλαπλών τερματοφύλακα (MTP): Ενώ τα περισσότερα μοντέλα AI παράγουν κείμενο ένα διακριτικό κάθε φορά, το MTP του Deepseek του επιτρέπει να παράγει πολλαπλά μάρκες σε κάθε επανάληψη, επιταχύνοντας την έξοδο κατά περίπου 80%.

Στην πράξη, αυτές οι βελτιστοποιήσεις μειώνουν το χρόνο που χρειάζεται για την επεξεργασία ή τη δημιουργία κειμένου. Επειδή η Deepseek δεν εμπλέκει όλες τις παραμέτρους 685 δισεκατομμυρίων για κάθε αίτημα, μπορεί να είναι πιο αποτελεσματική από τα μικρότερα αλλά πλήρως ενεργοποιημένα μοντέλα. Ο Simon Willison, ένας σεβαστός αριθμός στα εργαλεία προγραμματιστών, ανέφερε ότι α Έκδοση 4-bit του Deepseek-V3-0324 βουτιά γύρω 352 GB. Αυτό το μικρότερο μέγεθος το καθιστά σχετικά εφικτό για εξειδικευμένους σταθμούς εργασίας και μερικά προσωπικά συστήματα υψηλής ποιότητας.

Open Source: Ο Μεγάλος Διαφοροποιητής

Η επιτυχία του Deepseek δεν μπορεί να διαζευχθεί από τη μεγαλύτερη συζήτηση γύρω Κινεζικές εταιρείες AI Αγκαλιάζοντας αδειοδότηση ανοιχτού κώδικα. Ενώ οι κύριοι της βιομηχανίας, όπως το Openai και το Anthropic, διατηρούν τα ιδιόκτητα ηνία στα μοντέλα τους, οι επιχειρήσεις όπως η Baidu, η Alibaba και η Tencent έχουν προσχωρήσει στην Deepseek στην απελευθέρωση προηγμένων μοντέλων υπό επιτρεπόμενους όρους. Το αποτέλεσμα είναι ένα οικοσύστημα AI που ορίζεται από την κοινή πρόοδο και όχι την φρουρημένη, την τεχνολογία με περιφραγμένη.

Αυτή η στρατηγική συμβαδίζει με την αναζήτηση της Κίνας για την ηγεσία του AI. Οι περιορισμοί υλικού και η περιορισμένη πρόσβαση στις τελευταίες μάρκες Nvidia ανάγκασαν αυτές τις εταιρείες να καινοτομήσουν. Το αποτέλεσμα; Τα μοντέλα όπως το Deepseek-V3-0324 είναι κατασκευασμένα για να υπερέχουν ακόμη και χωρίς κορυφαίες συστάδες GPU. Τώρα που αυτά τα αποτελεσματικά μοντέλα κυκλοφορούν ελεύθερα, οι προγραμματιστές παγκοσμίως εκμεταλλεύονται την ευκαιρία να οικοδομήσουν σε ένα κλάσμα του συνηθισμένου κόστους.

Deepseek-R2

Το Deepseek φαίνεται να εργάζεται σε φάσεις: αποκαλύπτει ένα θεμελιώδες μοντέλο και στη συνέχεια ακολουθεί μια έκδοση “συλλογισμού”. Φημολογείται Deepseek-R2 Θα μπορούσε να κάνει το ντεμπούτο του τον επόμενο μήνα ή δύο, αντανακλά το πρότυπο που έθεσε η απελευθέρωση του Δεκεμβρίου του V3, ακολουθούμενη από ένα μοντέλο R1 που εξειδικεύεται σε πιο προηγμένη επίλυση προβλημάτων.

Σε περίπτωση που το R2 ξεπεράσει την πολύ αναμενόμενη GPT-5 του OpenAI, θα κλίνει περαιτέρω τις κλίμακες προς τη μελλοντική κυριαρχία του AI ανοιχτού κώδικα. Πολλοί βετεράνοι της βιομηχανίας ανέλαβαν μόνο μεγάλους, πλούσιους σε πόρους παίκτες θα μπορούσαν να χειριστούν την πολυπλοκότητα των μοντέλων κορυφαίων επιπέδων. Οι ήσυχες επιτυχίες του Deepseek προκλήσεις αυτή την υπόθεση. Και καθώς τα μοντέλα συλλογιστικής καταναλώνουν συνήθως σημαντικά περισσότερους υπολογιστές από τα πρότυπα, οι βελτιώσεις στο R2 θα προβάλλουν την προσέγγιση ριζικής απόδοσης του Deepseek.

Πώς να δοκιμάσετε το Deepseek-V3-0324

Λήψη ολόκληρου 641 GB Το σύνολο δεδομένων από το αγκάλιασμα δεν είναι ασήμαντο κατόρθωμα. Αλλά για πολλούς προγραμματιστές, το πιο εύκολο μονοπάτι είναι μέσω παρόχων συμπερασμάτων τρίτων, όπως υπερβολικά εργαστήρια ή OpenRouter. Αυτές οι πλατφόρμες σας επιτρέπουν να αξιοποιήσετε το Deepseek-V3-0324 χωρίς να χρειάζεστε το δικό σας κέντρο δεδομένων. Και οι δύο έχουν δεσμευτεί σχεδόν σε στάντες ενημερώσεις όποτε το Deepseek προωθεί τις αλλαγές.

Εν τω μεταξύ, chat.deepseek.com Πιθανόν να τρέχει στη νέα έκδοση ήδη – αν και η εκκίνηση δεν το έχει επιβεβαιώσει ρητά. Οι πρώτοι υιοθετητές αναφέρουν ταχύτερες απαντήσεις και βελτιωμένη ακρίβεια, αν και με το κόστος κάποιας ζεστασιάς. Εάν είστε προγραμματιστής που χρειάζεται πιο επίσημα, τεχνικά αποτελέσματα, αυτή η μετατόπιση στο στυλ είναι πιθανώς ένα όφελος. Αλλά οι περιστασιακοί χρήστες που θέλουν ένα πιο φιλικό, πιο “ανθρώπινο” chat bot μπορεί να παρατηρήσουν έναν πιο ψυχρό τόνο.

Ένα εξελισσόμενο πρόσωπο

Είναι ενδιαφέρον ότι πολλοί δοκιμαστές έχουν σχολιάσει τη νέα φωνή του μοντέλου. Οι προηγούμενες κυκλοφορίες Deepseek ήταν γνωστές για το εκπληκτικά προσιτό στυλ τους. Η ενημερωμένη επανάληψη 0324 τείνει προς έναν σοβαρό, ακριβή τρόπο. Οι καταγγελίες σχετικά με τις “ρομποτικές” ή “υπερβολικά πνευματικές” απαντήσεις εμφανίζονται σε ηλεκτρονικά φόρουμ, υποδεικνύοντας ότι η Deepseek περιστρέφεται σε ένα πιο επαγγελματικό περιβάλλον και όχι σε μικρές ομιλίες.

Το αν αυτό το στυλ κάνει το μοντέλο περισσότερο ή λιγότερο ελκυστικό εξαρτάται σε μεγάλο βαθμό από τη χρήση. Για την κωδικοποίηση ή την επιστημονική έρευνα, η σαφήνεια των απαντήσεων της μπορεί να είναι ένα όφελος. Εν τω μεταξύ, τα γενικά ακροατήρια θα μπορούσαν να βρουν τις αλληλεπιδράσεις πιο σκληρές από τις αναμενόμενες. Ανεξάρτητα από αυτό, αυτή η σκόπιμη μετατόπιση προσωπικότητας σηματοδοτεί πώς οι κορυφαίοι παίκτες του AI συντονίζουν προσεκτικά τα μοντέλα τους για συγκεκριμένα τμήματα της αγοράς.

Η απελευθέρωση του Deepseek αναγκάζει μια μεγαλύτερη ερώτηση σχετικά με το πώς πρέπει να μοιραστεί το Advanced AI. Ανοικτού κώδικα προσκαλεί εγγενώς την ευρεία συνεργασία και την ταχεία επανάληψη. Με την παράδοση του πλήρους μοντέλου, ο Deepseek παραχωρεί με κάποιο έλεγχο – αλλά κερδίζει έναν στρατό ερευνητών, χομπίστες και νεοσύστατες επιχειρήσεις που συμβάλλουν στο οικοσύστημα του.

Για τους αντιπάλους μας, οι οποίοι διατηρούν κυρίως την τεχνολογία τους σε ένα σύντομο λουρί, η προσέγγιση του Deepseek δημιουργεί ένα στρατηγικό δίλημμα. Αντικατοπτρίζει πώς το ανοιχτό μοντέλο του Android ξεπέρασε τελικά άλλα λειτουργικά συστήματα που προσπάθησαν να κρατήσουν τα πάντα κλειδωμένα. Εάν η Deepseek ή άλλες κινεζικές επιχειρήσεις AI καταφέρνουν να αναπαράγουν αυτό το φαινόμενο στο χώρο του AI, θα μπορούσαμε να δούμε το ίδιο ασταμάτητο κύμα παγκόσμιας υιοθέτησης.

Το πιο σημαντικό, το ανοιχτό μοντέλο εξασφαλίζει ότι το Advanced AI δεν είναι μόνο ο τομέας των τιτάνων της βιομηχανίας. Με το σωστό υλικό, ένα ευρύ φάσμα οργανισμών μπορεί τώρα να αναπτύξει δυνατότητες κορυφής. Αυτό, περισσότερο από οτιδήποτε άλλο, είναι αυτό που διατηρεί τους διευθύνοντες συμβούλους των Western AI επιχειρήσεις τη νύχτα.

Το γεγονός ότι Deepseek-V3-0324 Μπορεί να τρέξει αξιόπιστα σε ένα ενιαίο, καλά εξοπλισμένο σταθμό εργασίας αυξάνει την τυπική σκέψη σχετικά με τις ανάγκες υποδομής. Σύμφωνα με τις δηλώσεις της NVIDIA, τα μοντέλα προηγμένων συλλογισμών απαιτούν τεράστια δύναμη και συχνά περιορίζονται σε εξειδικευμένα κέντρα δεδομένων. Το αντίθετο δείγμα του Deepseek υποδηλώνει ότι, μόλις συμπιεστεί και βελτιστοποιηθεί, η επόμενη γενιά AI θα μπορούσε να γλιστρήσει σε εκπληκτικά μέτρια περιβάλλοντα.

Και αν το φημολογείται Deepseek-R2 Αντιστοιχεί ή ξεπερνά τα δυτικά ισοδύναμα, είναι πιθανό να παρακολουθήσουμε μια επανάσταση συλλογισμού ανοιχτού κώδικα. Αυτό που ήταν κάποτε ο αποκλειστικός τομέας των εταιρειών μεγάλου προϋπολογισμού θα μπορούσε να γίνει ένας τυπικός πόρος που είναι διαθέσιμος για τους νεοσύστατες επιχειρήσεις, τους ανεξάρτητους ερευνητές και τους καθημερινούς προγραμματιστές.

Προτεινόμενη πίστωση εικόνας: Solen Feyissa/unsplash

VIA: DataConomy.com

- Advertisement -

Tags
βαθύτατα

Προηγούμενο άρθρο

Η Amazon προσφέρει μεγάλη έκπτωση στην αδιάβροχη κάμερα 4K της DJI

Επόμενο άρθρο

Προγραμματιστές αναφέρουν ότι το dev kit του Nintendo Switch 2 δεν υποστηρίζει 4k ανάλυση.

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

εισάγετε το σχόλιό σας!

παρακαλώ εισάγετε το όνομά σας εδώ

έχετε εισάγει εσφαλμένη διεύθυνση ηλεκτρονικού ταχυδρομείου!

παρακαλώ εισάγετε εδώ την ηλεκτρονική σας διεύθυνση

Ο νέος ανοιχτού κώδικα Colossus του Deepseek ανατρέπει την τρέχουσα κατάσταση στην τεχνητή νοημοσύνη

Περιεχόμενα Άρθρου [hide]

Τρέχοντας σε ένα μηχάνημα “καταναλωτή”;

Ανατρέποντας ένα βιομηχανικό πρότυπο;

Η μαγεία πίσω από την ανακάλυψη του Deepseek

Open Source: Ο Μεγάλος Διαφοροποιητής

Deepseek-R2

Πώς να δοκιμάσετε το Deepseek-V3-0324

Ένα εξελισσόμενο πρόσωπο

Ο Λευκός Οίκος θεωρεί ότι απαγορεύει στους Αμερικανούς να χρησιμοποιούν το Deepseek

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

Most Popular

Ένα Apple Watch από γυαλί – Το iPhone των ονείρων του Jony Ive;

Entrepreneurial Advertising: The Future Of Marketing

Ηθοποιοί τέλος στον 5ο κύκλο

Αρχαιολόγοι ανακάλυψαν μυστηριώδεις δομές κάτω από τις πυραμίδες της Αιγύπτου

EDITOR PICKS

Ubisoft Αντιτίθεται σε Αγωγή για το Κλείσιμο του The Crew

Κρίσιμη Ευπάθεια στα Windows Χρησιμοποιήθηκε σε Στοχευμένες Επιθέσεις Ransomware

Πενήντα Χρόνια Microsoft: Από το Altair 8800 στην Επανάσταση της Τεχνητής Νοημοσύνης

POPULAR POSTS

Ένα Apple Watch από γυαλί – Το iPhone των ονείρων του Jony Ive;

Entrepreneurial Advertising: The Future Of Marketing

Ηθοποιοί τέλος στον 5ο κύκλο

POPULAR CATEGORY

Σχετικά με το TechBit

FOLLOW US

Ο νέος ανοιχτού κώδικα Colossus του Deepseek ανατρέπει την τρέχουσα κατάσταση στην τεχνητή νοημοσύνη

Περιεχόμενα Άρθρου [hide]

Μείνετε μπροστά από την καμπύλη!

Τρέχοντας σε ένα μηχάνημα “καταναλωτή”;

Ανατρέποντας ένα βιομηχανικό πρότυπο;

Η μαγεία πίσω από την ανακάλυψη του Deepseek

Open Source: Ο Μεγάλος Διαφοροποιητής

Deepseek-R2

Πώς να δοκιμάσετε το Deepseek-V3-0324

Ένα εξελισσόμενο πρόσωπο

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

Most Popular

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY

Σχετικά με το TechBit

FOLLOW US