back to top
Τρίτη, 22 Απριλίου, 2025
ΑρχικήEconomyΤο O3's O3 διεκδίκησε το 25%, η ανεξάρτητη δοκιμή λέει "Try 10"

Το O3’s O3 διεκδίκησε το 25%, η ανεξάρτητη δοκιμή λέει “Try 10”

- Advertisment -

Περιεχόμενα Άρθρου [hide]


Το μοντέλο O3 AI της Openai βαθμολογήθηκε χαμηλότερα στο σημείο αναφοράς Frontiermath από ό, τι αρχικά υπονοείται, σύμφωνα με ανεξάρτητες δοκιμές από Εποχή AIτο Ινστιτούτο Ερευνών πίσω από το Frontiermath. Όταν η Openai αποκάλυψε το O3 τον Δεκέμβριο, ισχυρίστηκε ότι το μοντέλο θα μπορούσε να απαντήσει στο 25% των ερωτήσεων του Frontiermath, ξεπερνώντας σημαντικά τα άλλα μοντέλα.

Οι δοκιμές της εποχής AI διαπίστωσαν ότι το O3 σημείωσε περίπου 10% στο Frontiermath. Η ασυμφωνία μπορεί να οφείλεται σε διαφορές στις ρυθμίσεις δοκιμών ή στην έκδοση του O3 που χρησιμοποιείται. Ο επικεφαλής ερευνητής της Openai, Mark Chen, είχε δήλωσε ότι Το O3 πέτυχε πάνω από το 25% σε “επιθετικές ρυθμίσεις υπολογισμού δοκιμής-χρόνου”. Η Epoch σημείωσε ότι τα δημοσιευμένα αποτελέσματα αναφοράς του OpenAI έδειξαν μια χαμηλότερη βαθμολογία που ταιριάζει με την παρατηρήθηκε η Εποχή 10%.

Το δημόσιο μοντέλο O3 είναι “συντονισμένο για χρήση συνομιλίας/προϊόντος” και έχει μικρότερες υπολογιστές από την έκδοση που δοκιμάστηκε από την OpenAI τον Δεκέμβριο, σύμφωνα με το Ίδρυμα Arc Prize, το οποίο εξέτασε μια έκδοση πριν από την απελευθέρωση του O3. Το Wenda Zhou του Openai εξηγούνταν ότι το μοντέλο παραγωγής O3 είναι “πιο βελτιστοποιημένο για περιπτώσεις χρήσης πραγματικού κόσμου” και ταχύτητα, γεγονός που μπορεί να οδηγήσει σε ανισότητες αναφοράς.

Εικόνα: Εποχή AI

Τα μοντέλα O3-Mini-High και O4-Mini της Openai ξεπερνούν το O3 στο Frontiermath. Η εταιρεία σχεδιάζει να κυκλοφορήσει μια ισχυρότερη παραλλαγή O3, O3-Pro, τις επόμενες εβδομάδες. Το περιστατικό αυτό υπογραμμίζει την ανάγκη για προσοχή κατά την ερμηνεία των σημείων αναφοράς του AI, ιδιαίτερα όταν χρησιμοποιούνται για την προώθηση των εμπορικών προϊόντων.

Η βιομηχανία AI έχει δει πολλές αντιπαραθέσεις συγκριτικής αξιολόγησης πρόσφατα. Τον Ιανουάριο, η Epoch επικρίθηκε ότι δεν αποκάλυψε τη χρηματοδότηση από την OpenAI μέχρι να ανακοινώσει η εταιρεία O3. Ο Xai κατηγορήθηκε ότι δημοσίευσε παραπλανητικά διαγράμματα αναφοράς για το μοντέλο Grok 3 και ο Meta παραδέχτηκε ότι θα επιταχύνει τις βαθμολογίες αναφοράς για μια διαφορετική έκδοση ενός μοντέλου από αυτό που είναι διαθέσιμο για τους προγραμματιστές.


Προτεινόμενη πίστωση εικόνας



VIA: DataConomy.com

- Advertisement -
- Advertisment -
Dimitris Marizas
Dimitris Marizashttps://techbit.gr
Παθιασμένος με τις νέες τεχνολογίες, με έφεση στην καινοτομία και τη δημιουργικότητα. Διαρκώς αναζητώ τρόπους αξιοποίησης της τεχνολογίας για την επίλυση προβλημάτων και τη βελτίωση της καθημερινής ζωής.
RELATED ARTICLES

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

- Advertisment -

Most Popular

- Advertisment -