Το O3’s O3 διεκδίκησε το 25%, η ανεξάρτητη δοκιμή λέει “Try 10”

22 Απριλίου, 2025

190

Περιεχόμενα Άρθρου [hide]

Μείνετε μπροστά από την καμπύλη!

Το μοντέλο O3 AI της Openai βαθμολογήθηκε χαμηλότερα στο σημείο αναφοράς Frontiermath από ό, τι αρχικά υπονοείται, σύμφωνα με ανεξάρτητες δοκιμές από Εποχή AIτο Ινστιτούτο Ερευνών πίσω από το Frontiermath. Όταν η Openai αποκάλυψε το O3 τον Δεκέμβριο, ισχυρίστηκε ότι το μοντέλο θα μπορούσε να απαντήσει στο 25% των ερωτήσεων του Frontiermath, ξεπερνώντας σημαντικά τα άλλα μοντέλα.

Οι δοκιμές της εποχής AI διαπίστωσαν ότι το O3 σημείωσε περίπου 10% στο Frontiermath. Η ασυμφωνία μπορεί να οφείλεται σε διαφορές στις ρυθμίσεις δοκιμών ή στην έκδοση του O3 που χρησιμοποιείται. Ο επικεφαλής ερευνητής της Openai, Mark Chen, είχε δήλωσε ότι Το O3 πέτυχε πάνω από το 25% σε “επιθετικές ρυθμίσεις υπολογισμού δοκιμής-χρόνου”. Η Epoch σημείωσε ότι τα δημοσιευμένα αποτελέσματα αναφοράς του OpenAI έδειξαν μια χαμηλότερη βαθμολογία που ταιριάζει με την παρατηρήθηκε η Εποχή 10%.

Το δημόσιο μοντέλο O3 είναι “συντονισμένο για χρήση συνομιλίας/προϊόντος” και έχει μικρότερες υπολογιστές από την έκδοση που δοκιμάστηκε από την OpenAI τον Δεκέμβριο, σύμφωνα με το Ίδρυμα Arc Prize, το οποίο εξέτασε μια έκδοση πριν από την απελευθέρωση του O3. Το Wenda Zhou του Openai εξηγούνταν ότι το μοντέλο παραγωγής O3 είναι “πιο βελτιστοποιημένο για περιπτώσεις χρήσης πραγματικού κόσμου” και ταχύτητα, γεγονός που μπορεί να οδηγήσει σε ανισότητες αναφοράς.

Εικόνα: Εποχή AI

Τα μοντέλα O3-Mini-High και O4-Mini της Openai ξεπερνούν το O3 στο Frontiermath. Η εταιρεία σχεδιάζει να κυκλοφορήσει μια ισχυρότερη παραλλαγή O3, O3-Pro, τις επόμενες εβδομάδες. Το περιστατικό αυτό υπογραμμίζει την ανάγκη για προσοχή κατά την ερμηνεία των σημείων αναφοράς του AI, ιδιαίτερα όταν χρησιμοποιούνται για την προώθηση των εμπορικών προϊόντων.

Η βιομηχανία AI έχει δει πολλές αντιπαραθέσεις συγκριτικής αξιολόγησης πρόσφατα. Τον Ιανουάριο, η Epoch επικρίθηκε ότι δεν αποκάλυψε τη χρηματοδότηση από την OpenAI μέχρι να ανακοινώσει η εταιρεία O3. Ο Xai κατηγορήθηκε ότι δημοσίευσε παραπλανητικά διαγράμματα αναφοράς για το μοντέλο Grok 3 και ο Meta παραδέχτηκε ότι θα επιταχύνει τις βαθμολογίες αναφοράς για μια διαφορετική έκδοση ενός μοντέλου από αυτό που είναι διαθέσιμο για τους προγραμματιστές.

Προτεινόμενη πίστωση εικόνας

VIA: DataConomy.com

- Advertisement -

Προηγούμενο άρθρο

ΗΠΑ: Αναιμική ανάπτυξη εν μέσω δασμών δείχνει ένας βασικός δείκτης για την οικονομία –

Επόμενο άρθρο

Η σειρά Samsung Galaxy Tab S10 παίρνει σταθερή ένα UI 7 (Android 15) Ενημέρωση

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

εισάγετε το σχόλιό σας!

παρακαλώ εισάγετε το όνομά σας εδώ

έχετε εισάγει εσφαλμένη διεύθυνση ηλεκτρονικού ταχυδρομείου!

παρακαλώ εισάγετε εδώ την ηλεκτρονική σας διεύθυνση

Το O3’s O3 διεκδίκησε το 25%, η ανεξάρτητη δοκιμή λέει “Try 10”

Περιεχόμενα Άρθρου [hide]

Το Chatgpt Search Hits 41 εκατομμύρια μηνιαίοι ενεργοί χρήστες στην Ευρώπη

Ο Zuckerberg κάποτε διαγράφει όλους τους φίλους σας στο Facebook

Το κόστος της ευγένειας: Δεκάδες εκατομμύρια δολάρια χάνει η OpenAI από τα “παρακαλώ” και “ευχαριστώ” στο ChatGPT – OpenAI

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

Most Popular

Ένα Apple Watch από γυαλί – Το iPhone των ονείρων του Jony Ive;

Entrepreneurial Advertising: The Future Of Marketing

Ηθοποιοί τέλος στον 5ο κύκλο

Αρχαιολόγοι ανακάλυψαν μυστηριώδεις δομές κάτω από τις πυραμίδες της Αιγύπτου

EDITOR PICKS

Ubisoft Αντιτίθεται σε Αγωγή για το Κλείσιμο του The Crew

Κρίσιμη Ευπάθεια στα Windows Χρησιμοποιήθηκε σε Στοχευμένες Επιθέσεις Ransomware

Πενήντα Χρόνια Microsoft: Από το Altair 8800 στην Επανάσταση της Τεχνητής Νοημοσύνης

POPULAR POSTS

Ένα Apple Watch από γυαλί – Το iPhone των ονείρων του Jony Ive;

Entrepreneurial Advertising: The Future Of Marketing

Ηθοποιοί τέλος στον 5ο κύκλο

POPULAR CATEGORY

Σχετικά με το TechBit

FOLLOW US

Το O3’s O3 διεκδίκησε το 25%, η ανεξάρτητη δοκιμή λέει “Try 10”

Περιεχόμενα Άρθρου [hide]

Μείνετε μπροστά από την καμπύλη!

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

Most Popular

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY

Σχετικά με το TechBit

FOLLOW US