Το μοντέλο O3 AI της Openai βαθμολογήθηκε χαμηλότερα στο σημείο αναφοράς Frontiermath από ό, τι αρχικά υπονοείται, σύμφωνα με ανεξάρτητες δοκιμές από Εποχή AIτο Ινστιτούτο Ερευνών πίσω από το Frontiermath. Όταν η Openai αποκάλυψε το O3 τον Δεκέμβριο, ισχυρίστηκε ότι το μοντέλο θα μπορούσε να απαντήσει στο 25% των ερωτήσεων του Frontiermath, ξεπερνώντας σημαντικά τα άλλα μοντέλα.
Οι δοκιμές της εποχής AI διαπίστωσαν ότι το O3 σημείωσε περίπου 10% στο Frontiermath. Η ασυμφωνία μπορεί να οφείλεται σε διαφορές στις ρυθμίσεις δοκιμών ή στην έκδοση του O3 που χρησιμοποιείται. Ο επικεφαλής ερευνητής της Openai, Mark Chen, είχε δήλωσε ότι Το O3 πέτυχε πάνω από το 25% σε “επιθετικές ρυθμίσεις υπολογισμού δοκιμής-χρόνου”. Η Epoch σημείωσε ότι τα δημοσιευμένα αποτελέσματα αναφοράς του OpenAI έδειξαν μια χαμηλότερη βαθμολογία που ταιριάζει με την παρατηρήθηκε η Εποχή 10%.
Το δημόσιο μοντέλο O3 είναι “συντονισμένο για χρήση συνομιλίας/προϊόντος” και έχει μικρότερες υπολογιστές από την έκδοση που δοκιμάστηκε από την OpenAI τον Δεκέμβριο, σύμφωνα με το Ίδρυμα Arc Prize, το οποίο εξέτασε μια έκδοση πριν από την απελευθέρωση του O3. Το Wenda Zhou του Openai εξηγούνταν ότι το μοντέλο παραγωγής O3 είναι “πιο βελτιστοποιημένο για περιπτώσεις χρήσης πραγματικού κόσμου” και ταχύτητα, γεγονός που μπορεί να οδηγήσει σε ανισότητες αναφοράς.
Τα μοντέλα O3-Mini-High και O4-Mini της Openai ξεπερνούν το O3 στο Frontiermath. Η εταιρεία σχεδιάζει να κυκλοφορήσει μια ισχυρότερη παραλλαγή O3, O3-Pro, τις επόμενες εβδομάδες. Το περιστατικό αυτό υπογραμμίζει την ανάγκη για προσοχή κατά την ερμηνεία των σημείων αναφοράς του AI, ιδιαίτερα όταν χρησιμοποιούνται για την προώθηση των εμπορικών προϊόντων.
Η βιομηχανία AI έχει δει πολλές αντιπαραθέσεις συγκριτικής αξιολόγησης πρόσφατα. Τον Ιανουάριο, η Epoch επικρίθηκε ότι δεν αποκάλυψε τη χρηματοδότηση από την OpenAI μέχρι να ανακοινώσει η εταιρεία O3. Ο Xai κατηγορήθηκε ότι δημοσίευσε παραπλανητικά διαγράμματα αναφοράς για το μοντέλο Grok 3 και ο Meta παραδέχτηκε ότι θα επιταχύνει τις βαθμολογίες αναφοράς για μια διαφορετική έκδοση ενός μοντέλου από αυτό που είναι διαθέσιμο για τους προγραμματιστές.
VIA: DataConomy.com