back to top
Σάββατο, 19 Απριλίου, 2025
ΑρχικήEconomyΑυτό το σημείο αναφοράς ρωτά αν το AI μπορεί να σκεφτεί σαν...

Αυτό το σημείο αναφοράς ρωτά αν το AI μπορεί να σκεφτεί σαν μηχανικός

- Advertisment -


Σύμφωνα με μια νέα μελέτη με τίτλο «FEABENCH: Αξιολόγηση μοντέλων γλωσσών σε ικανότητα συλλογιστικής πολλαπλών« Από τους ερευνητές στο Google και στο Χάρβαρντ, μεγάλα μοντέλα γλωσσών μπορούν να μιλήσουν ένα μεγάλο παιχνίδι-αλλά όταν πρόκειται για μηχανική πραγματικού κόσμου, οι περισσότεροι δεν μπορούν να τρέξουν ακόμη και μια προσομοίωση θερμότητας σωστά.

Αυτό το νέο σημείο αναφοράς, που ονομάστηκε Ευσέβειαδεν δοκιμάζει μοντέλα για την παραγωγή κώδικα ή τα προβλήματα φυσικής του εγχειριδίου. Τους προκαλεί να λύσουν πολύπλοκες εργασίες μηχανικής που βασίζονται σε προσομοίωση που χρησιμοποιούν Comsol multiphysicsμια πλατφόρμα ανάλυσης πεπερασμένων στοιχείων επαγγελματικής ποιότητας (FEA). Με άλλα λόγια, ρωτάει: Μπορεί ο αγαπημένος σας βοηθός AI να χτίσει μια εικονική δέσμη, να εφαρμόσει τη σωστή φυσική και να υπολογίσει πραγματικά τι θα συμβεί στη συνέχεια;

Γιατί η προσομοίωση χτυπά το spitballing

Η FEA δεν αφορά τις προσεγγίσεις. Πρόκειται για τη μετάφραση της φυσικής πραγματικότητας σε αριθμητική ακρίβεια – που προκαλεί τη θερμοκρασία του τρόπου με τον οποίο η θερμότητα εξαπλώνεται σε ημιαγωγό, πώς μια δέσμη κάμπτεται υπό πίεση, πώς διαδίδεται η αποτυχία υλικού. Αυτά είναι ερωτήματα που καθορίζουν την επιτυχία της μηχανικής ή την καταστροφή. Σε αντίθεση με τα γενικά σημεία αναφοράς, η Feabench αυξάνει το μπαρ: απαιτεί το AI Models Reason μέσω της φυσικής πολλαπλών τομέων και λειτουργεί εργαλεία προσομοίωσης επαγγελματικής ποιότητας για την επίλυση προβλημάτων.

Οθόνη που ελήφθη από την κοινή μελέτη

Συγκριτική αξιολόγηση του μη δελτίου

Ο Feabench γεμίζει ένα κενό που χάνουν τα υπάρχοντα σημεία αναφοράς AI. Η προηγούμενη εργασία έχει μετρήσει σε μεγάλο βαθμό την απόδοση σε συμβολικά μαθηματικά ή δημιουργία κώδικα, αλλά η επιστήμη που βασίζεται σε προσομοίωση χρειάζεται περισσότερο από τη σύνταξη. Χρειάζεται σημασιολογική κατανόηση της χωρικής γεωμετρίας, των αλληλεπιδράσεων υλικών και των αριθμητικών διαλυτών. Το Feabench το κάνει αυτό με την αξιολόγηση του εάν το LLMS μπορεί να πάρει ένα πρόβλημα φυσικής γλώσσας, να δημιουργήσει κλήσεις COMSOL MultipHysics® API και να υπολογίσει το σωστό αποτέλεσμα.

Το σημείο αναφοράς έρχεται σε δύο επίπεδα. Χρυσός Περιλαμβάνει 15 σχολαστικά επαληθευμένα προβλήματα με καθαρές εισροές, σαφώς καθορισμένους στόχους και διορθώσεις τιμών εξόδου – κάθε διαλυτή μέσω του API Java της COMSOL. Αυτά περιλαμβάνουν τομείς φυσικής από τη μεταφορά θερμότητας σε κβαντική μηχανική. Τότε υπάρχει Feabench μεγάλο: Ένα σύνολο 200 αλγοριθμικά αναλυμένων μαθημάτων που δοκιμάζουν την ευρύτερη δημιουργία κώδικα, αλλά στερούνται αυστηρής αλήθειας εδάφους. Gold Tests Precision; Μεγάλες δοκιμές πλάτος.

Για την αντιμετώπιση αυτών των καθηκόντων, οι ερευνητές δημιούργησαν έναν πλήρη αγωγό. ΕΝΑ Ελεγκτής επιβλέπει τη διαδικασία. ΕΝΑ Διόρθωσης Επαναλαμβάνει επαναληπτικά κώδικα με βάση τα σφάλματα εκτέλεσης. ΕΝΑ Tuollookupagent Λήψη τεκμηρίωσης φυσικής ή σχολιασμένων αποσπασμάτων κώδικα για να βοηθήσει. Ο Αξιολογητής Χρησιμοποιεί τόσο την ανατροφοδότηση API όσο και το VerifierLlm για να αξιολογήσει εάν η λύση έχει νόημα. Αυτό το σύστημα δεν είναι μόνο η εκτέλεση των προτροπών ενός shot-η πλοήγηση, η διόρθωση και η εκμάθηση από λάθη.

Αυτό το σημείο αναφοράς ρωτά αν το AI μπορεί να σκεφτεί σαν μηχανικός
Οθόνη που ελήφθη από την κοινή μελέτη

Τα κλειστά βάρη κερδίζουν, αλλά ακόμα ιδρώτα

Στις βασικές δοκιμές, μοντέλα κλειστών πηγών όπως το CLAUDE 3.5, το GPT-4O και το GEMINI 1,5 υπερέβησαν τα μοντέλα ανοιχτού βάρους. Ο Claude 3.5 οδήγησε το πακέτο, επιτυγχάνοντας 79% εκτέλεση και βαθμολογώντας τον μοναδικό έγκυρο στόχο σε ένα χρυσό πρόβλημα. Τα ανοιχτά μοντέλα αγωνίστηκαν, με μερικές παραισθημένες διεπαφές φυσικής ή χαρακτηριστικά κακής εφαρμογής. Το πιο δύσκολο κομμάτι; Ο φυσική μπλοκόπου τα μοντέλα έπρεπε να εφαρμόσουν ακριβείς οριακές συνθήκες και ιδιότητες φυσικής για να έχουν αποτελέσματα που ταιριάζουν με την αλήθεια του εδάφους.

Όταν ένα σχέδιο δεν είναι αρκετό

Το σημείο αναφοράς περιλαμβάνει δύο τύπους εργασιών. Στο Modelspecs Εργασία, το LLM δίνεται μόνο οι τεχνικές προδιαγραφές και πρέπει να αιτιολογεί μια λύση. Στο Σχέδιο Εργασία, το μοντέλο λαμβάνει οδηγίες βήμα προς βήμα. Παραδόξως, το έργο του σχεδίου δεν οδήγησε σε καλύτερη απόδοση. Τα μοντέλα απέτυχαν συχνά με την παραλαβή οδηγιών κυριολεκτικά και παραισθησιολογικά λανθασμένα ονόματα API. Προσθήκη μιας λίστας έγκυρων χαρακτηριστικών COMSOL στην προτροπή – ονομάστηκε το Phydoc στο πλαίσιο Στρατηγική – Μειώνοντας τις ψευδαισθήσεις και τη βελτίωση της διεπαφής σημαντικά.

Αυτό το σημείο αναφοράς ρωτά αν το AI μπορεί να σκεφτεί σαν μηχανικός
Οθόνη που ελήφθη από την κοινή μελέτη

Μαθήματα για μηχανικούς AI

Ένα μεγάλο takeaway: Η μετάφραση είναι πιο δύσκολη από τον προγραμματισμό. Ακόμη και όταν το μοντέλο ξέρει τι πρέπει να κάνει, η έκφρασή του στο DSL της COMSOL (γλώσσα ειδικής για τον τομέα) είναι το οδόφραγμα. Η λύση της ομάδας; Παρέχετε εργαλεία γείωσης όπως σχολιασμένες βιβλιοθήκες κώδικα και τεκμηρίωση στο πλαίσιο, στη συνέχεια, συνδυάστε αυτό με δομημένες ροές εργασίας. Αυτή η συνταγή έγινε κακή απόδοση ενός πυροβολισμού σε ισχυρή βελτίωση πολλαπλών στροφών. Στην πραγματικότητα, έφτασε η στρατηγική για τον πράκτορα πολλαπλών στροφών 88% εκτέλεσητο υψηλότερο από όλα τα πειράματα.

  • ModelPecs + Agent Multi-Turn: 0,88 Εκτελεσιμότητα, 2/15 έγκυροι στόχοι
  • ModelPecs + Phydoc: 0,62 Εκτελεσιμότητα, 1/15 έγκυροι στόχοι

Οι προσομοιώσεις είναι ο τρόπος με τον οποίο οι μηχανικοί συμπιέζουν το χρόνο και τον κίνδυνο. Το Feabench δείχνει ότι το LLMS δεν είναι έτοιμο να εκτελέσει προσομοιώσεις χωρίς επίβλεψη, αλλά πλησιάζουν τα χρήσιμα copilots. Αυτό έχει σημασία αν θέλουμε το AI να βοηθήσει στην ταχεία πρωτότυπα, την επιστημονική ανακάλυψη ή το δομικό σχεδιασμό. Και αν το AI μπορεί να μάθει να μοντελοποιεί τον φυσικό κόσμο τόσο ακριβώς όσο μιμείται τη γλώσσα, δεν θα συνομιλήσει – θα προσομοιώνει, θα λύσει και ίσως κάποια μέρα, ακόμη και εφευρέθηκε.


Προτεινόμενη πίστωση εικόνας



VIA: DataConomy.com

- Advertisement -
- Advertisment -
Dimitris Marizas
Dimitris Marizashttps://techbit.gr
Παθιασμένος με τις νέες τεχνολογίες, με έφεση στην καινοτομία και τη δημιουργικότητα. Διαρκώς αναζητώ τρόπους αξιοποίησης της τεχνολογίας για την επίλυση προβλημάτων και τη βελτίωση της καθημερινής ζωής.
RELATED ARTICLES

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

- Advertisment -

Most Popular

- Advertisment -