back to top
Πέμπτη, 22 Μαΐου, 2025
ΑρχικήEconomyΕνώ η Sora αναισθητοποιεί με το CLIPS Magictime AI αντιμετωπίζει το πιο...

Ενώ η Sora αναισθητοποιεί με το CLIPS Magictime AI αντιμετωπίζει το πιο δύσκολο πρόβλημα της αλλαγής

- Advertisment -

Περιεχόμενα Άρθρου [Κλικ για Προβολή]


Ενώ τα μοντέλα τεχνητής νοημοσύνης κειμένου σε video, όπως η Sora της OpenAi, εκπέμπουν το κοινό με τις ταχείες εξελίξεις τους, έχουν χτυπήσει ένα εννοιολογικό οδόφραγμα: που απεικονίζουν ρεαλιστικά μεταμορφωμένες διαδικασίες. Η προσομοίωση ενός δέντρου σταδιακά βλαστάνεται από έναν σπόρο, ένα λουλούδι που ανθίζει πέταλο από το πέταλο, ή το ψωμί που αυξάνεται και browning σε ένα φούρνο έχει αποδειχθεί σημαντικά σκληρότερη για τα συστήματα AI από τη δημιουργία άλλων τύπων περιεχομένου βίντεο. Αυτή η δυσκολία προέρχεται από τη βαθιά κατανόηση της φυσικής του πραγματικού κόσμου και των τεράστιων, συχνά λεπτών, παραλλαγών που είναι εγγενείς σε τέτοιους μετασχηματισμούς. Αλλά τώρα, ένα νέο μοντέλο AI που ονομάζεται Magictime σηματοδοτεί ένα εξελικτικό βήμα για την υπέρβαση αυτής της πρόκλησης.

Το όνειρο του συμπλέγματος που δημιουργεί AI, εξελισσόμενες σκηνές από απλές προτροπές κειμένου γίνεται γρήγορα πραγματικότητα. Έχουμε δει το AI να δημιουργήσει εκπληκτικά ρεαλιστικά, σύντομα βίντεο κλιπ σχεδόν οτιδήποτε μπορεί να φανταστεί. Ωστόσο, όταν πρόκειται για διαδικασίες που περιλαμβάνουν βαθμιαία αλλαγή, μετασχηματισμό ή “μεταμόρφωση”, τα τρέχοντα κορυφαία μοντέλα συχνά παραπαίουν. Αυτοί οι τύποι βίντεο απαιτούν κάτι περισσότερο από το να καταγράφουν τις εύλογες εικόνες. Απαιτούν μια σιωπηρή γνώση του τρόπου αλληλεπίδρασης των αντικειμένων, του τρόπου με τον οποίο τα υλικά αλλάζουν την κατάσταση και του τρόπου με τον οποίο ξεδιπλώνονται οι βιολογικές διεργασίες με την πάροδο του χρόνου. Η λεπτή φυσική και τα περίπλοκα χρονοδιαγράμματα που εμπλέκονται, για παράδειγμα, ένα κτίριο που κατασκευάζεται με κομμάτι, είναι περίπλοκο για να μάθει και να αναπαράγει αυθεντικά.

Προηγούμενα μοντέλα που προσπαθούν τέτοια κατορθώματα παρήγαγαν συχνά βίντεο με περιορισμένη κίνηση, μη πειστικές μετασχηματισμούς ή κακές παραλλαγές, παραλείποντας να καταγράψουν την ουσία της δυναμικής διαδικασίας που απεικονίζεται. Αυτός ο περιορισμός υπογραμμίζει ένα κενό στην ικανότητα του AI να «κατανοεί πραγματικά» και να προσομοιώνει τον φυσικό κόσμο με λεπτό τρόπο.

Απευθυνόμενος σε αυτό το GAP, μια συνεργατική ομάδα επιστημόνων υπολογιστών από το Πανεπιστήμιο του Ρότσεστερ, το Πανεπιστήμιο του Πεκίνου, το Πανεπιστήμιο της Καλιφόρνιας, τη Σάντα Κρουζ και το Εθνικό Πανεπιστήμιο της Σιγκαπούρης έχει αναπτηγμένος Magictime. Αυτό το καινοτόμο μοντέλο AI κειμένου σε video έχει σχεδιαστεί ειδικά για να μάθει τη γνώση της φυσικής πραγματικής φυσικής με την κατάρτιση σε ένα πλούσιο σύνολο δεδομένων των βίντεο. Η ομάδα περιγράφει λεπτομερώς το μοντέλο τους σε ένα έγγραφο που δημοσιεύθηκε στο διάσημο περιοδικό IEEE συναλλαγές σχετικά με την ανάλυση προτύπων και τη νοημοσύνη μηχανής.

“Έχει αναπτυχθεί τεχνητή νοημοσύνη για να προσπαθήσει να κατανοήσει τον πραγματικό κόσμο και να προσομοιώσει τις δραστηριότητες και τα γεγονότα που λαμβάνουν χώρα”, λέει ο Jinfa Huang, διδακτορικός φοιτητής στο Τμήμα Πληροφορικής του Πανεπιστημίου του Ρότσεστερ, εποπτευόμενος από τον καθηγητή Jiebo Luo, και οι δύο από τους οποίους είναι μεταξύ των συντάκτες του εγγράφου. “Το Magictime είναι ένα βήμα προς το AI που μπορεί να προσομοιώσει καλύτερα τις φυσικές, χημικές, βιολογικές ή κοινωνικές ιδιότητες του κόσμου γύρω μας”.

Η βασική καινοτομία του Magictime έγκειται στη μεθοδολογία της κατάρτισης. Για να εξοπλίσουν τα μοντέλα AI για να μιμηθούν αποτελεσματικότερα τις μεταμορφωμένες διαδικασίες, οι ερευνητές ανέπτυξαν σχολαστικά ένα σύνολο δεδομένων υψηλής ποιότητας που περιλαμβάνει πάνω από 2.000 βίντεο χρονικού διαστήματος. Βασικά, αυτά τα βίντεο συνοδεύονται από λεπτομερείς λεζάντες, επιτρέποντας στο AI να συνδέει περιγραφές κειμένου με την οπτική εξέλιξη των συμβάντων σε εκτεταμένες περιόδους.

Δυνατότητες του Magictime

Επί του παρόντος, η έκδοση U-net ανοιχτού κώδικα του Magictime μπορεί να δημιουργήσει κλιπ βίντεο δύο δευτερολέπτων σε ανάλυση 512 με 512 εικονοστοιχεία, που εκτελούνται σε 8 καρέ ανά δευτερόλεπτο. Μια συνοδευτική αρχιτεκτονική μετασχηματιστή διάχυσης επεκτείνει αυτή την ικανότητα, επιτρέποντας τη δημιουργία κλιπ δέκα δευτερολέπτων, προσφέροντας ένα πιο σημαντικό παράθυρο στις προσομοιωμένες διαδικασίες.

Οι εφαρμογές είναι ποικίλες και οπτικά επιτακτικές. Το Magictime μπορεί να χρησιμοποιηθεί για προσομοίωση:

  • Βιολογική μεταμόρφωση: Οραματιστείτε ένα λουλούδι που ξεδιπλώνει τα πέταλα του, ένα σπόρο που βλάπτει σε ένα φυτά ή τα φρούτα ωριμάζουν σε ένα υποκατάστημα.
  • Κατασκευή και Δημιουργία: Παρακολουθήστε ένα κτίριο να αυξάνεται από τα θεμέλια ή τα πολύπλοκα μηχανήματα που συναρμολογούνται.
  • Μαγειρικές διαδικασίες: Παρατηρήστε το ψήσιμο ψωμιού και το καφέ σε ένα φούρνο, ή το πάγο που λιώνει στο νερό.

Αυτά τα παραδείγματα παρουσιάζουν την ικανότητα του Magictime να δημιουργεί βίντεο που όχι μόνο φαίνονται εύλογα αλλά αντανακλούν επίσης μια μαθησιακή κατανόηση του τρόπου με τον οποίο οι μετασχηματισμοί συμβαίνουν διαδοχικά και σύμφωνα με τις φυσικές αρχές.

Ενώ τα βίντεο που παράγονται από το Magictime είναι αναμφισβήτητα οπτικά ενδιαφέροντα και παίζοντας με το demo μπορεί να είναι μια διασκεδαστική εξερεύνηση των δυνατοτήτων του, οι ερευνητές έχουν ένα πιο βαθύ όραμα για τη δημιουργία τους. Θεωρούν το Magictime ως ένα σημαντικό βήμα προς τα πιο εξελιγμένα μοντέλα AI που θα μπορούσαν να χρησιμεύσουν ως ανεκτίμητα εργαλεία για επιστήμονες και ερευνητές σε διάφορους κλάδους.

Η ικανότητα προσομοίωσης σύνθετων διαδικασιών που βασίζονται σε μαθητευόμενη φυσική γνώση ανοίγει νέες οδούς για εξερεύνηση και δοκιμές υποθέσεων. “Η ελπίδα μας είναι ότι κάποια μέρα, για παράδειγμα, οι βιολόγοι θα μπορούσαν να χρησιμοποιήσουν γενετικό βίντεο για να επιταχύνουν την προκαταρκτική εξερεύνηση των ιδεών”, εξηγεί ο Huang. “Ενώ τα φυσικά πειράματα παραμένουν απαραίτητα για την τελική επαλήθευση, οι ακριβείς προσομοιώσεις μπορούν να συντομεύσουν τους κύκλους επανάληψης και να μειώσουν τον αριθμό των ζωντανών δοκιμών που απαιτούνται”.


Το AI μπορεί σύντομα να ανιχνεύσει νωρίς τη δυσλεξία από το χειρόγραφο των παιδιών


Φανταστείτε έναν βιολόγο που εισάγει παραμέτρους για την κυτταρική ανάπτυξη υπό συγκεκριμένες συνθήκες και λαμβάνοντας μια προσομοιωμένη χρονική καθυστέρηση των πιθανών αποτελεσμάτων. Ή ένας μηχανικός που απεικονίζει διαφορετικές ακολουθίες κατασκευών για τον εντοπισμό πιθανών σημείων συμφόρησης πριν αρχίσει οποιαδήποτε φυσική εργασία. Αυτή η ικανότητα θα μπορούσε να επιταχύνει δραματικά το ρυθμό της έρευνας, να μειώσει το κόστος που συνδέεται με φυσικούς πειραματισμούς και να επιτρέψει στους επιστήμονες να διερευνήσουν ένα ευρύτερο φάσμα των σεναρίων “τι εάν” γρήγορα και αποτελεσματικά.

Το Magictime αντιπροσωπεύει μια σημαντική πρόοδο στον τομέα της γενιάς κειμένου-video, ιδιαίτερα στην εστίασή της στην εμπλοκή του AI με καλύτερη κατανόηση της πραγματικής δυναμικής. Με την εκμάθηση από τα δεδομένα χρονικού διαστήματος, το μοντέλο κινείται πέρα ​​από την απλή αναγνώριση προτύπων σε μια πιο θεμελιώδη κατανόηση του τρόπου με τον οποίο τα πράγματα αλλάζουν και εξελίσσονται.


Προτεινόμενη πίστωση εικόνας



VIA: DataConomy.com

- Advertisement -
Dimitris Marizas
Dimitris Marizashttps://techbit.gr
Παθιασμένος με τις νέες τεχνολογίες, με έφεση στην καινοτομία και τη δημιουργικότητα. Διαρκώς αναζητώ τρόπους αξιοποίησης της τεχνολογίας για την επίλυση προβλημάτων και τη βελτίωση της καθημερινής ζωής.
RELATED ARTICLES

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

- Advertisment -

Most Popular

- Advertisment -