Δευτέρα, 12 Ιανουαρίου, 2026
ΑρχικήAppleΗ Apple κατασκευάζει ένα μοντέλο AI που μπορεί να δει, να δημιουργήσει...

Η Apple κατασκευάζει ένα μοντέλο AI που μπορεί να δει, να δημιουργήσει και να επεξεργαστεί εικόνες


Με βάση ένα προηγούμενο μοντέλο που ονομάζεται UniGen, μια ομάδα ερευνητών της Apple παρουσιάζει το UniGen 1.5, ένα σύστημα που μπορεί να χειριστεί την κατανόηση, τη δημιουργία και την επεξεργασία εικόνων σε ένα μόνο μοντέλο. Εδώ είναι οι λεπτομέρειες.

Με βάση το αρχικό UniGen

Τον περασμένο Μάιο, μια ομάδα ερευνητών της Apple δημοσίευσε μια μελέτη που ονομάζεται UniGen: Ενισχυμένες στρατηγικές εκπαίδευσης και χρόνου δοκιμής για ενοποιημένη πολυτροπική κατανόηση και δημιουργία.

Σε αυτή την εργασία, εισήγαγαν ένα ενοποιημένο πολυτροπικό μοντέλο μεγάλης γλώσσας ικανό τόσο για την κατανόηση εικόνας όσο και για τη δημιουργία εικόνων μέσα σε ένα ενιαίο σύστημα, αντί να βασίζεται σε ξεχωριστά μοντέλα για κάθε εργασία.

Εικόνα: Apple

Τώρα, η Apple δημοσίευσε μια συνέχεια αυτής της μελέτης, σε μια εργασία με τίτλο UniGen-1.5: Βελτίωση Δημιουργίας και Επεξεργασίας Εικόνων μέσω Ενοποίησης Ανταμοιβής στην Ενισχυτική Μάθηση.

UniGen-1.5, εξηγείται

Αυτή η νέα έρευνα επεκτείνει το UniGen προσθέτοντας δυνατότητες επεξεργασίας εικόνας στο μοντέλο, ακόμα μέσα σε ένα ενιαίο πλαίσιο, αντί να χωρίζει την κατανόηση, τη δημιουργία και την επεξεργασία σε διαφορετικά συστήματα.

Η ενοποίηση αυτών των δυνατοτήτων σε ένα ενιαίο σύστημα είναι πρόκληση γιατί η κατανόηση και η δημιουργία εικόνων απαιτούν διαφορετικές προσεγγίσεις. Ωστόσο, οι ερευνητές υποστηρίζουν ότι ένα ενοποιημένο μοντέλο μπορεί να αξιοποιήσει την ικανότητα κατανόησης του για να βελτιώσει την απόδοση παραγωγής.

Σύμφωνα με αυτούς, μία από τις κύριες προκλήσεις στην επεξεργασία εικόνας είναι ότι τα μοντέλα συχνά δυσκολεύονται να κατανοήσουν πλήρως περίπλοκες οδηγίες επεξεργασίας, ειδικά όταν οι αλλαγές είναι λεπτές ή πολύ συγκεκριμένες.

Για να αντιμετωπιστεί αυτό, το UniGen-1.5 εισάγει ένα νέο βήμα μετά την εκπαίδευση που ονομάζεται Επεξεργασία Ευθυγράμμισης Οδηγιών:

“Επιπλέον, παρατηρούμε ότι το μοντέλο παραμένει ανεπαρκές στο χειρισμό διαφορετικών σεναρίων επεξεργασίας μετά από εποπτευόμενη λεπτομέρεια λόγω της ανεπαρκούς κατανόησης των οδηγιών επεξεργασίας. Ως εκ τούτου, προτείνουμε το Edit Instruction Alignment ως ένα ελαφρύ στάδιο μετά το SFT για να βελτιώσουμε την ευθυγράμμιση μεταξύ της εντολής επεξεργασίας και της σημασιολογίας της εικόνας και της σημασιολογίας της εικόνας. και είναι βελτιστοποιημένη για την πρόβλεψη του σημασιολογικού περιεχομένου της εικόνας-στόχου μέσω περιγραφών κειμένου.

Με άλλα λόγια, προτού ζητήσουν από το μοντέλο να βελτιώσει τα αποτελέσματά του μέσω ενισχυτικής μάθησης (που εκπαιδεύει το μοντέλο επιβραβεύοντας τα καλύτερα αποτελέσματα και τιμωρώντας τα χειρότερα), οι ερευνητές το εκπαιδεύουν πρώτα για να συναγάγει μια λεπτομερή κειμενική περιγραφή του τι πρέπει να περιέχει η επεξεργασμένη εικόνα, με βάση την αρχική εικόνα και την οδηγία επεξεργασίας.

Αυτό το ενδιάμεσο βήμα βοηθά το μοντέλο να εσωτερικεύσει καλύτερα την επιδιωκόμενη επεξεργασία πριν δημιουργήσει την τελική εικόνα.

Εικόνα: Apple

Στη συνέχεια, οι ερευνητές χρησιμοποιούν την ενισχυτική μάθηση με τρόπο που είναι αναμφισβήτητα η πιο σημαντική συνεισφορά της εργασίας: χρησιμοποιούν το ίδιο σύστημα ανταμοιβής τόσο για τη δημιουργία εικόνων όσο και για την επεξεργασία, κάτι που προηγουμένως ήταν προκλητικό επειδή οι επεξεργασίες μπορεί να κυμαίνονται από μικρές τροποποιήσεις έως ολοκληρωμένους μετασχηματισμούς.

Ως αποτέλεσμα, όταν δοκιμάζεται σε πολλά πρότυπα αναφοράς του κλάδου που μετρούν πόσο καλά τα μοντέλα ακολουθούν τις οδηγίες, διατηρούν την οπτική ποιότητα και χειρίζονται σύνθετες επεξεργασίες, το UniGen-1.5 είτε ταιριάζει είτε ξεπερνά πολλά υπερσύγχρονα ανοιχτά και ιδιόκτητα πολυτροπικά μοντέλα μεγάλων γλωσσών:

Μέσω των παραπάνω προσπαθειών, το UniGen-1.5 παρέχει μια ισχυρότερη βάση για την προώθηση της έρευνας σε ενοποιημένα MLLM και καθιερώνει ανταγωνιστικές επιδόσεις σε σύγκριση με την κατανόηση, τη δημιουργία και την επεξεργασία εικόνων. Τα πειραματικά αποτελέσματα δείχνουν ότι το UniGen-1.5 λαμβάνει 0,89 και 86,83 στο GenEval και στο DPG-Bench, ξεπερνώντας σημαντικά τις πρόσφατες μεθόδους όπως το BAGEL και το BLIP3o. Για την επεξεργασία εικόνας, το UniGen-1.5 επιτυγχάνει 4,31 συνολικά σκορ στο ImgEdit, ξεπερνώντας τα πρόσφατα μοντέλα ανοιχτού κώδικα όπως το OminiGen2 και είναι συγκρίσιμο με ιδιόκτητα μοντέλα όπως το GPT-Image-1.

Ακολουθούν ορισμένα παραδείγματα δημιουργίας κειμένου σε εικόνα και δυνατοτήτων επεξεργασίας εικόνας του UniGen-1.5 (δυστυχώς, οι ερευνητές φαίνεται να έχουν περικόψει κατά λάθος τις προτροπές για το τμήμα Κείμενο σε εικόνα στην πρώτη εικόνα):

Εικόνα: Apple
Εικόνα: Apple

Οι ερευνητές σημειώνουν ότι το UniGen-1.5 παλεύει με τη δημιουργία κειμένου, καθώς και με τη συνέπεια της ταυτότητας υπό ορισμένες συνθήκες:

Περιπτώσεις αποτυχίας του UniGen-1.5 τόσο στη δημιουργία κειμένου σε εικόνα όσο και στις εργασίες επεξεργασίας εικόνας απεικονίζονται στο Σχήμα Α. Στην πρώτη σειρά, παρουσιάζουμε τις περιπτώσεις όπου το UniGen-1.5 αποτυγχάνει να αποδώσει με ακρίβεια τους χαρακτήρες κειμένου, καθώς ο ελαφρύς διακριτός αποτοκοποιητής παλεύει να ελέγξει τις απαιτούμενες λεπτομέρειες παραγωγής κειμένου. Στη δεύτερη σειρά, παρουσιάζουμε δύο παραδείγματα με ορατές μετατοπίσεις ταυτότητας που επισημαίνονται από τον κύκλο, π.χ. τις αλλαγές στην υφή και το σχήμα της γούνας του προσώπου της γάτας και τις διαφορές στο χρώμα του φτερού του πουλιού. Το UniGen-1.5 χρειάζεται περαιτέρω βελτίωση για την αντιμετώπιση αυτών των περιορισμών.

Εικόνα: Apple

Μπορείτε να βρείτε την πλήρη μελέτη εδώ.

Προσφορές αξεσουάρ στο Amazon

Προσθέστε το 9to5Mac ως προτιμώμενη πηγή στο Google
Προσθέστε το 9to5Mac ως προτιμώμενη πηγή στο Google

FTC: Χρησιμοποιούμε συνδέσμους θυγατρικών που κερδίζουν αυτόματα εισόδημα. Περισσότερο.



Via: 9to5mac.com

Marizas Dimitris
Marizas Dimitrishttps://techbit.gr
Ο Δημήτρης είναι παθιασμένος με την τεχνολογία και τις καινοτομίες. Λατρεύει να εξερευνά νέες ιδέες, να επιλύει σύνθετα προβλήματα και να βρίσκει τρόπους ώστε η τεχνολογία να γίνεται πιο ανθρώπινη, απολαυστική και προσιτή για όλους. Στον ελεύθερο χρόνο του ασχολείται με το σκάκι και το poker, απολαμβάνοντας την στρατηγική και τη δημιουργική σκέψη που απαιτούν.
RELATED ARTICLES

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

- Advertisment -

Most Popular

- Advertisment -