Παρασκευή, 16 Ιανουαρίου, 2026
ΑρχικήAppleΗ Apple κυκλοφορεί ένα επιμελημένο σύνολο δεδομένων AI για έρευνα επεξεργασίας εικόνας

Η Apple κυκλοφορεί ένα επιμελημένο σύνολο δεδομένων AI για έρευνα επεξεργασίας εικόνας


Η Apple κυκλοφόρησε το Pico-Banana-400K, ένα εξαιρετικά επιμελημένο ερευνητικό σύνολο 400.000 εικόνων, το οποίο, ενδιαφέροντα, κατασκευάστηκε χρησιμοποιώντας τα μοντέλα Gemini-2.5 της Google. Εδώ είναι οι λεπτομέρειες.

Η ερευνητική ομάδα της Apple δημοσίευσε μια ενδιαφέρουσα μελέτη που ονομάζεται «Pico-Banana-400K: Ένα σύνολο δεδομένων μεγάλης κλίμακας για επεξεργασία εικόνας με καθοδήγηση κειμένου».

Εκτός από τη μελέτη, κυκλοφόρησαν επίσης το πλήρες σύνολο δεδομένων 400.000 εικόνων που παρήγαγε, το οποίο διαθέτει άδεια μη εμπορικής έρευνας. Αυτό σημαίνει ότι ο καθένας μπορεί να το χρησιμοποιήσει και να το εξερευνήσει, υπό την προϋπόθεση ότι είναι για ακαδημαϊκό έργο ή ερευνητικούς σκοπούς AI. Με άλλα λόγια, δεν μπορεί να χρησιμοποιηθεί εμπορικά.

Σωστά, αλλά τι είναι;

Πριν από λίγους μήνες, η Google κυκλοφόρησε το μοντέλο Gemini-2.5-Flash-Image, γνωστό και ως Nanon-Banana, το οποίο είναι αναμφισβήτητα το πιο σύγχρονο όταν πρόκειται για μοντέλα επεξεργασίας εικόνας.

Άλλα μοντέλα έχουν επίσης παρουσιάσει σημαντικές βελτιώσεις, αλλά, όπως το έθεσαν οι ερευνητές της Apple:

“Παρά αυτές τις προόδους, η ανοιχτή έρευνα παραμένει περιορισμένη λόγω της έλλειψης συνόλων δεδομένων επεξεργασίας μεγάλης κλίμακας, υψηλής ποιότητας και πλήρως κοινοποιήσιμα. Τα υπάρχοντα σύνολα δεδομένων συχνά βασίζονται σε συνθετικές γενιές από ιδιόκτητα μοντέλα ή περιορισμένα υποσύνολα που επιμελούνται από τον άνθρωπο. Επιπλέον, αυτά τα σύνολα δεδομένων συχνά εμφανίζουν μετατοπίσεις τομέα, αστάθμητα σύνολα δεδομένων. μοντέλα.”

Έτσι, η Apple ξεκίνησε να κάνει κάτι γι ‘αυτό.

Κτίριο Pico-Banana-400K

Το πρώτο πράγμα που έκανε η Apple ήταν να έβγαλε έναν απροσδιόριστο αριθμό πραγματικών φωτογραφιών από το σύνολο δεδομένων OpenImages, «που επιλέχθηκαν για να εξασφαλίσουν κάλυψη ανθρώπων, αντικειμένων και σκηνικών κειμένου».

Ναι, χρησιμοποίησαν στην πραγματικότητα Comic Sans

Στη συνέχεια, κατέληξε σε μια λίστα με 35 διαφορετικούς τύπους αλλαγών που ένας χρήστης μπορούσε να ζητήσει από το μοντέλο να κάνει, ομαδοποιημένες σε οκτώ κατηγορίες. Για παράδειγμα:

  • Pixel & Photometric: Προσθέστε κόκκους φιλμ ή vintage φίλτρο
  • Ανθρωποκεντρική: Φιγούρα παιχνιδιού σε στυλ Funko-Pop του ατόμου
  • Σύνθεση σκηνής & πολλαπλά θέματα: Αλλαγή καιρικών συνθηκών (ηλιοφάνεια/βροχή/χιόνι)
  • Σημασιολογία σε επίπεδο αντικειμένου: Μετατόπιση αντικειμένου (αλλαγή θέσης/χωρικής σχέσης του)
  • Κλίμακα: Μεγέθυνση

Στη συνέχεια, οι ερευνητές θα ανέβαζαν μια εικόνα στο Nano-Banana, μαζί με ένα από αυτά τα μηνύματα. Μόλις ολοκληρωθεί η δημιουργία της επεξεργασμένης εικόνας από το Nano-Banana, οι ερευνητές θα έβαλαν στη συνέχεια το Gemini-2.5-Pro ​​να αναλύσει το αποτέλεσμα, είτε εγκρίνοντάς το είτε απορρίπτοντάς το, με βάση τη συμμόρφωση με τις οδηγίες και την οπτική ποιότητα.

Το αποτέλεσμα έγινε Pico-Banana-400K, το οποίο περιλαμβάνει εικόνες που παράγονται μέσω επεξεργασιών μίας στροφής (μία μόνο προτροπή), ακολουθίες επεξεργασίας πολλών στροφών (πολλαπλές επαναληπτικές προτροπές) και ζεύγη προτιμήσεων που συγκρίνουν επιτυχημένα και αποτυχημένα αποτελέσματα (έτσι τα μοντέλα μπορούν επίσης να μάθουν πώς μοιάζουν με ανεπιθύμητα αποτελέσματα).

Αν και αναγνωρίζουν τους περιορισμούς του Nano-Banana στη λεπτομερή χωρική επεξεργασία, την παρέκταση διάταξης και την τυπογραφία, οι ερευνητές λένε ότι ελπίζουν ότι το Pico-Banana-400K θα χρησιμεύσει ως «ένα ισχυρό θεμέλιο για την εκπαίδευση και τη συγκριτική αξιολόγηση της επόμενης γενιάς μοντέλων επεξεργασίας εικόνας με καθοδήγηση κειμένου».

Μπορείτε να βρείτε τη μελέτη στο arXivκαι το σύνολο δεδομένων είναι δωρεάν διαθέσιμο στο GitHub.

Προσφορές αξεσουάρ στο Amazon

FTC: Χρησιμοποιούμε συνδέσμους θυγατρικών που κερδίζουν αυτόματα εισόδημα. Περισσότερο.



Via: 9to5mac.com

Marizas Dimitris
Marizas Dimitrishttps://techbit.gr
Ο Δημήτρης είναι παθιασμένος με την τεχνολογία και τις καινοτομίες. Λατρεύει να εξερευνά νέες ιδέες, να επιλύει σύνθετα προβλήματα και να βρίσκει τρόπους ώστε η τεχνολογία να γίνεται πιο ανθρώπινη, απολαυστική και προσιτή για όλους. Στον ελεύθερο χρόνο του ασχολείται με το σκάκι και το poker, απολαμβάνοντας την στρατηγική και τη δημιουργική σκέψη που απαιτούν.
RELATED ARTICLES

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

- Advertisment -

Most Popular

- Advertisment -