Η τεχνητή νοημοσύνη μαθαίνει τελικά πώς να πλοηγηθείτε στην οθόνη του τηλεφώνου σας σαν ανθρώπινη – εκτός από ταχύτερη, πιο έξυπνη και με συγκλονιστικά μικρή πρακτική. Ένα νέο έρευνα Έργο από το Lab Lab και το MMLAB στο κινεζικό Πανεπιστήμιο του Χονγκ Κονγκ εισάγει ένα μοντέλο που ονομάζεται UI-R1η οποία επανεξετάζει τον τρόπο με τον οποίο οι πράκτορες AI εκπαιδεύονται να κατανοούν και να αλληλεπιδρούν με γραφικές διεπαφές χρήστη (GUI). Και εδώ είναι η συστροφή: δεν βασίζεται σε μαζικά σύνολα δεδομένων ή χιλιάδες ώρες GPU.
Αντ ‘αυτού, το UI-R1 κάνει κάτι αναζωογονητικά έξυπνο. Μαθαίνει Μάθηση ενίσχυσης (RL)-Το εποπτευόμενο ρύθμιση της τελειοποίησης (SFT), η τυπική μέθοδος που απαιτεί χειροκίνητα δεδομένα και ακριβούς κύκλους εκπαίδευσης. Αυτό σημαίνει ότι δεν χρειάζεται να το τροφοδοτείτε δεκάδες χιλιάδες παραδείγματα κουμπιών, γραμμών κύλισης ή πλαίσια κειμένου. Μόνο μια προσεκτικά επιλεγμένη παρτίδα 136 κινητών εργασιών ήταν αρκετή για να κατασκευάσει ένα μοντέλο που εκτελεί καλύτερα από πολλά μεγαλύτερα, βαριά εκπαιδευμένα μοντέλα σε εργασίες οθόνης πραγματικού κόσμου.
Ας αποσυμπιέσουμε γιατί αυτό έχει σημασία και πώς λειτουργεί.
Τι κάνει λοιπόν το UI-R1;
Φανταστείτε αυτό: Κοιτάζετε ένα στιγμιότυπο οθόνης μιας οθόνης τηλεφώνου και κάποιος σας λέει να πατήσετε το “Back Button”. Κοιτάζετε τη διάταξη, καταλάβετε πού είναι το κουμπί πίσω και πατήστε το. Φαίνεται εύκολο για έναν άνθρωπο.
Τώρα φανταστείτε την κατάρτιση ενός AI για να το κάνετε αυτό. Για χρόνια, αυτό σήμαινε την κατάρτιση τεράστια πολυτροπικά μοντέλα (μοντέλα που μπορούν να κατανοήσουν τις εικόνες και το κείμενο μαζί) για να συσχετίσουν εντολές όπως το “GAT” με το σωστό σημείο στην οθόνη. Αυτό είναι που οι πράκτορες του GUI όπως το Cogagent, το Aria-Gui και το OS-ATLAS κάνουν-μαθαίνουν από τεράστια σύνολα δεδομένων με επισημασμένα παραδείγματα ενεργειών και στοιχείων.
Αλλά αυτή η διαδικασία είναι αργή, δαπανηρή και δεν γενικεύεται καλά. Όταν μετακινείτε το AI από μια οθόνη τηλεφώνου σε μια επιφάνεια εργασίας ή ένα πρόγραμμα περιήγησης ιστού, οι επιδόσεις του συχνά δεξαμενές. Είναι σαν να εκπαιδεύετε ένα σκυλί για να φτάσετε μια μπάλα, αλλά μόνο σε ένα δωμάτιο του σπιτιού σας – να το βγάλετε έξω, και ο σκύλος ξεχνά τι να κάνει.
Το UI-R1 αλλάζει αυτό. Αντί να προσπαθούμε να “απομνημονεύσουμε” χιλιάδες διατάξεις διεπαφής, μαθαίνει πώς να λογικά τους χρησιμοποιώντας τη μάθηση ενισχυτικής και α έξυπνο σύστημα ανταμοιβής βασισμένου σε κανόνες.
Ένα πιο έξυπνο σύστημα ανταμοιβής, όχι ένα μεγαλύτερο μοντέλο
Το μοντέλο πίσω από το UI-R1 καλείται QWEN2.5-VL-3B-Α 3 δισεκατομμύρια παράμετρος πολυτροπικό μοντέλο, πολύ μικρότερο από τους γίγαντες 7B και 18B στο παιχνίδι. Όμως, το UI-R1 τελειώνει χρησιμοποιώντας το RL με ένα μοναδικό σύστημα ανταμοιβής που δεν απαιτεί ανθρώπινη ανατροφοδότηση.
Αυτή η λειτουργία ανταμοιβής κρίνει το μοντέλο σε τρία πράγματα:
- Επιλέγει τον σωστό τύπο δράσης; (Κάντε κλικ, μετακινηθείτε, επιστρέψτε, ανοίξτε την εφαρμογή, κείμενο εισόδου)
- Επιλέγει το σωστό σημείο για να κάνει κλικ; (Οι συντεταγμένες πρέπει να εμπίπτουν στο σωστό πλαίσιο)
- Εξήγησε με σαφήνεια τη συλλογιστική του και παρέχει μια έγκυρη τελική απάντηση; (Χρησιμοποιώντας μια δομημένη μορφή)
Αυτός ο δομημένος βρόχος ανάδρασης βοηθά το μοντέλο να μάθει να κάνει καλύτερες προβλέψεις με την πάροδο του χρόνου. Σκεφτείτε το σαν ένα παιχνίδι: Κάθε φορά που το AI πλησιάζει τη σωστή απάντηση, βαθμολογεί τα σημεία με βάση αυτούς τους κανόνες και σταδιακά υπολογίζει πώς να κερδίζει πιο συχνά.
Είναι σημαντικό ότι δεν είναι μόνο να μαθαίνουμε να μαντέψουμε – μαθαίνουμε να εξηγούμε γιατί πιστεύει ότι ένα συγκεκριμένο κουμπί είναι το σωστό για να πατήσετε. Αυτό είναι το κλειδί για τους κατασκευαστικούς πράκτορες που μπορείτε να εμπιστευτείτε τη λειτουργία λογισμικού, εφαρμογών και συσκευών.
AI Masters γλώσσα, αλλά flunks lego 101
Μικρά δεδομένα, μεγάλα κέρδη
Εδώ είναι όπου τα πράγματα γίνονται άγρια. Το UI-R1 εκπαιδεύτηκε μόνο 136 Παραδείγματα-Και εξακολουθούσε να υπερβαίνει πολλά εποπτευόμενα μοντέλα που εκπαιδεύτηκαν σε χιλιάδες.
Σε σημεία αναφοράς όπως Οθονοκάρτες και Οθονοκύρηςπου δοκιμάζουν πόσο καλά ένα μοντέλο μπορεί να ταυτοποιήσει στοιχεία UI σε όλες τις πλατφόρμες (κινητά, επιφάνεια εργασίας και ιστό), UI-R1 παρέδωσε ακρίβεια γείωσης μέχρι 78,6%χτυπώντας μοντέλα όπως το SeeClick (εκπαιδευμένο σε 1 εκατομμύριο παραδείγματα!) Και ακόμη και ταιριάζει με την απόδοση των μεγαλύτερων μοντέλων 7B.
Επίσης, κάλεσε ένα άλλο σημείο αναφοράς AndroidControlόπου έπρεπε να προβλέψει τόσο τον σωστό τύπο δράσης όσο και πού να το εφαρμόσετε. Ui-r1 χρονομετρημένο με ένα 88,5% μέση ακρίβειαΥπεύθυνση των μοντέλων που εκπαιδεύτηκαν σε 76.000 παραδείγματα – ένα παράλογο επίπεδο αποτελεσματικότητας για μόλις 136 εκπαιδευτικά καθήκοντα.
Αυτό είναι σαν να διδάσκετε κάποιον σκάκι, δείχνοντάς τους μόλις 10 παιχνίδια – και βλέποντας τους να νικήσουν τον πρωταθλητή της λέσχης.
Γιατί αυτό λειτουργεί τόσο καλά;
Μερικά πράγματα θέτουν το UI-R1 εκτός:
- Ανταμοιβές βασισμένων σε κανόνες: Δεν υπάρχει ανάγκη για επισημασμένα δεδομένα ή ανθρωπογενείς αναθεωρητές. Το μοντέλο βαθμολογείται με βάση τους απλούς, δομημένους κανόνες.
- Ενίσχυση κατά της επανάληψης: Αντί να απομνημονεύουν απαντήσεις (όπως στην εποπτευόμενη εκπαίδευση), το UI-R1 μαθαίνει στρατηγικές που γενικεύουν.
- Προσεκτικά επιλεγμένα δεδομένα: Η ομάδα δεν έριξε μόνο παραδείγματα εκπαίδευσης. Έλαβαν καθήκοντα που ήταν σκληρά, διαφορετικά και υψηλής ποιότητας. Χωρίς πλήρωσης.
Και ίσως το πιο σημαντικό, το μοντέλο δεν μαντεύει τυφλά. Χάρη στα “Μηχανικά Λογισμού” και τη δομημένη μορφή εξόδου (
Τι σημαίνει αυτό για τις διεπαφές AI;
Αυτό θα μπορούσε να είναι η αρχή ενός νέου κύματος γενικών πράκτορων GUI. Αντί να προπονούνται προσαρμοσμένα μοντέλα για κάθε εφαρμογή, πλατφόρμα ή εργασία, ίσως μπορέσουμε να δημιουργήσουμε συμπαγή, προσαρμόσιμα μοντέλα όπως το UI-R1 που μπορούν να λογοδοτήσουν μέσω οποιασδήποτε οθόνης, οποιασδήποτε συσκευής, οποιασδήποτε εντολής.
- Για προγραμματιστέςαυτό σημαίνει χαμηλότερο κόστος, λιγότερα δεδομένα και ταχύτερη επανάληψη.
- Για χρήστεςθα μπορούσε να σημαίνει πιο έξυπνους εικονικούς βοηθούς που καταλαβαίνουν πραγματικά τι θέλετε να κάνετε στην οθόνη σας.
- Για ερευνητέςείναι μια απόδειξη ότι η ενίσχυση της μάθησης με απλές ανταμοιβές που βασίζονται σε κανόνες δεν είναι μόνο για παιχνίδια και μαθηματικά προβλήματα-είναι μια πραγματική εναλλακτική λύση στο SFT για εργασίες διεπαφής.
Είναι ακόμα νωρίς
Ενώ τα αποτελέσματα του UI-R1 είναι εντυπωσιακά, πρέπει να γίνουν περισσότερα. Για παράδειγμα, απαιτεί ακόμα καθαρές μορφές εισόδου και προσεκτικά γραπτές προτροπές. Υποθέτει επίσης ότι τα στιγμιότυπα και οι οδηγίες της συσκευής είναι εύλογα ευθυγραμμισμένες – μια ασφαλής παραδοχή σε ένα σημείο αναφοράς, αλλά πιο δύσκολη στον βρώμικο πραγματικό κόσμο.
Ακόμα, είναι ένα σημαντικό βήμα προς τα εμπρός.
Και ίσως πιο συναρπαστικά, δείχνει αυτό Η έξυπνη εκπαίδευση χτυπά μεγαλύτερα μοντέλα-Τουλάχιστον όταν πρόκειται να κατανοήσουμε τι υπάρχει στην οθόνη σας και να υπολογίσουμε πώς να ενεργείτε.
Σε έναν κόσμο όπου περιβάλλεται από όλο και πιο πολύπλοκο λογισμικό, το AI όπως το UI-R1 μπορεί σύντομα να είναι το ένα κλικ, κύλιση και πατώντας για λογαριασμό μας-με ακρίβεια, λόγο και ελάχιστα καθόλου εκπαίδευση.
VIA: DataConomy.com