Τι θα συμβεί αν η αυτοματοποίηση μιας επιφάνειας εργασίας δεν αφορούσε τα πρότυπα κλικ σεναρίου, αλλά για να δώσετε στο λειτουργικό σας σύστημα μια έξυπνη ομάδα πράκτορες; Αυτή είναι η βασική ιδέα πίσω Ufo2Το νεότερο σύστημα ανοιχτού κώδικα της Microsoft, το οποίο ωθεί πέρα από τους τρέχοντες παράγοντες που χρησιμοποιούν υπολογιστές (CUA) και επανεξετάζει την αυτοματοποίηση ως αφαίρεση OS πρώτης κατηγορίας. Μετατρέπει την επιφάνεια εργασίας σας σε έναν έξυπνο πίνακα ελέγχου, όπου οι εργασίες που καθοδηγούνται από τη γλώσσα εκτελούνται εγγενώς, αξιόπιστα και με ελάχιστη διαταραχή στη ροή εργασίας σας.
Τα παραδοσιακά εργαλεία αυτοματοποίησης επιφάνειας εργασίας, όπως τα συστήματα RPA, πάντα αγωνίζονται με ευρωστία. Μια μικρή αλλαγή σε ένα UI μπορεί να καταστρέψει ένα ολόκληρο σενάριο. Το CUAS προσπάθησε να το αντιμετωπίσει με μεγάλα γλωσσικά μοντέλα και ανάλυση στιγμιότυπου οθόνης, αλλά παρέμεινε περιορισμένη από την ρηχή ολοκλήρωση του συστήματος και τις εμπειρίες χρηστών. Το UFO2 αναστρέφει αυτό το μοντέλο κατασκευάζοντας από το OS προς τα πάνω. Εισάγει μια πολυεθνική αρχιτεκτονική όπου ένα κεντρικός οικοδεσπότης εξειδικευμένες συντεταγμένες Ανιχνευτές για διαφορετικές εφαρμογές. Κάθε πράκτορας μιλάει τη μητρική γλώσσα της εφαρμογής μέσω των μεταδεδομένων API και UI, όχι μόνο των εικονοστοιχείων.
Μία από τις βασικές τεχνικές καινοτομίες του UFO2 είναι το μοντέλο υβριδικής δράσης. Αντί να κάνετε κλικ σε κουμπιά όπως ένας άνθρωπος, κάθε appagent μπορεί να καλέσει πραγματικά API όταν είναι διαθέσιμα. Αυτό σημαίνει ότι τα καθήκοντα όπως η εξαγωγή ενός υπολογιστικού φύλλου ή ενός κειμένου μορφοποίησης μειώνονται από χοροί GUI πολλαπλών βημάτων σε μία μόνο κλήση ατομικής λειτουργίας. Το σύστημα υποθέτει επίσης μπροστά – χρησιμοποιώντας μια ενιαία κλήση LLM για να σχεδιάσει πολλαπλά βήματα και να επικυρώσει κάθε ένα ζωντανό με δεδομένα UI Windows. Αυτό κερδοσκοπική εκτέλεση πολλαπλών ενεργειών μειώνει δραματικά την καθυστέρηση χωρίς να διακινδυνεύσει την ορθότητα.
Απομόνωση χωρίς διακοπή
Το CUA συνήθως διαλύει την επιφάνεια εργασίας σας, κλειδώνοντας το ποντίκι και το πληκτρολόγιο κατά την εκτέλεση. UFO2 Εικόνα σε εικόνα (PIP) Η λειτουργία επιλύει αυτό με ένα παράθυρο εικονικής επιφάνειας εργασίας που εκτελεί τις εργασίες αυτοματισμού παράλληλα. Ο πράκτορας κάνει το πράγμα του σε ένα περιβάλλον sandboxed, ενώ συνεχίζετε να εργάζεστε στην κύρια συνεδρίαση. Είναι απρόσκοπτη, ασφαλής και χρησιμοποιεί το εγγενές Windows RDP loopback για να διατηρήσει την ακεραιότητα της περιόδου σύνδεσης.
Το UFO2 ενσωματώνει την τεκμηρίωση βοήθειας και την εκτέλεση καταγράφεται σε μνήμη ανάκτησης, εμπλουτίζοντας τις προτροπές της με τις διαδικαστικές γνώσεις. Με την πάροδο του χρόνου, αυτό δημιουργεί έναν αυτοκαταστροφικό παράγοντα που βελτιώνεται σε νέα καθήκοντα χωρίς επανεκπαίδευση. Κάθε appagent τραβάει από την τεκμηρίωση, τις σημειώσεις patch και τις προηγούμενες διαδρομές για να λαμβάνουν πιο έξυπνες αποφάσεις. Πρόκειται για ένα σύστημα αυτοματισμού με μνήμη, όχι μόνο για παραγωγή απόκρισης.
Στα σημεία αναφοράς με το Head-to-Head εναντίον του χειριστή του OpenAI και άλλων κορυφαίων CUA, το UFO2 ξεπερνά σταθερά τις επιδόσεις. Στο σημείο αναφοράς Osworld-W, το UFO2 φθάνει σε ποσοστό επιτυχίας 32,7% χρησιμοποιώντας το μοντέλο O1-περισσότερο από το διπλασιασμό του 14,3% του χειριστή. Ο κερδοσκοπικός σχεδιασμός του μειώνει τα βήματα δράσης κατά 50%. Η ανίχνευση υβριδικού ελέγχου (συνδυάζοντας τα APIs UIA και την ανάλυση όρασης) ανακάμπτει πάνω από το 25% των προηγουμένως αποτυχημένων αλληλεπιδράσεων. Με απλά λόγια, Το UFO2 δεν είναι απλώς πιο έξυπνο – είναι συστηματικά καλύτερο.
Όλα είναι πράκτορας τώρα
Η επεκτασιμότητα ψήνεται μέσα. Το UFO2 επιτρέπει τα εργαλεία τρίτων, συμπεριλαμβανομένων άλλων Cuas όπως ο χειριστής, να τυλιχτεί ως appagents. Αυτό σημαίνει ότι μπορείτε να ενσωματώσετε εξειδικευμένους copilots ή ιδιόκτητο αυτοματισμό στο οικοσύστημα UFO2 χωρίς επανεκπαίδευση ή επανεγγραφή κώδικα. Υποστηρίζει επίσης μια αρχιτεκτονική πελάτη-διακομιστή για την ανάπτυξη των επιχειρήσεων, διατηρώντας την ενορχηστρώση συγκεντρωμένη και τις συσκευές χρηστών.
Το έγγραφο περιγράφει τους μελλοντικούς στόχους, συμπεριλαμβανομένης της συμβατότητας cross-platform με το MacOS και το Linux μέσω ανάλογων API προσβασιμότητας, την ταχύτερη απόκριση μέσω των μικρότερων LLMs και τη βελτιωμένη συλλογιστική από τα αποκλειστικά σύνολα δεδομένων GUI. Αλλά ακόμη και στην τρέχουσα κατάσταση του, το UFO2 αντιπροσωπεύει ένα Νέα γραμμή βάσης για αυτοματοποίηση επιφάνειας εργασίας. Είναι ανοικτού κώδικα, που ήδη υπερβαίνει τα εμπορικά συστήματα, και φέρνει ένα νέο επίπεδο modularity, αξιοπιστίας και νοημοσύνης στην αλληλεπίδραση ανθρώπινου υπολογιστή.
Για όποιον χτίζει την επόμενη γενιά έξυπνων πράκτορων – ή απλά κουρασμένος από εύθραυστα σενάρια-Το UFO2 είναι διαθέσιμο στο GitHub μαζί με την τεκμηρίωσή του.
Προτεινόμενη πίστωση εικόνας
VIA: DataConomy.com