Η τεχνητή νοημοσύνη κάνει ένα ακόμη βήμα προς το μέλλον με την εισαγωγή του Grok Vision, μιας νέας λειτουργίας από την xAI του Elon Musk. Η καινοτομία αυτή επιτρέπει στο chatbot Grok να «βλέπει» τον πραγματικό κόσμο μέσω της κάμερας του smartphone, προσφέροντας στους χρήστες τη δυνατότητα να θέτουν ερωτήσεις για αντικείμενα, πινακίδες, έγγραφα και οποιοδήποτε στοιχείο εστιάζει ο φακός της συσκευής τους.
Η νέα δυνατότητα τοποθετεί τον Grok στην ίδια κατηγορία με άλλες εξελιγμένες εφαρμογές τεχνητής νοημοσύνης όπως το Gemini της Google και το ChatGPT της OpenAI, που έχουν ήδη υιοθετήσει λειτουργίες αναγνώρισης εικόνας σε πραγματικό χρόνο.
Ωστόσο, υπάρχει και μια μικρή απογοήτευση: προς το παρόν, το Grok Vision είναι διαθέσιμο μόνο για χρήστες iOS, μέσω της εφαρμογής Grok. Οι χρήστες Android θα χρειαστεί να περιμένουν λίγο ακόμη για να αποκτήσουν πρόσβαση στη νέα εμπειρία.
Η xAI δεν σταμάτησε εκεί. Παράλληλα με την εισαγωγή της Grok Vision, ανακοίνωσε και άλλες νέες λειτουργίες φωνητικής επικοινωνίας και αναζήτησης. Οι χρήστες Android που έχουν εγγραφεί στο πακέτο SuperGrok μπορούν πλέον να χρησιμοποιούν πολυγλωσσικά φωνητικά χαρακτηριστικά καθώς και δυνατότητα αναζήτησης στο Διαδίκτυο σε πραγματικό χρόνο μέσω φωνητικών εντολών.
Οι προσθήκες αυτές εντάσσονται σε ένα γενικότερο πλάνο συνεχούς εξέλιξης και εμπλουτισμού των δυνατοτήτων του Grok. Μόλις τις τελευταίες εβδομάδες, το chatbot απέκτησε «μνήμη», επιτρέποντάς του να ανακαλεί πληροφορίες από προηγούμενες συνομιλίες, καθώς και ένα εργαλείο τύπου «καμβά» για δημιουργία εγγράφων και εφαρμογών.
Πέρα από τις τεχνικές αναβαθμίσεις, η xAI πραγματοποιεί και στρατηγικές επιχειρηματικές κινήσεις. Πρόσφατα, ανακοίνωσε την εξαγορά της Hotshot, μιας ανερχόμενης startup με ειδίκευση στη δημιουργία βίντεο μέσω AI. Η κίνηση αυτή δείχνει τις φιλοδοξίες της εταιρείας να επεκτείνει τις δυνατότητες των προϊόντων της στον τομέα του AI-generated content, πιθανόν συνδυάζοντας το Grok με τεχνολογίες παραγωγής βίντεο στο εγγύς μέλλον.
Με το Grok Vision, η xAI κάνει σαφές ότι στοχεύει στη διεύρυνση της αλληλεπίδρασης του χρήστη με την τεχνητή νοημοσύνη, πέρα από το πλαίσιο του απλού κειμενικού διαλόγου. Η μετάβαση σε οπτική και φωνητική κατανόηση του περιβάλλοντος ανοίγει τον δρόμο για πιο φυσικές και καθημερινές εφαρμογές, όπως η αναγνώριση προϊόντων, η μετάφραση επιγραφών ή η παροχή πληροφοριών με βάση οπτικά δεδομένα.
VIA: TechGear.gr