Μια μελέτη από το Πανεπιστήμιο Johns Hopkins αποκαλύπτει ότι οι άνθρωποι υπερέχουν έναντι της τεχνητής νοημοσύνης (AI) στην κατανόηση των εξελισσόμενων κοινωνικών αλληλεπιδράσεων – μια βασική δεξιότητα για τεχνολογίες όπως τα αυτοοδηγούμενα αυτοκίνητα και τα ρομπότ-βοηθούς.
Η τρέχουσα τεχνητή νοημοσύνη αγωνίζεται να αναγνωρίσει τις ανθρώπινες προθέσεις, όπως το αν ένας πεζός πρόκειται να διασχίσει τον δρόμο ή το αν δυο άτομα έχουν λάβει μέρος σε μια συνομιλία.
Οι ερευνητές υποστηρίζουν ότι αυτό το ζήτημα πηγάζει από τον τρόπο κατασκευής της AI, καθώς δεν μπορεί να κατανοήσει πλήρως την κοινωνική δυναμική.
Για να συγκρίνουν μοντέλα τεχνητής νοημοσύνης με την ανθρώπινη αντίληψη, οι ερευνητές έβαλαν τους ανθρώπους να παρακολουθήσουν βιντεοκλίπ μικρής χρονική διάρκειας και να αξιολογήσουν το πόσο καλά κατανοούσαν τις κοινωνικές αλληλεπιδράσεις που απεικονίζονται.
Τα βίντεο έδειχναν άτομα να αλληλεπιδρούν μεταξύ τους, να κάνουν δραστηριότητες δίπλα-δίπλα ή να ενεργούν ανεξάρτητα.
Στη συνέχεια, δοκίμασαν πάνω από 350 μοντέλα τεχνητής νοημοσύνης -που εκτείνονται σε γλώσσα, βίντεο και επεξεργασία εικόνας- ζητώντας τους να προβλέψουν το πώς θα κρίνουν οι άνθρωποι τα βίντεο και το πώς μπορεί να αντιδράσει ο εγκέφαλός τους.
Για μεγάλα γλωσσικά μοντέλα, ανέλυσαν λεζάντες που γράφτηκαν από άνθρωπο για να δουν πόσο καλά κατανοούσε η τεχνητή νοημοσύνη την κοινωνική δυναμική.
Οι ερευνητές διαπίστωσαν ότι οι άνθρωποι που συμμετείχαν γενικά συμφώνησαν στον τρόπο με τον οποίο ερμήνευαν τις κοινωνικές αλληλεπιδράσεις στα βίντεο, αλλά τα μοντέλα τεχνητής νοημοσύνης δυσκολεύτηκαν, ανεξάρτητα από τα δεδομένα εκπαίδευσης ή το μέγεθός τους.
Αποτυχία
Τα μοντέλα βίντεο τεχνητής νοημοσύνης απέτυχαν να περιγράψουν με ακρίβεια τις ενέργειες στα κλιπ, ενώ ακόμη και τα μοντέλα εικόνων που αναλύουν παγωμένα καρέ δεν μπορούσαν να εντοπίσουν με αξιοπιστία το εάν οι άνθρωποι επικοινωνούσαν.
Τα γλωσσικά μοντέλα είχαν καλύτερες επιδόσεις στην πρόβλεψη της ανθρώπινης συμπεριφοράς, ενώ τα μοντέλα βίντεο ήταν πιο αποτελεσματικά στην εκτίμηση της εγκεφαλικής δραστηριότητας κατά την προβολή βίντεο.
Αυτό υπογραμμίζει ένα σημαντικό κενό στην κατανόηση από την τεχνητή νοημοσύνη της εξελισσόμενης κοινωνικής δυναμικής.
Οι επιστήμονες πιστεύουν ότι αυτός ο περιορισμός προέρχεται από τον σχεδιασμό της τεχνητής νοημοσύνης, καθώς τα τρέχοντα μοντέλα είναι κατασκευασμένα σαν το τμήμα του ανθρώπινου εγκεφάλου που επεξεργάζεται στατικές εικόνες, σε αντίθεση με την περιοχή που είναι υπεύθυνη για την ερμηνεία δυναμικών κοινωνικών σκηνών.
Η μελέτη υποδηλώνει ότι η τεχνητή νοημοσύνη δεν μπορεί ακόμα να μιμηθεί πλήρως τον τρόπο με τον οποίο οι άνθρωποι αντιλαμβάνονται φυσικά και ανταποκρίνονται στις κοινωνικές αλληλεπιδράσεις.
VIA: in.gr