dimitrees: Τεχνητή Νοημοσύνη: Εφιάλτης ή ευλογία;

Η Πολυτροπική Τεχνητή Νοημοσύνη (Multimodal AI) διαβάζει το πρόσωπό σου, ακούει τη φωνή σου και προβλέπει τι θα πεις. Σε αυτή την ανατρεπτική και πολυσυζητημένη τεχνολογική εξέλιξη της Τεχνητής Νοημοσύνης υπάρχουν καλά και κακά νέα

του Δημήτρη Χατζηγιαννάκη

Σκηνή πρώτη: Σε ένα εργαστήριο της Silicon Valley, ένα σύστημα Τεχνητής Νοημοσύνης εκπαιδεύεται παρακολουθώντας χιλιάδες βίντεο με συνομιλίες ανθρώπων. Διαβάζει τις εκφράσεις των προσώπων, αναλύει τον τόνο της φωνής, επεξεργάζεται τα λεγόμενα και πριν καν τελειώσει η κάθε πρόταση, προβλέπει με ακρίβεια τη λέξη που θα ακολουθήσει.

Σκηνή δεύτερη: Μπαίνετε σε ένα δωμάτιο συνέντευξης για δουλειά. Η κάμερα σας κοιτάζει. Το μικρόφωνο σας ακούει. Και πριν καν ανοίξετε το στόμα σας, το σύστημα ΤΝ που σας «παρακολουθεί» έχει ήδη καταλάβει αν είστε αγχωμένοι, αν λέτε ψέματα, αν είστε «κατάλληλοι» ή αν απλώς… δεν ταιριάζετε στο προφίλ της εταιρείας. Το «σύστημα» διαβάζει τις μικροεκφράσεις του προσώπου σας, την χροιά και τις παύσεις της φωνής σας, προβλέποντας τις επόμενες φράσεις σας από πληροφορίες που γράψατε στο βιογραφικό σας και το ιστορικό σας. Δεν είναι σκηνές από επιστημονική φαντασία. Είναι η σημερινή πραγματικότητα της Πολυτροπικής Τεχνητής Νοημοσύνης (Multimodal AI), μιας από τις πιο ανατρεπτικές και πολυσυζητημένες τεχνολογικές εξελίξεις της Τεχνητής Νοημοσύνης.

Μοντέλα όπως το GPT-4o της OpenAI, το Gemini 2.0 της Google, το Grok 4 της xAI και το Claude 3.5 Opus συνδυάζουν και επεξεργάζονται πληροφορίες από video, ήχους, κείμενα και δεδομένα άλλων αισθητήρων ταυτόχρονα και συνδυαστικά σε πραγματικό χρόνο. Βλέπουν φωτογραφίες, ακούνε φωνές, διαβάζουν εκφράσεις, καταλαβαίνουν συναισθήματα και προβλέπουν συμπεριφορές, δημιουργώντας μια ολοκληρωμένη αντίληψη του περιβάλλοντος και των ανθρώπων που αλληλοεπιδρούν με αυτά, με ακρίβεια που πριν πέντε χρόνια θεωρούνταν αδύνατη.

Τα καλά νέα πρώτα

Η πολυτροπική ΤΝ είναι ήδη σε λειτουργική χρήση έχοντας δώσει εντυπωσιακά αποτελέσματα σε πολλούς τομείς όπως:

Ιατρική: Συστήματα που ανιχνεύουν από μικροκινήσεις του προσώπου πρώιμα σημάδια της νόσου του Πάρκινσον ή από την τονικότητα της φωνής και τη συμπεριφορά σε συνεδρίες τη νόσο της κατάθλιψης.
Εκπαίδευση: Εικονικοί βοηθοί που «διαβάζουν» την έκφραση του μαθητή και προσαρμόζουν το μάθημα ανάλογα με το επίπεδο ενδιαφέροντος αναγνωρίζοντας αν ο μαθητής βαριέται (π.χ. όταν χαμηλώνει το βλέμμα) ή τελεί σε σύγχυση (π.χ. αγχώνεται και απαντάει με τρεμάμενη φωνή).
Προσβασιμότητα: Συστήματα που παρέχουν σε άτομα με προβλήματα όρασης ή ακοής δυνατότητες να επικοινωνούν καλύτερα με real-time περιγραφή εικόνων και μετατροπή ομιλίας σε κείμενο με κατανόηση συναισθήματος.
Ασφάλεια: Συστήματα αυτόματης αναγνώρισης προσώπου για την ενίσχυση της ασφάλειας σε σχολεία, νοσοκομεία, αεροδρόμια κλπ. καθώς και ανίχνευσης ψευδών καταθέσεων για την πρόληψη απάτης.
Εξυπηρέτηση Πελατών: Συστήματα που αναλύουν φωνή ή και την έκφραση του προσώπου ώστε να παρέχουν πιο αποτελεσματική υποστήριξη, βελτιώνοντας την εμπειρία του χρήστη (π.χ. σε ηλικιωμένους, τεχνοφοβικούς ή άτομα με χαμηλές ψηφιακές δεξιότητες)

Και τώρα τα άσχημα νέα

Η ίδια τεχνολογία που σώζει ζωές μπορεί να τις καταστρέψει:

Κατάχρηση μαζικής παρακολούθησης και επιτήρησης: Η Κίνα ήδη κατηγορείται ότι χρησιμοποιεί πολυτροπικά συστήματα σε σχολεία (με headbands που μετράνε εγκεφαλική δραστηριότητα) και ειδικές κάμερες σε «έξυπνες» πόλεις. Στη Δύση επίσης κατηγορούνται πολλές εταιρείες ότι αξιολογούν υποψήφιους με ανάλυση προσώπου και φωνής με χρήση πρακτικών που έχουν κατηγορηθεί για φυλετικές και ταξικές προκαταλήψεις.
Χρήση τεχνολογίας Deepfake 2.0: Οταν η ΤΝ μπορεί να παράγει βίντεο με τη φωνή του κάθε ανθρώπου, τις εκφράσεις του και είναι σε θέση να προβλέψει τι θα έλεγε σε μια συγκεκριμένη κατάσταση, τα ψεύτικα βίντεο είναι σχεδόν αδύνατον να ξεχωρίσουν από τα αληθινά και μπορούν να δημιουργήσουν πολύ «κακές καταστάσεις» από απάτες ηλεκτρονικού ψαρέματος (phishing) μέσω κλήσεων ή βίντεο (π.χ. φωνητική μίμηση στελέχους εταιρείας) μέχρι παραπληροφόρηση με δημιουργία ψεύτικων δηλώσεων από πολιτικούς ή δημόσια πρόσωπα με σκοπό την επιρροή εκλογών ή την πρόκληση αναταραχής
Ψυχολογικός έλεγχος: Διαφημίσεις που προσαρμόζονται στην κατάσταση του καθενός μας ανιχνεύοντας αν είμαστε λυπημένοι ή θυμωμένοι τη στιγμή που προβάλλονται. Chatbots που ξέρουν πότε είμαστε πιο δεκτικοί και μας «σπρώχνουν» σε αγορές ή πολιτικές αποφάσεις που ενδεχομένως υπό κανονικές συνθήκες δεν θα παίρναμε ποτέ.
Εξαφάνιση της ιδιωτικότητας των εκφράσεων του προσώπου και της φωνής: Η φωνή και το πρόσωπο κάθε ανθρώπου είναι μοναδικά βιομετρικά στοιχεία και μια ακόμα αστείρευτη πηγή δεδομένων για τα «συστήματα που μπορούν να καταγράψουν» το ψυχολογικό προφίλ οποιουδήποτε, παρακολουθώντας μια δημόσια ή ακόμα χειρότερα και μια ιδιωτική συνομιλία

Υπάρχει λύση;

Η πολυτροπική ΤΝ προσφέρει τεράστιες δυνατότητες για βελτίωση της ζωής μας, αλλά ταυτόχρονα θέτει σοβαρά ηθικά και κοινωνικά ερωτήματα. Οπως οι περισσότερες τεχνολογίες δεν είναι από τη φύση της καλή ή κακή. Η ισορροπία μεταξύ καινοτομιών για επαναστατικά χρήσιμες εφαρμογές και προστασίας των δικαιωμάτων του ατόμου είναι κρίσιμη. Χρειάζονται αυστηροί κανονισμοί, διαφάνεια και δημόσιος διάλογος για να εξασφαλιστεί ότι η τεχνολογία θα χρησιμοποιείται υπεύθυνα και για το κοινό καλό και όχι για απάτες ή χειραγώγηση.

Η Ευρώπη με τον AI Act προσπαθεί: απαγορεύει την «ανάλυση συναισθημάτων» σε χώρους εργασίας και εκπαίδευσης και βάζει αυστηρούς κανόνες για βιομετρική αναγνώριση σε δημόσιους χώρους. Οι ΗΠΑ αφήνουν την αγορά να αυτορυθμιστεί. Η Κίνα τρέχει μπροστά χωρίς φρένο. Απομένει σε μας τους Ευρωπαίους να προβληματιστούμε μήπως εκτός από τις τεράστιες επενδύσεις τους, αυτός είναι ένας ακόμα λόγος που έχουν προχωρήσει τόσο πολύ.

Στην Ελλάδα, η πολυτροπική ΤΝ δεν έχει ακόμη εισβάλει μαζικά στην καθημερινότητα, αλλά τα πρώτα σημάδια είναι εμφανή και ανησυχητικά. Το υπουργείο Ψηφιακής Διακυβέρνησης πιλοτικά δοκιμάζει συστήματα αναγνώρισης προσώπου σε αεροδρόμια και λιμάνια, ενώ μεγάλες τράπεζες και ασφαλιστικές εταιρείες ήδη χρησιμοποιούν voice analytics για να εντοπίζουν «ύποπτες» συμπεριφορές ή να βαθμολογούν την «αξιοπιστία» του πελάτη από τον τόνο της φωνής του.

Ταυτόχρονα, startups στην Αθήνα και τη Θεσσαλονίκη εκπαιδεύουν μοντέλα σε ελληνικές διαλέκτους και μικροεκφράσεις, συχνά με δεδομένα που συλλέγονται από βιντεοκλήσεις και social media χωρίς κατ’ ανάγκη σαφή συγκατάθεση. Η Αρχή Προστασίας Δεδομένων Προσωπικού Χαρακτήρα έχει βγάλει κάποιες προειδοποιήσεις, αλλά όπως σχεδόν πάντα, η νομοθεσία ακολουθεί με χρόνια καθυστέρηση την τεχνολογία.

Ετσι, ενώ στην Ευρώπη συζητάμε ακόμα για απαγόρευση της συναισθηματικής ανάλυσης στην εργασία, στην Ελλάδα η ίδια τεχνολογία μπορεί αύριο να αξιολογεί μαθητές, δασκάλους, δημόσιους υπαλλήλους ή ακόμα και υποψήφιους βουλευτές πριν καν μιλήσουν στη Βουλή και κανείς δεν θα ξέρει ποιος ακριβώς αλγόριθμος τους βαθμολόγησε.

Τελικά είναι Εφιάλτης ή ευλογία;

Εξαρτάται από το ποιος κρατάει το τιμόνι και προς τα πού το στρίβει. Αν η πολυτροπική Τεχνητή Νοημοσύνη παραδοθεί στις εταιρείες που βάζουν το κέρδος πάνω από την ανθρώπινη αξιοπρέπεια ή από κράτη και εξουσίες που θέλουν να κυριαρχήσουν, θα γίνει το απόλυτο εργαλείο χειραγώγησης. Αν αναπτυχθεί με διαφάνεια, εποπτεία και σεβασμό στην αυτονομία του ατόμου, μπορεί να γίνει ο καλύτερος «συνομιλητής» που είχε ποτέ η ανθρωπότητα: μια τεχνολογία που πραγματικά καταλαβαίνει πώς νιώθουν οι άνθρωποι, χωρίς να τους κρίνει ή να τους καταγράφει και απλώς τους βοηθάει, τους προστατεύει και τους συμπαραστέκεται.

Τελικά το ερώτημα δεν είναι τεχνολογικό αλλά πολιτικό και ηθικό. Επομένως η απάντηση δεν βρίσκεται στον κώδικα των προγραμμάτων αλλά στην κοινωνία και στις ελίτ που την καθοδηγούν, που πρέπει να κατανοήσουν τις δυνατότητες της τεχνολογίας και να απαντήσουν.

* Ο Δημήτρης Χατζηγιαννάκης είναι σύμβουλος πληροφορικής

https://www.protagon.gr/