Intelligenza artificiale

Studenti preda dell'”emotion recognition”: il pericolo viene dalla Cina

Già ampiamente usati in Cina, i sistemi di emotion recognition si fanno sempre più largo nelle aule e non solo ammantati spesso di intenzioni filantropiche. Ma perché c’è l’esigenza di conoscere le emozioni di studenti e cittadini? E quali effetti hanno queste tecnologie su insegnamento e apprendimento? Facciamo il punto

Pubblicato il 16 Apr 2021

Lorenza Saettone

Filosofa specializzata in Epistemologia e Cognitivismo, PhD Student in Robotics and Intelligent Machines for Healthcare and Wellness of Persons

Le tecnologie di emotion recognition sono già ampiamente utilizzate in Cina, dove vengono applicate a vari settori, dalla sicurezza all’educazione. La scuola è un ambito di forte diffusione recente, secondo un recente rapporto di Article19.

Queste tecnologie consentono, o per meglio dire promettono, di inferire le emozioni dalle espressioni facciali, dal tono vocale, dai movimenti del corpo e dai dati biometrici, presupponendo siano espresse in modo uniforme nella specie umana. La teoria psicologica che l’emotion recognition incorpora è quella delle emozioni base (BET), che dall’acronimo suona già come una mera doxa (bet, in inglese, significa infatti opinione). Insomma, mentre il riconoscimento facciale dice chi siamo, l’emotion recognition pretende di rilevare come ci sentiamo internamente.

Tuttavia, che le espressioni facciali corrispondano ipso facto a un sentimento non è scientificamente provato, anzi, gli studi suggeriscono che nel modo in cui esibiamo e significhiamo le emozioni intervengono cultura e idiosincrasie individuali.

I dataset per addestrare le reti neurali sono stati costruiti raccogliendo fotografie e dati biometrici dell’attività cerebrale di studenti intenti a frequentare massive open online courses (MooCs). Seguendo quanto riporta Article 19 a riguardo, si può tracciare una breve panoramica delle principali imprese coinvolte e cosa di fatto pretendono di riconoscere.

L’Intelligenza artificiale sfida il buon senso e le emozioni: ecco perché

Indice degli argomenti

Sistemi di emotion recognition a scuola e possibili pregiudizi

Hanwang Education è un sistema applicato in presenza. Scatta fotografie all’intero gruppo classe, una al secondo. Il deep-learning è addestrato per identificare determinati comportamenti come il grado di ascolto, la partecipazione, le attività di scrittura, come prende appunti, l’interazione con altri studenti e l’appisolarsi. Ogni settimana c’è un resoconto per ogni studente a cui hanno accesso genitori insegnanti. Heifeng Education è utilizzata in modalità elearning e tiene traccia dei movimenti degli occhi, delle espressioni facciali, del tono di voce e del dialogo, ai fini di misurare il livello attentivo di ciascun studente. Hikvision è implementato e a distanza e in presenza. Integra tre telecamere posizionate in classe per identificare sette tipi di emozioni (paura, felicità, disgusto, tristezza, sorpresa, rabbia e neutralità) e sei comportamenti (lettura, scrittura, ascolto, in piedi, mano alzata, testa appoggiata sul banco). Taigusys promette di cogliere una settima azione: giocare con il cellulare.

In Italia

A tal riguardo, secondo i dati relativi all’Italia, l’88 percento degli studenti ha mangiato durante la Dad, un ragazzo su quattro ha cucinato e ben il 96 percento ha chattato e ha utilizzato social di qualche tipo. La maggior parte ha utilizzato app di messaggistica come Whatsapp, per poi trovare in ordine Instagram, Youtube e TikTok. Il 13 percento si è invece concesso una partita ai videogame.

Come già emerso a proposito del facial recognition (di cui il riconoscimento emotivo è un corollario) le reti neurali sono cariche di bias. Faticano a identificare i volti di persone di colore e di donne e tendono a leggere sui volti scuri un’espressione arrabbiata. Pertanto, nell’educazione, finirebbero per reinfiltrarsi pregiudizi, segregazione e sessismo, ma questa volta sotto una veste “scientifica” e falsamente imparziale. Non solo, gli studenti eccentrici e quelli affetti da qualche tipo di disordine mentale e disabilità fisica verrebbero frequentemente male interpretati dai sistemi di Emotion Recognition e quindi discriminati. Non avrebbe senso risolvere il problema escludendo dall’aula i disabili e applicando “algoritmi ad hoc in classi ad hoc”: sarebbe la riproposizione delle scuole differenziali, eliminate per fortuna nel nostro sistema scolastico a partire dal superamento giuridico del concetto di “normalità”.

Riconoscimento emozioni anche su Spotify

Anche Spotify sta sviluppando un sistema di riconoscimento emotivo capace di suggerire canzoni felici quando l’utente è triste. Potrebbe spingersi a bloccare quei brani che, secondo il riconoscimento emotivo, inducono rabbia e negatività nell’ascoltatore. L’idea è creare un pubblico di felici-ad-ogni-costo, mutilati emotivamente.

Le emozioni nel corso dell’evoluzione umana si sono selezionate per specifici motivi di adattamento; impedire la loro esistenza è domesticare una nuova specie inadatta alla vita. I sentimenti negativi esistono per un motivo: la selezione naturale non mantiene l’inutile. Spotify mutilerà e sanzionerà anche gli artisti, che per adattarsi all’algoritmo dovranno produrre solo jingle. Luigi Tenco verrà ucciso di nuovo e sarà incomprensibile il titolo “Sad songs (say so much)” di Elton John.

Perché si sente l’urgenza di conoscere le emozioni di alunni e cittadini?

Xi Jinping nei suoi discorsi ha parlato spesso di “energia positiva”, zhengnengliang. Lo Stato sente la necessità di sorvegliare i comportamenti manifesti e anche gli stati interni delle persone, come possibile indizio di condotte anomiche. Secondo il capo dello Stato, controllare le emozioni negative e incentivare quelle positive è benefico per la collettività tutta. Si millanta che attraverso l’emotion recognition avrebbero potuto prevenire attentati come quello della maratona di Boston e che sia possibile anticipare e correggere i comportamenti suicidari degli adolescenti.

Nell’Utopia platonica l’arte permessa era solo quella capace di temprare l’anima, rendendola pronta ad anteporre il bene dello Stato a ogni interesse individuale. La musica lasciva e quella debole erano bandite, così la poesia che stimolasse l’intemperanza. Solo l’arte edificante, quella pedagogica era ammessa. La polis, secondo l’idea platonica, ha interesse di intervenire nelle emozioni dei soggetti attraverso stimoli adeguati, perché la virtù individuale si riflette immediatamente sulla giustizia statale. Allo stesso modo, nella Cina odierna (e a quanto pare anche nel nostro contesto) il riconoscimento emotivo serve per favorire la crescita nazionale e di depressione permettono alle autorità di intervenire in tempo, non per aiutare il singolo, ma la Nazione.

Quante volte è capitato che le persone ci consigliassero di sorridere, perché essere positivi è una strategia di successo? O solo perché il broncio, specialmente femminile, è, in sé, un disvalore? Le neuroscienze sostengono quanto sia deleterio imporre espressioni non corrispondenti al contesto interno ed esterno. Da un lato le donne constatano le discriminazioni a loro carico e la gravità della condizione economica ed ecologica globali e dall’altro viene consigliato loro di essere positive. Si innesca una dissonanza cognitiva tra percezione e stato interno.

Le prime femministe facevano propria la dichiarazione di Audrey Hepburn “happy girls are the prettiest girls”, suggerendo alle proprie figlie di essere solari, sorridenti e steniche per vincere le proprie battaglie. Ciò, in realtà, tradisce un retaggio culturale, figlio del patriarcato. I maschi possono essere seri mentre le ragazze devono essere leggere e sorridenti, perché fondamentalmente si crede che i rispettivi compiti abbiano livelli di responsabilità diversi.

La ragazza è sempre valutata primariamente a livello estetico: devi sorridere. Non solo, giudicare qualcuno per l’espressione facciale che assume, pretendendo oltretutto di dedurre lo stato interno e le motivazioni ad esso relative, è soul shaming, come più volte ho ribadito.

Le femmine devono piuttosto essere libere di essere ciò che sentono, senza imposizioni esterne: è un modo per essere emancipate rispetto a diktat di ogni tipo. In Cina lo scopo è proprio quello di impedire ogni iniziativa personale anche a livello emotivo. Essere liberi di esplorare le proprie emozioni, qualunque esse siano, appare un attentato all’omologazione coatta messa in atto da strumenti di controllo massivo come Sharp Eyes: le telecamere smart usate per sorvegliare e impedire ogni comportamento non allineato al sistema.

La didattica a distanza

Oltre ai precedenti motivi autoritari, il Covid e la conseguente didattica a distanza hanno accelerato l’attuazione di sistemi di riconoscimento emotivo nelle aule. Anche nei gruppi di docenti italiani su Facebook si leggono quasi quotidianamente post in cui vengono proposti modi per non far copiare i ragazzi in DaD. Come se quasi globalmente la prima necessità fosse una scuola di stampo “poliziottesco”, atta a impedire imbrogli.

La tecnologia interviene dunque a proporre soluzioni pratiche, per identificare casi di plagio e di disattenzione. Per valutare la concentrazione degli alunni vengono implementati, nei corsi online, e ormai anche in presenza, gli algoritmi di emotion recognition, così da ottenere misure attendibili (?) sul grado di attenzione dello studente a distanza.

Un’altra criticità emersa durante la pandemia è il digital divide. Le zone rurali vengono lasciate indietro rispetto alle possibilità del digitale, Gli istituti delle periferie, a distanza e in presenza, non hanno una qualità formativa pari a quella del centro. Non dispongono di strutture dotate di strumenti digitali e soprattutto di docenti aggiornati. L’emotion recognition e quindi l’Intelligenza Artificiale vengono presentate come la cura per parificare la qualità degli insegnamenti. Lenovo, per esempio, ha esteso le sue competenze di emotion recognition, già impiegate nei rapporti con i clienti, alle classi di quegli istituti cinesi collocati nelle campagne. L’azienda sostiene di essere mossa da un’intenzione filantropica. C’è la speranza di sopperire alla disuguale offerta formativa che sussiste tra zone come Tibet, Yunnan, Sichuan e le parti più industrializzate del Paese attraverso l’intelligenza artificiale, in grado di creare percorsi formativi personalizzati e altamente qualificati. L’obiettivo è dunque raggiungere quei contesti rurali della Cina, per ridurre la distanza dalle grandi città del Paese asiatico, rilanciando così le zone dimenticate da Pechino. Il problema è che mancano dati su quante scuole, poi, abbiano davvero applicato la tecnologia offerta da Lenovo e di conseguenza se ci siano benefici reali nella loro introduzione.

I problemi

In generale, sono molte le criticità che l’emotion recognition solleva. Innanzitutto, c’è l’arbitrarietà delle categorie applicate agli studenti. Non c’è del resto nulla che confermi il fatto che disegnare mentre si ascolta o appoggiare la testa sul banco rappresentino segni di disattenzione, da punire con un voto basso. A volte capita che la curva dell’attivazione abbia livelli troppo alti e quindi lo studente che riequilibra il proprio stato emotivo con strategie di deconcentrazione non sia un segno di menefreghismo, quanto piuttosto l’esatto contrario. Mi disattivo per riportare la curva al livello ottimale e, dunque, rendere al massimo durante la lezione o il test. Si tratta di strategie proprie dell’intelligenza emotiva. Sono processi individuali, spesso subcoscienti, che una IA, male interpretandole, bloccherebbe nel loro sano sviluppo.

Spesso viene lamentato il fatto che una IA finirebbe per innescare “profezie che si auto-adempiono”. Nei processi non è infrequente che testimoni e imputati, quando vengono chiamati a riportare la propria versione dei fatti, finiscano per comportarsi come “mentitori”. Lo stress di essere interrogati, di poter essere male interpretati dal sistema finiscono per viziare l’analisi del facial recognition, che, infatti, legge i dati biomentrici e i movimenti muscolari come indizi di colpevolezza. È il cosiddetto “errore Otello”: inconsapevolmente, quando si dice la verità si producono micro-espressioni associate alla menzogna.

Nei test psicologici non è infrequente che l’intervistato si adegui al test, allineando i suoi comportamenti a quelli che lo psicologo e la società reputano “corretti” e “preferibili”. Spesso, dunque, i risultati vengono corrotti dalla duplice aspettativa dello psicologo e del soggetto testato, che tendono a uniformarsi in comportamenti che confermano l’intenzione del test. Nelle classi “aumentate” di intelligenza artificiale acacde di frequente che i ragazzi, preoccupati che le misurazioni diventino una nuova metrica con cui scremare l’ingresso nelle università, adottino comportamenti conformistici, una sorta di gioco di ruolo del “cocco del prof”. È un fenomeno normale. Quando l’insegnante sente chiacchierare, non appena si volta a osservare chi sia la “pietra dello scandalo”, magicamente il gruppo di alunni ricambia lo sguardo, recitando più attenzione del dovuto: chi annuisce, chi fa finta di pensare con aria di “eureka!”, chi prende appunti. Nel caso di una classe osservata di continuo da un occhio meno magnanimo di quello dell’insegnante, i ragazzi sarebbero continuamente “inamidati” nella finzione. In questo modo la maggior parte delle risorse attentive finirebbe per esaurirsi nel controllo delle proprie micro-espressioni, della postura, dell’intervento, a discapito dell’ascolto vero e proprio. Avremmo soggetti con metriche alte di ascolto e partecipazione, ma voti bassi nelle verifiche dei contenuti.

Per mitigare l’ansia di essere costantemente sotto giudizio, si propone che le metriche non siano utilizzate a mo’ di voti. L’idea è che diventino suggerimenti, una specie di KPI (indici di andamento del processo aziendale) per insegnanti e alunni. Personalmente dubito che molti docenti, sapendo che un alunno non è attento, non si accaniscano contro di lui.

E se anche gli alunni e il ministero potessero controllare l’operato dell’insegnante, le sue emozioni, i suoi comportamenti in classe, nei consigli e a casa, durante la preparazione delle lezioni? Apparirebbe come una maggiore ingiustizia?

Inoltre, i dati, per come sono raccolti, non possono trasformarsi in chiari indizi per l’insegnante, in grado di suggerirgli come adattare una metodologia al contesto classe. Per trasformarsi in dati utili dovrebbero essere corredati di metadati e ulteriori misure raccolte. Cosa stavo insegnando mentre gli studenti erano in media più disattenti? Che metodologia? Che tono? Com’ero vestito quel giorno? Qualunque variabile potrebbe dare degli spunti all’insegnante… ma fino ad ora restano metriche di cui il docente può farsi poco uso.

Che studenti e insegnanti vogliamo?

In realtà, seguendo la lezione socratica, prima di giudicare se qualcuno o qualcosa educhi bisogna chiarire cosa sia l’educazione e che tipo di studente vogliamo preparare. Inoltre, bisogna domandarsi se una classe in cui l’insegnante sia affiancato dall’occhio di Sauron rappresenti un futuro voluto da tutti gli attori coinvolti: amministrazione, corpo docenti, genitori e alunni. L’intelligenza artificiale non solo dovrebbe promuovere il benessere, ma dovrebbe prevenire la sofferenza. In un contesto come quello esaminato nei paragrafi precedenti sono troppe le criticità perché un simile sistema possa essere desiderato universalmente.

Educare è sempre gioia e frustrazione, non si può eliminare questa tensione, direi, dionisiaca. Non ha senso delegare a una macchina la correzione dei test e quindi l’errore di aver corretto un errore. Ci si libererebbe della responsabilità di assumersi il rischio di giudicare. È educazione dell’insegnante. È fondamentale per la propria crescita e quella degli studenti saper riconoscere uno sbaglio, chiedendo scusa. È democrazia essere in dovere di rendere conto al gruppo classe delle proprie scelte. Far sì che la macchina prenda in carico la responsabilità di commettere bug (perché in questo si tramuterebbero gli errori umani), sarebbe liberarsi di un importante aspetto del mestiere del docente: essere sottoposti al controllo degli alunni. Educazione è dunque anche questo. Diventerebbe, all’opposto, una scuola finalizzata al solo risultato; un tipo di formazione sospettosa, volta solo a trovare il colpevole, perché c’è sempre il colpevole. L’unico obiettivo è sanzionare l’errore in verifica e nei sentimenti.

L’IoT, come sostiene Tom Chatfield in Finding Virtue in the Virtual, potrebbe essere un modo per guidare gli alunni nell’analisi di sé, ma solo se non si delega totalmente il compito allo smart object. Gli studenti sono invitati a tenere un taccuino in cui analizzano le proprie performance attivamente, secondo la propria percezione interna. In seguito, possono comparare le proprie sensazioni a quelle effettivamente tracciate dall’IoT. Pensare attivamente alle proprie attività ispira auto-riflessione, consapevolezza, ma ciò soprattutto quando si è liberi anche di mentire. Se oltre alle mie riflessioni esiste un wearable o un sistema di videocamere che tracciano ciò che effettivamente faccio, non sarò più libero di mentire e di aver mal gestito i miei tempi. In realtà sono l’errore, la possibilità di sbagliare, di distorcere i risultati, di copiare e di sopportare il senso di colpa per questi comportamenti a creare un soggetto responsabile per sé, ossia un adulto. Delegare le scelte a una macchina o passivamente adeguarsi alle buone condotte interrompono la tensione e la fatica per uscire dall’adolescenza. Gli studenti temeranno di essere sé stessi.

Insomma, inserire nell’aula sensori e una sorveglianza costante è trasformare gli alunni e il corpo docente in soggetti passivi, che delegano alla macchina le riflessioni su di sé, sul proprio operato e i giudizi nei confronti degli altri. “Sapere Aude!” (abbi il coraggio di usare la tua ragione) come motto dell’Illuminismo, che oggi diventa declinabile in “abbi il coraggio di usare le tue emozioni”.

Che studenti e insegnanti vogliamo, dunque? È questa l’unica domanda che dovremmo porci.