Linguaggio d'odio online, le soluzioni dell'intelligenza artificiale

Anche con intelligenza artificiale, nelle strategie adottate dalle piattaforme social contro il linguaggio d’odio permangono problemi sia procedurali che etici non facilmente risolvibili. Una soluzione è quella di assumere una prospettiva più proattiva e può arrivare dai modelli probabilistici

Con l’aumentare della diffusione (e della pervasività) delle piattaforme social, sta aumentando in maniera preoccupante anche il fenomeno del linguaggio d’odio, comunemente indicato col termine hate speech. Da questo punto di vista grandi sforzi sono stati fatti, sia in termini di autoregolamentazione da parte dei social media, sia da parte dei singoli stati che, con leggi dedicate, tentano di contenerne la diffusione. Tuttavia, questi sforzi sembrano non bastare e anche l’intelligenza artificiale – come usata finora – ha mostrato di non poter riuscire ad arginare il fenomeno.

Come fare, allora, a contenere e prevenire l’odio online senza influire sulla libertà d’espressione? Serve guardare la cosa da una nuova prospettiva.

Intelligenza artificiale alla sfida hating: bene ma non benissimo

Indice degli argomenti

Le strategie attuali e i limiti dell’intelligenza artificiale

Le strategie attuali si basano infatti sul concetto di moderazione dei contenuti, ossia “identificazione e rimozione” degli stessi (più eventuale sospensione degli account coinvolti). Di solito l’identificazione avviene attraverso la segnalazione da parte di altri utenti, ma spesso succede che (i) vengano segnalati contenuti che non piacciono e che fanno arrabbiare ma che non costituiscono necessariamente incitamento all’odio, (ii) alcune persone usano questa possibilità di segnalazione nel tentativo di mettere a tacere gli avversari. Per questo motivo le piattaforme social richiedono comunque l’intervento manuale da parte dei moderatori per controllare ogni singola segnalazione degli utenti.

L’intelligenza artificiale (IA) ha cercato di dare un aiuto nella mappatura del fenomeno e nell’identificazione dei singoli contenuti rimpiazzando per quanto possibile l’attività di segnalazione dei singoli utenti. Tuttavia, anche con l’introduzione dell’IA, permangono nelle strategie adottate dalle piattaforme social dei problemi sia procedurali che etici non facilmente risolvibili. Se infatti l’intelligenza artificiale può aiutare fornendo potenti reti neurali dedicate alla classificazione dei contenuti, è ovvio che tutte le attività che stanno a valle della classificazione, e che prevedono l’intervento della moderazione (rimozione dei post, sospensione degli account), possano prestare il fianco ad accuse di censura, di overblocking e, infine, di ostacolare la libertà d’espressione.

Inoltre, una semplice definizione legale non può bastare a contenere tutta l’estensione del fenomeno, e quindi la classificazione automatica da sola nulla può in questi casi. Ad esempio, queste strategie di identificazione e rimozione non possono essere facilmente applicate ai “discorsi pericolosi”, ad esempio contenuti che suscitano odio e divisione ma non rientrano in una definizione formale di linguaggio d’odio. Consideriamo l’esempio “da quando i [minoranza] hanno iniziato ad arrivare nel nostro paese c’è stato un picco di reati di violenza” che si potrebbe basare su una correlazione vera, ma spuria, oppure affermazioni puramente emotive che non fanno neanche riferimento al concetto di verità “da quando i [minoranza] sono venuti ad abitare nel mio quartiere ho paura a girare da solo di notte”. Questi contenuti, per quanto problematici, non possono essere cancellati e possono portare a conseguenze nefaste e a un aumento della discriminazione delle minoranze o dei gruppi coinvolti.

Un approccio proattivo contro il linguaggio d’odio

Alcune branche della linguistica computazionale (parte dell’Intelligenza Artificiale dedicata specificatamente all’elaborazione del linguaggio umano) hanno quindi iniziato a chiedersi se esista un modo per contenere e prevenire l’odio online senza influire sulla libertà d’espressione. Per far questo, bisogna cercare e sviluppare nuove metodologie di contrasto all’odio, ma per farlo è stato necessario cambiare completamente prospettiva: bisognava superare il precedente paradigma di tipo reattivo, basato sulla ‘identificazione e rimozione’ dei contenuti, e assumere una prospettiva più proattiva.

In particolare, ci si è concentrati su una strategia alternativa già utilizzata da alcune ONG. Queste ONG si sono specializzate nella formazione di operatori affinché possano intervenire direttamente nelle chat contenenti incitamento all’odio scrivendo risposte di testo educate, chiamate contro-narrative, che hanno lo scopo di contrastare il contenuto d’odio con prove credibili e di impedire che esso si diffonda ulteriormente.

L’idea di fondo si basa sulla consapevolezza che l’odio online è fondamentalmente guidato da fenomeni di “branco”. Mentre una volta si pensava che fosse l’anonimato a fomentare comportamenti aggressivi e antisociali, oggi ci si è resi conto che tante persone non hanno paura a metterci la faccia. Le norme sociali hanno infatti il potere di influenzare i comportamenti delle persone. Se un utente vede nella sua timeline ripetuti insulti verso un dato gruppo può essere portato a pensare che queste cose siano accettabili e in qualche modo “normali”. Ecco perché è necessario entrare nel flusso dell’odio e cambiare le narrazioni violente con narrazioni positive e inclusive. La consapevolezza di questi operatori è che probabilmente non saranno in grado di far cambiare idea agli hater, ma di sicuro potranno impedire agli astanti di cadere nella trappola dei discorsi d’odio.

Purtroppo però, rispondere manualmente a tutto l’odio online richiede molta esperienza e tempo (oltre ad avere ripercussioni dal punto di vista emotivo nel lungo periodo) e alla fine non è un’attività scalabile: è una vera e propria fatica di Sisifo. Ecco allora che l’IA può venire in aiuto degli operatori con le sue più recenti scoperte.

I modelli probabilistici

Infatti negli ultimi anni sono state sviluppate reti neurali molto potenti a cui è stato insegnato il linguaggio umano (questi modelli di machine learning sono chiamati Neural Language Model). In pratica sono stati fatti “leggere” a queste reti neurali migliaia (milioni) di documenti, di modo che imparassero un modello probabilistico della lingua. Questi modelli probabilistici non fanno altro che dirci che alla frase “il gatto insegue il” seguirà molto probabilmente “topo” e non “paracarro”. Una volta imparata la lingua è facile chiedere a queste reti neurali, dato un input, di continuarlo in maniera realistica e ragionevole (“il gatto insegue il … topo che ha rubato il formaggio dalla dispensa mentre il bambino urla terrorizzato alla vista del topo”). La cosa ancora più interessante è che con una quantità di dati relativamente esigua (si parla comunque di decine di migliaia di esempi) si possono specializzare queste reti neurali nella composizione di contro-narrative. In pratica dato in input un discorso d’odio, la rete neurale proseguirà naturalmente la scrittura con una risposta di tipo pacato e ragionevole volta a smontare le argomentazioni dell’odiatore.

Conclusioni

Per quanto ancora sub ottimali, queste risposte generate automaticamente si sono comunque dimostrate fondamentali per gli operatori – se usate come suggerimenti – nel ridurre il tempo necessario per scrivere risposte adeguate ai discorsi d’odio.

Possiamo dunque ragionevolmente sperare in una nuova era dell’Illuminismo, in cui uomini e computer siano coinvolti nel miglioramento dell’interazione sociale e in cui la ragione sostituisca l’odio e la censura, dove le differenze possano arricchire la nostra società attraverso il dialogo.