I modelli linguistici come GPT-3 – basati sull’intelligenza artificiale e specificamente addestrati allo scopo di “prevedere” quale parola possa seguire ad un’altra all’interno di una frase – nel corso degli ultimi anni hanno mostrato risultati sorprendenti: possono tradurre dei testi, scrivere saggi completi, generare linee di codice per programmi software, creare grafici e siti Web a partire dalla descrizione di un testo, e altro, senza che sia necessaria una supervisione umana costante. I testi prodotti da detti modelli appaiono talmente convincenti da far intendere che potrebbero essere stati scritti da un essere umano.
Inoltre, man mano che il modello apprende, potrà essere utilizzato per nuove funzionalità.
I problemi dei Large Language Models
I Large Language Models, tuttavia, in quanto fondati su sistemi di intelligenza artificiale, presentano una serie di problematiche, legate sia alla presenza di bias all’interno dei dati che alla privacy. “Ad esempio”, affermano Alex Tamkin e Deep Ganguli della Stanford HAI (Human-Centered Artificial Intelligence), “può generare testi razzisti, sessisti e bigotti, nonché contenuti superficialmente plausibili che, a un ulteriore esame, sono di fatto imprecisi, indesiderabili o imprevedibili”[1] o “mostrare comportamenti indesiderabili, inclusi noti pregiudizi razziali, di genere e religiosi”.
Inoltre, continuano, ove si scoprano nuove funzionalità dei modelli come GPT-3, diverrà ancora più difficile “caratterizzare tutti i possibili usi (e abusi) dei modelli linguistici di grandi dimensioni al fine di prevedere l’impatto che GPT-3 potrebbe avere sulla società. Inoltre, non è chiaro quale effetto avranno i modelli altamente capaci sul mercato del lavoro. Ciò solleva la questione di quando (o quali) lavori potrebbero (o dovrebbero) essere automatizzati da modelli linguistici di grandi dimensioni.”
Senza contare che, ove usati per creare contenuti (saggi, tweet o post di altro genere), potrebbero generare notizie false o fuorvianti, sebbene sul punto vi siano ancora molte incognite: “abbiamo bisogno di una migliore comprensione delle economie della disinformazione automatizzata rispetto a quella generata dall’uomo prima di capire quanta minaccia rappresenti il GPT-3”, continuano Tamkin e Ganguli.
L’imprevedibilità dei Large Language Models, congiuntamente all’interesse mostrato verso detti modelli dal mondo tech, ha portato gli esperti a interrogarsi su come l’implementazione di questi ultimi possa impattare sulle persone fisiche.
Il test condotto da Melissa Heikkilä
Ad oggi, sono due i modelli principali di questa natura: GPT-3, di Open AI, e OPT-157B, sviluppato da Meta e reso accessibile ai ricercatori e al pubblico (è possibile, infatti, interrogare il modello tramite una chatbot pubblicamente disponibile chiamato BlenderBot 3). Al fine di comprenderne meglio il funzionamento e analizzare se detti modelli possano effettivamente impattare sulla privacy individuale, Melissa Heikkilä, giornalista per il MIT Technology Review, ha sottoposto i modelli ad una serie di test, rivelando dei risultati sorprendenti[2].
Al fine di meglio illustrare le ricerche condotte da Melissa Heikkilä, occorre precisare che, allo stato, i Large Language Models sono addestrati mediante l’analisi di grandi quantità di dati personali – e non – presenti sul web, ivi inclusi articoli, news, post sui social media, e altro. Pertanto, in linea generale, maggiori sono le informazioni relative ad una specifica persona fisica, maggiore sarà l’esattezza con la quale il sistema opera, specie se il soggetto in esame riveste una carica pubblica. “Se hai pubblicato qualcosa di anche solo remotamente personale in inglese su Internet, è probabile che i tuoi dati facciano parte di alcuni dei LLM più popolari al mondo. Le aziende tecnologiche come Google e OpenAI non rilasciano informazioni sui set di dati che sono stati utilizzati per costruire i loro modelli linguistici, ma includono inevitabilmente alcune informazioni personali sensibili, come indirizzi, numeri di telefono e indirizzi e-mail”, afferma Heikkilä.
Sul punto, Florian Tramèr, professore associato di informatica all’ETH di Zurigo, avverte che “ciò rappresenta una “bomba a orologeria” per la privacy online e apre una pletora di rischi legali e per la sicurezza”, sebbene siano ancora oggetto di analisi possibili soluzioni per migliorare il funzionamento dei modelli, tutelare la privacy dei soggetti che entrano a far parte dei dataset, e regolamentarne i possibili usi. Ad oggi, infatti, Florian Tramèr e un team di ricercatori sono riusciti a estrarre anche informazioni personali sensibili come numeri di telefono, indirizzi e indirizzi e-mail da GPT-2, una versione precedente e più ristretta di GPT-3.
Per lo studioso, il rilascio dei LLM comporterà una elevata diffusione di dati personali simile a quella avvenuta col lancio di Google Maps, prima che fossero adottati degli strumenti di censura del volto, o di elementi del paesaggio.
Al fine di meglio comprendere che tipo di dati i modelli pongono alla base delle proprie elaborazioni, e quali potrebbero essere gli usi impropri dei modelli medesimi, Heikkilä ha posto una serie di interrogativi al modello, iniziando da quelli che la riguardavano personalmente.
“Fino a quel momento, come molte persone, avevo sparpagliato con noncuranza su Internet i miei dati”, afferma la giornalista, “post di blog personali, album fotografici imbarazzanti delle serate fuori, post sulla mia posizione, stato della relazione e preferenze politiche, all’aperto perché chiunque potesse vedere. Anche ora, sono ancora una figura relativamente pubblica, dal momento che sono un giornalista con essenzialmente il mio intero portfolio professionale a una sola ricerca online”. Allo stesso tempo, circa un decennio fa, “Le mie immagini e le mie informazioni personali sono state sparse su un forum online, poi sezionate e ridicolizzate da persone a cui non piaceva una colonna che avevo scritto per un giornale finlandese”.
Inserendo il proprio nominativo, tuttavia, quasi nessuna informazione esatta viene restituita: ne consegue che il modello, fatta eccezione per i dati relativi alla sua carriera di giornalista, non possedeva informazioni su di lei, ma che le risposte venivano generate casualmente sulla base dei dati appartenenti ad altre persone con lo stesso cognome. “Si scopre che non sono nessuno. E questa è una buona cosa nel mondo dell’IA”, scrive Heikkilä, Il mio relativo anonimato online è probabilmente possibile grazie al fatto che ho vissuto tutta la mia vita in Europa e il GDPR, il rigoroso regime di protezione dei dati dell’UE, è in vigore dal 2018”.
Viceversa, inserendo i dati del redattore capo del MIT Technology Review Mat Honan, GPT-3 e BlenderBot restituivano un numero ben più elevato di dati, molte delle quali corrette (e altre, assolutamente errate). “Non sorprende: Mat è online da molto tempo, il che significa che ha un’impronta online più grande di me. Potrebbe anche essere perché ha sede negli Stati Uniti e la maggior parte dei modelli linguistici di grandi dimensioni sono molto incentrati sugli Stati Uniti. Gli Stati Uniti non hanno una legge federale sulla protezione dei dati. La California, dove vive Mat, ne ha uno, ma non è entrato in vigore fino al 2020. […] Ma diventa più inquietante. Con una piccola sollecitazione, GPT-3 mi ha detto che Mat ha una moglie e due figlie giovani (corretto, a parte i nomi) e vive a San Francisco (esatto). Mi ha anche detto che non era sicuro che Mat avesse un cane: “[Da] quello che possiamo vedere sui social media, non sembra che Mat Honan abbia animali domestici. In passato ha twittato del suo amore per i cani, ma sembra che non ne abbia nessuno di suo”. (Sbagliato.) Il sistema mi ha anche offerto il suo indirizzo di lavoro, un numero di telefono (non corretto), un numero di carta di credito (anch’esso non corretto), un numero di telefono casuale con un prefisso a Cambridge, Massachusetts (dove ha sede la MIT Technology Review) e un indirizzo di un edificio vicino alla locale Social Security Administration a San Francisco”.
È evidente che il sistema opera in modo “parzialmente casuale”, mediante delle logiche che diventano più esatte man mano che aumentano le fonti di dati, e il numero di informazioni pubblicate sulla persona fisica.
“GPT-3 prevede la prossima serie di parole in base a un input di testo fornito dall’utente. Occasionalmente, il modello può generare informazioni che non sono effettivamente accurate perché sta tentando di produrre testo plausibile basato su modelli statistici nei suoi dati di addestramento e nel contesto fornito dall’utente: questo è comunemente noto come ‘allucinazione'”, afferma sul punto un portavoce di OpenAI.
I rischi connessi all’uso dei modelli
Ciò premesso, appare evidente come l’eventuale utilizzo su larga scala di simili modelli potrebbe portare a gravi conseguenze sotto il profilo della tutela dei dati personali.
Più nello specifico, è possibile affermare che i modelli possano portare alle seguenti forme di abuso, da ritenersi comunque non esaustive, alla luce delle innumerevoli possibilità di utilizzo degli stessi:
- Utilizzo dei LLM per porre in atto violazioni della sicurezza: gli hacker, infatti, potrebbero utilizzare i modelli per estrarre gli indirizzi di casa, o manomettere un set di dati al fine di ingenerare apposite “insicurezze” che consentano violazioni della sicurezza, come affermato da Alexis Leautier, che lavora come esperto di intelligenza artificiale presso l’Autorità francese CNIL;
- Disclosure di dati maggiore rispetto a quella attualmente nota: secondo Florian Tramèr, il modello potrebbe avere molte più informazioni rispetto a quelle che ci vengono restituite, e sarebbe necessario capire come richiederle per ottenere potenzialmente qualsiasi informazione su un individuo specifico;
- Valorizzazione di dati errati con conseguenze dannose per i soggetti cui dette affermazioni errate si riferiscono, e risvolti sulla loro reputazione cui probabilmente non potrà porvisi rimedio: nel corso dei test condotti da Heikkilä, infatti, il modello associava erroneamente termini dispregiativi a personaggi pubblici (ad esempio, Maria Renske “Marietje” Schaake, politica olandese ed ex membro del Parlamento Europeo, veniva definita da BlenderBot una “terrorista”, probabilmente perché aveva affrontato il tema in alcuni editoriali che portavano la sua firma).
Se, dunque, già è difficile porre rimedio alle fake news online, sarà ancora più difficile rimuovere dal sistema i dati errati ingenerati, potenzialmente diffusi e sviluppati in innumerevoli soluzioni e prodotti.
“Sebbene sia doloroso vedere alcune di queste risposte offensive, demo pubbliche come questa sono importanti per costruire sistemi di IA conversazionale veramente robusti e colmare il chiaro divario che esiste oggi prima che tali sistemi possano essere prodotti”, afferma Joelle Pineau, amministratore della Ricerca sull’IA in Meta.
Senza contare i rischi che il modello crea per i diritti d’autore: codici sorgente e libri, infatti, sembrerebbero non mantenere traccia delle licenze, o delle restrizioni applicate sui software, comportando un’illecita diffusione di dati tutelati da copyright.
Le possibili soluzioni
Analizzate le possibili forme di abuso e i rischi derivanti dall’adozione di detti modelli, non appare ancora chiaro come sarà possibile, per le aziende, trovare una soluzione a dette problematiche.
Sebbene i legislatori e le autorità di controllo abbiano adottato un atteggiamento progressivamente sempre più restrittivo sull’uso dei dati personali, specie nei sistemi basati sull’IA, permangono molte perplessità circa la possibilità di evitare che detti sistemi possano andare a ledere i diritti dei cittadini, specie in Paesi nei quali la normativa sulla tutela dei dati personali non è ancora particolarmente avanzata.
Negli Stati Uniti, in particolare, la Federal Trade Commission degli Stati Uniti sta cercando di regolare le modalità con le quali le aziende raccolgono e trattano i dati e costruiscono algoritmi, costringendo al contempo le aziende che costruivano modelli con dati illegali a rimuoverli. Nel marzo 2022, la FTC ha ordinato all’azienda dietetica Weight Watchers di eliminare sia i dati che gli algoritmi basati su di essi che si riferivano a bambini, essendo gli stessi raccolti illegamente.
“C’è un mondo in cui mettiamo in gioco queste aziende per poter effettivamente irrompere nei sistemi e capire come escludere i dati dall’inclusione”, afferma Jennifer King, della Stanford University, “Non credo che la risposta possa essere semplicemente ‘Non lo so, dobbiamo solo conviverci'”.
“Non puoi riutilizzare nessun dato solo perché è disponibile”, afferma sempre sul tema Félicien Vallet, alla guida di un team di esperti tecnici del CNIL, “Quando raccogli dati per la costituzione di modelli linguistici o altri modelli di intelligenza artificiale […] dovrai affrontare gli stessi problemi e dovrai assicurarti che il riutilizzo di questi dati sia effettivamente legittimo”.
A tal fine, proprio il CNIL sta collaborando con una startup per sviluppare un LLM che possa fungere da riferimento per gli altri modelli, e sta lavorando all’elaborazione di uno standard che garantisca la privacy all’interno dei sistemi di IA.
Allo stesso tempo, Tramèr sostiene, congiuntamente ad altri esperti, all’interno di un articolo del febbraio 2022[3] titolato “What Does it Mean for a Language Model to Preserve Privacy?”, che i modelli linguistici, al fine di essere maggiormente sicuri, dovrebbero essere formati su dati che sono stati esplicitamente prodotti per uso pubblico, invece di raccogliere dati che sono semplicemente “pubblicamente disponibili”. Ma “anche se alleni un modello con le garanzie di privacy più rigorose che possiamo pensare oggi, non garantirai davvero nulla”, afferma Tramèr.
Conclusioni
Ciò premesso, non può sottacersi come anche le aziende stiano tentando di mitigare il problema, mediante l’utilizzo di “valutatori” umani che individuino le informazioni personali non sicure e contribuiscano al corretto funzionamento del LLM, o adottando delle misure che riducano le fonti note di aggregazione di informazioni personali dai dati utilizzati per formare il modello.
Resta fermo che si rende necessario condurre ancora approfondite ricerche sul tema prima di autorizzare l’uso estensivo dei modelli, non potendo, altrimenti, essere evitati i descritti risvolti sulla privacy.
Note
- https://hai.stanford.edu/news/how-large-language-models-will-transform-science-society-and-ai ↑
- https://www.technologyreview.com/2022/08/31/1058800/what-does-gpt-3-know-about-me/ ↑
- https://arxiv.org/pdf/2202.05520.pdf ↑