I “modelli linguistici”, ossia sistemi di intelligenza artificiale in grado di generare del testo partendo da una frase in ingresso sono già fuori dai centri di ricerca, sotto forma di prodotti commerciali: ad esempio sono utilizzati da Google per migliorare i risultati delle proprie ricerche, mentre OpenAI, azienda no-profit californiana fondata da Elon Musk, creatrice del sistema di generazione linguistica GTP-3 – ha creato una società “for profit”, OpenAI LP, entrando in una partnership con Microsoft che ha investito un miliardo di dollari nell’azienda[1] al fine di potenziare i propri servizi di IA su Azure.
Gli utilizzi potenziali sono molteplici e vanno considerati la generazione di riassunti di testi, ad esempio legali, la generazione di risposte automatiche alle domande dei clienti rispetto a specifici prodotti, la generazione di testi per giochi di ruolo, fino alla possibilità di analizzare i messaggi lasciati dalle persone sui social network, identificando in essi elementi che possono indicare potenziali situazioni di disagio.
Oltre alle capacità “positive” di questi sistemi ci sono però, come vedremo, anche dei rischi. Andremo quindi a esaminare entrambi, oltre alle direzioni percorribili per migliorare ulteriormente questi modelli.
Il modello GPT-3
GTP-3 (Generative Pretrained Transformer 3) è un modello linguistico (ML), addestrato al compito di determinare la probabilità di apparizione di uno specifico elemento (un carattere, una sillaba o un segmento di frase) sulla base degli elementi linguistici che lo precedono o lo circondano. L’apprendimento di questi sistemi è non supervisionato, ovvero non hanno bisogno di esempi “etichettati” per apprendere il modello linguistico, ma apprendono direttamente dai testi nella loro forma originale. Sistemi di questo tipo erano stati ipotizzati già nel 1948 da Shannon nel suo articolo “A matematical theory of communication”[2]. I modelli linguistici sono quindi in grado di accettare una frase in ingresso e generare una o più sezioni di testo in uscita. I primi modelli di questo tipo furono implementati già negli anni ‘80 del secolo scorso, per essere usati in sistemi per il riconoscimento del parlato, traduzioni automatiche e classificazione di documenti.
L’intelligenza artificiale “parla” sempre meglio ma non sa cosa dice: rischi e soluzioni
GPT 3 è il terzo modello di una serie, ed è 100 volte più grande del suo predecessore GTP-2. Il suo addestramento ha richiesto l’utilizzo di centinaia di microprocessori operanti in parallelo, e si stima sia costato almeno 4.6 milioni di dollari[3] di sola capacità computazionale.
Uno dei parametri di valutazione della dimensione di una rete neurale è il conteggio dei parametri che contiene: questi rappresentano il numero di connessioni fra neuroni: più neuroni e più connessioni significano più parametri, e questo si traduce in una maggiore capacità computazionale della rete stessa. GTP-3 ha 175 miliardi di parametri, numero che va confrontato con il suo sfidante più prossimo, che si ferma a 17 miliardi[4], mentre GTP-2, il suo predecessore di OpenAI, ne aveva poco meno di due miliardi.
Per il suo addestramento, OpenAI ha utilizzato 499 miliardi di elementi (gruppi di 4 lettere desunti da testi “reali”) provenienti da raccolte pubbliche su internet quali Commoncrawl, WebText2 e altri. Questa mole di dati e l’aumento del numero di parametri ha reso GTP-3 particolarmente capace di “generalizzare” la creazione di testi: mentre i precedenti modelli di generatori di linguaggio hanno necessità di essere adattati per eseguire compiti specifici (rispondere a domande, piuttosto che generare testi con specifiche caratteristiche ecc.), GTP-3 può eseguire gli stessi compiti semplicemente con la presentazione di alcuni esempi di quel che si vuole ottenere. Nell’articolo che presentava GPT-3, postato lo scorso maggio, i ricercatori di OpenAI illustravano le eccellenti capacità della rete neurale nella comprensione del testo, traduzione, risposta alle domande, completamento delle storie e produzione di ragionamenti di senso comune – come, ad esempio, se è meglio versare dell’acqua in una brocca o su un piatto.
Alcuni ricercatori ritengono però che le capacità di GTP-3 siano in realtà legate più alle proprie capacità di “ricordare” testi già letti, più che a vere e proprie capacità generative. Nel già citato articolo di Lambda, si fa infatti notare come, nel passaggio da GTP-2 (1,5 è miliardi di parametri, 10 miliardi di token per l’addestramento) a GTP-3 (175 miliardi di parametri, 499 miliardi di token per l’addestramento), il rapporto di compressione passi da 6,66 token/parametro a 2,85 token/parametro, cosa che potrebbe effettivamente indicare una maggiore capacità di identificare pattern già presenti nei dati di training. Insomma, queste misure parrebbero indicare la correttezza di quanto scritto dal filosofo Luciano Floridi proprio su Agendadigitale a dicembre del 2020, ovvero che ci troviamo di fronte a sistemi sempre più bravi a giocare al gioco dell’imitazione.
Quale che sia l’origine delle capacità di GTP-3, rimane comunque un sistema dalle capacità rimarchevoli.
Lo scorso settembre, un gruppo di ricercatori dell’Università di Berkeley ha pubblicato i risultati di una sfida fra intelligenze artificiali, con 57 domande a risposta multipla, ciascuna riguardante una disciplina diversa, fra matematica, scienze, scienze sociali e scienze umane. Rispondendo ai quiz in modo casuale si otterrebbe un punteggio del 25%, le persone a cui il test è stato sottoposto hanno totalizzato una media di risposte corrette pari al 35%, mentre il risultato più alto ottenuto da una intelligenza artificiale è stato quello del modello UnifiedQA, una derivazione del modello T5 di Google con 11 miliardi di parametri, messo a punto proprio allo scopo di rispondere a quiz a risposta multipla, che ha ottenuto il 49% di risposte corrette. Quando a GPT-3 sono state mostrate solo le domande, il punteggio ottenuto è stato del 38%, mentre con un minimo di “preparazione”, effettuata includendo esempi di altre domande e risposte prima di ogni domanda effettiva, il risultato è stato del 44%[5].
Oltre alla capacità di rispondere alle domande, un’altra delle abilità emergenti di GTP-3 che risulta particolarmente sorprendente è quella di eseguire ricerche semantiche, ovvero cercare in un testo non una parola o una frase precisa, ma un concetto. L’azienda Casetext, ad esempio, sta utilizzando GTP-3 per ricercare, all’interno delle sentenze, le parti della sentenza che possono essere usate (nel diritto anglosassone) per confermare o negare una tesi processuale[6].
Visione e linguaggio, così il deep learning ha monopolizzato l’intelligenza artificiale
L’annoso problema del training
Insieme a queste capacità appaiono però dei rischi: in un articolo dello scorso settembre[7], due ricercatori hanno mostrato che GTP-3 supera di molto le capacità del suo predecessore GTP-2 nella creazione di testi estremistici. GTP-3 esibisce, infatti, una sorprendente conoscenza dei testi creati dai gruppi estremisti, e di conseguenza ha una grande capacità di creare testi che ne riproducono le argomentazioni. Gli autori dell’articolo si preoccupano del possibile uso di tale capacità per automatizzare la produzione di questo genere di contenuti, e potrebbe quindi essere usata per potenziare le capacità di questi gruppi di presenziare i canali social. Una ulteriore ricerca ha inoltre mostrato che la generazione di contenuti rappresentanti posizioni estremiste può essere attivata anche da input inoffensivi[8]. Il problema non sembra dunque essere trattabile con una soluzione semplice, ad esempio affidandosi semplicemente alla “sanificazione” dell’input usato per generare i testi.
Queste derive erano già state individuate dai ricercatori di OpenAI, che avevano rilevato come GTP-3 tendesse a generare testi in cui, ad esempio, i neri venivano descritti in maniera meno positiva di quanto non venisse fatto per i bianchi
Oltre ai problemi macroscopici dei testi apertamente estremisti o razzisti, i testi generati da GTP-3 contengono spesso frasi e modelli linguistici che perpetuano stereotipi sessisti. La ragione della presenza di un bias così marcato è probabilmente da cercare nella grande mole di testi utilizzati per il training, testi raccolti per lo più da Internet, un “contenitore” già polarizzato di suo e tutt’altro che rappresentativo di tutte le categorie umane. Già l’accesso a Internet in sé non è distribuito in modo uniforme, con il risultato che le informazioni presenti su Internet rappresentano in modo preponderante gli utenti più giovani e quelli dei paesi sviluppati. Inoltre, non è solo Internet nel suo complesso ad essere poco rappresentativa, ma anche sottoinsiemi specifici di esso. Ad esempio, i dati di training di GPT-2 provengono dai collegamenti in uscita da Reddit, e un sondaggio del 2016 di Pew Internet Research rilevava che il 67% degli utenti Reddit negli Stati Uniti sono uomini, per la maggioranza (64%) tra i 18 e i 29 anni. Allo stesso modo, recenti sondaggi sui contributori a Wikipedia rilevano che meno del 15% sono donne[9].
Un modo per rimuovere o attenuare i pregiudizi parrebbe dunque quello di rimuovere i testi offensivi dai dati di training. Ad esempio, è stato proposto di addestrare i modelli linguistici su versioni “pulite” del database Common Crawl, che escluda le pagine Web contenenti specifici elenchi di parole considerate negative. Questo approccio però limita la portata di un modello linguistico così definito, in quanto il risultato ottenuto, se da un lato esclude le pagine con contenuti sessisti o razzisti, dall’altro escluderebbe anche le pagine contenenti discussioni dedicate a questi temi. Un approccio più granulare, con un filtro “accorto” sui contenuti è di difficile applicazione su larga scala, perché richiederebbe un massiccio lavoro di selezione che non può al momento essere automatizzato. Inoltre, questo filtro dei contenuti inevitabilmente pone degli interrogativi su cosa escludere, e su chi debba decidere di queste esclusioni.
Quel che in realtà tutte queste ricerche sottolineano, è che GPT-3 e gli altri modelli linguistici mancano ancora di buon senso, cioè della comprensione di come funziona il mondo, fisicamente e socialmente. Ad esempio, nel suo blog Kevin Lacker[10] ha eseguito una sorta di test di Turing su GTP3. Benché il sistema sia in grado di fornire risposte in maniera sorprendentemente “umana”, ha ancora difficoltà ad interpretare frasi ambigue o prive di senso: alla domanda “Quanti arcobaleni ci vogliono per saltare dalle Hawaii a diciassette?” GPT-3 risponde con molta sicurezza: “Ci vogliono due arcobaleni per saltare dalle Hawaii a diciassette”[11].
Direzioni di ricerca
Ci sono due direzioni percorribili per migliorare ulteriormente questo modelli, che possono marciare in parallelo: da una parte migliorare la sua “conoscenza del mondo” per poter adattare le risposte ed i testi generati a ciò che è realmente possibile, discriminando più facilmente fra il senso, il non-senso e l’ipotetico. L’altra direzione consisterà nell’aggiungere una dimensione più “etica” ai contenuti generati dai modelli linguistici.
Per ottenere questo tipo di risultati, OpenAI sta cercando di migliorare le prestazioni dei modelli grazie ad un metodo che mescola il supporto umano con l’uso di sistemi automatici per il training. In un documento presentato alla conferenza NeurIPS del 2020[12], gli autori hanno descritto il lavoro fatto su versioni ridotte di GPT-3, che sono state ottimizzate per riassumere i post presenti sul social network Reddit. Il team ha utilizzato un datataset di testi e relativi riassunti, la cui qualità era stata valutata da revisori umani.
Successivamente i ricercatori hanno addestrato una rete neurale a valutare la qualità dei riassunti basandosi sui giudizi umani raccolti. Infine, il team ha usato quest’ultima rete durante il training di GTP-3 per valutare i riassunti generati da quest’ultima, “premiando” i riassunti che ottenevano i giudizi più alti da parte della rete giudicante.
Il risultato è stato che i riassunti generati da GPT-3, valutati da umani, risultavano essere addirittura preferiti rispetto a quelli generati da vere persone. Si tratta ovviamente di un metodo di addestramento molto più costoso dell’apprendimento non supervisionato alla base di GPT-3, ma è anche un modo più vicino al nostro modo di apprendere il linguaggio, basato anche sulle interazioni con altre persone e non sulla semplice lettura di testi preconfezionati.
______________________________________________________________________________________
Note e bibliografia
- Etherington, D. “Microsoft invests $1. Billion in OpenAI in new multiyear partnership”, Techcrunch, luglio 2019 ↑
- Shannon, C. E. , “A matematical theory of communication”, The Bell System Technical Journal, vol. 27, luglio-ottobre 1948 ↑
- China, Li, “OpenAI’s GPT-3 Language Model: 0061 Technical Overview”, Lambda, giugno 2020 ↑
- Hutson, M., “Robo-writers: the rise of language-generating AI”, nature, marzo 2021 ↑
- Hendrycks, D. et al., “Measuring massive multitask language understanding”, conference paper at ICLR 2021 ↑
- Si veda: https://casetext.com/blog/how-casetext-uses-ai/ ↑
- Newhouse, A., McGuffie, K. “The Radicalization Risks of GPT-3 and Advanced Neural Language Models”, Cornell University, arXiv:2009.06807 ↑
- Gehman, S. et al. “RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models”, Settembre 2020, arXiv:2009.11462 ↑
- Per il gender bias su Wikipedia, si veda https://en.wikipedia.org/wiki/Wikipedia:Gender_bias_and_editing_on_Wikipedia ↑
- https://lacker.io/ai/2020/07/06/giving-gpt-3-a-turing-test.html ↑
- In realtà altri ricercatori hanno dimostrato successivamente che “mostrando” a GTP-3 come rispondere a domande prive di senso – e con soli due esempi – la rete neurale è immediatamente in grado di discernere queste domande con molta sicurezza, evitando nella maggior parte dei casi di generare risposte prive di senso. Si veda ad esempio: https://arr.am/2020/07/25/gpt-3-uncertainty-prompts/ ↑
- Stiennon, N. et al., “Learning to summarize from human feedback”, presentato al NeurIPS 2020 ↑