InstructGPT di OpenAI

GPT-3, ecco la nuova versione: ma il linguaggio “tossico” resta un problema

Si chiama InstructGPT ed è la nuova versione di GPT-3 di OpenAI, addestrata per produrre un linguaggio meno offensivo, con meno disinformazione e meno errori, in piena autonomia. Ma i problemi non sono del tutto risolti

Pubblicato il 08 Feb 2022

Luigi Mischitelli

Legal & Data Protection Specialist at Fondazione IRCCS Casa Sollievo della Sofferenza

Il colosso no-profit di ricerca in materia di Intelligenza Artificiale OpenAI ha varato una nuova versione del suo fortunato modello di linguaggio GPT-3 che utilizza l’apprendimento profondo (conosciuto come “Deep Learning”) per la creazione automatica di testi simili a quelli prodotti dall’uomo. OpenAI ha dichiarato di aver eliminato alcuni dei problemi “più tossici” che affliggevano la precedente versione del suo famoso modello.

L’organizzazione californiana, co-fondata sette anni or sono dal magnate Elon Musk, ha denominato la sua nuova versione “InstructGPT”, affermando che la nuova versione di GPT-3 è migliore nel seguire le istruzioni delle persone che lo usano, producendo di conseguenza un linguaggio meno offensivo, compresa una riduzione della disinformazione e degli errori in generale. Il tutto in autonomia, senza l’intervento dell’uomo.

Linguaggio artificiale, le big tech accelerano: urge una soluzione etica

Indice degli argomenti

Come funzionano i modelli linguistici

I grandi modelli linguistici come GPT-3 sono addestrati utilizzando “praterie sterminate” di testo, fiumi di inchiostro virtuale che vedono in Internet il bacino più ampio ove attingere testo. E proprio il grande quantitativo di testo che pullula sul Web è così eterogeneo che è relativamente facile incappare in turpiloquio, fake news e atti criminali (si pensi alle minacce “testuali”).

Un immenso calderone dove GPT-3 attinge “per imparare”, con tutti i pro e i contro del suo “studio”. Ed è un problema soprattutto per le chatbot e gli strumenti di generazione di testo. I modelli assorbono il “linguaggio tossico” da testi infarciti di razzismo e di misoginia, acquisendo ogni genere di pregiudizio (i famosi “bias” dell’intelligenza artificiale) condito da infinite fake news.

Arriva IntructGPT, ma GPT-3 non va in pensione

Ma OpenAI ha cercato di porre un freno a tutto ciò, mettendo al riparo la sua creatura e scendendo in campo in sua difesa e (soprattutto) in difesa della sua utenza. L’organizzazione di San Francisco ha reso il suo IntructGPT come il modello predefinito per gli utenti della sua “interfaccia di programmazione delle applicazioni” (Application Programming Interface o API), servizio che dà accesso ai modelli di linguaggio della società californiana dietro pagamento. Tuttavia, OpenAI non ha chiuso in soffitta GPT-3, il quale sarà ancora disponibile per gli utenti; tuttavia, la non-profit statunitense “raccomanda” semplicemente di non usarlo più, favorendo in tal modo un lento ma inesorabile deflusso verso la nuova soluzione in gioco. I precedenti tentativi di affrontare il problema includevano il filtraggio “manuale” del linguaggio offensivo dai training data. Solo che questa soluzione forzata può rendere i modelli come GPT-3 meno performanti, soprattutto nei casi in cui i dati “di formazione” (training data) sono già scarsi ab origine, come i testi riferiti ad alcune minoranze etniche. I ricercatori di OpenAI hanno evitato di sfociare in un problema del genere partendo da un modello GPT-3 completamente addestrato. Hanno poi aggiunto un altro “round di formazione”, utilizzando il “reinforcement learning” (apprendimento di rinforzo) per insegnare al modello “cosa dovrebbe dire e in che momento”, sulla base delle preferenze degli utenti.

Com’è stato addestrato InstructGPT

Per addestrare InstructGPT, OpenAI ha assunto un team di quaranta persone col fine di valutare le risposte di GPT-3 a una serie di richieste già stilate, come l’ordine di scrivere “una storia su una rana saggia chiamata Julius” oppure scrivere “un annuncio creativo per un determinato prodotto da postare su Facebook”. Le risposte che il team di OpenAI ha giudicato essere più in linea con l’intenzione apparente dell’autore della richiesta hanno ottenuto un punteggio più alto. Le risposte che contenevano un linguaggio a sfondo sessuale o violento, ovvero risposte che denigravano un gruppo etnico specifico, sono state cestinate. Questo feedback è stato poi utilizzato come “ricompensa” in un algoritmo di apprendimento di rinforzo che ha addestrato InstructGPT a far corrispondere determinate risposte a determinate richieste, nei modi che i ricercatori di OpenAI ritenevano più giusto. OpenAI ha, inoltre, scoperto che ai suoi utenti InstructGPT piace più GPT-3. E questo non è affatto un fulmine a ciel sereno, date le premesse di cui sopra. Con la scomparsa degli errori grammaticali e con la capacità che il modello ha di seguire le istruzioni “umane” poi, la “ciliegina sulla torta” della perfezione è stata inserita sul modello dell’organizzazione californiana.

Conclusioni

Tuttavia, InstructGPT riesce ancora a commettere errori “clamorosi” producendo, a volte, risposte irrilevanti o senza senso. A volte accade che se gli viene “data in pasto” una richiesta che contiene una fake news, per esempio, prenderà quella fake news per una notizia vera. E, poiché è stato addestrato a fare pedissequamente ciò che la gente chiede, InstructGPT riesce a produrre a volte un linguaggio molto più “tossico” di GPT-3. E questo può essere un problema da nulla, come può trasformarsi in una potenziale debacle. Basti pensare che in alcune applicazioni, come l’intelligenza artificiale che fornisce consigli medici, nessuna “quantità di falsità” è accettabile. Né, tantomeno, è tollerato alcun grado di tossicità del modello impiegato.

Possiamo solo prendere atto che, al momento, i grandi modelli linguistici basati su reti neurali non possono garantire al cento per cento la sicurezza degli utenti. Per questo motivo, sarebbe meglio adottare un mix di reti neurali che vincolino, tramite regole ben precise, ciò che un modello può e non può dire o fare. Qualunque sia l’approccio, tuttavia, resta molto lavoro da fare. E non siamo ancora vicini a risolvere questo problema nel prossimo futuro.^[1]

Note

The new version of GPT-3 is much better behaved (and should be less toxic). MIT Technology Review. https://www.technologyreview.com/2022/01/27/1044398/new-gpt3-openai-chatbot-language-model-ai-toxic-misinformation/#:~:text=The%20San%20Francisco%2Dbased%20lab,told%20not%20to%20do%20so. ↑