la riflessione

GPT-3 sotto il cappello Microsoft: svanisce il sogno di un’intelligenza artificiale “dal volto umano”?

La notizia che Microsoft inizierà a concedere in esclusiva la licenza per GPT-3 solleva non pochi interrogativi sulla sempre maggiore influenza dei colossi del web non solo nel plasmare il campo della ricerca, ma anche nel costruire e controllare gli algoritmi che modellano la nostra vita

14 Ott 2020
Luigi Mischitelli

Privacy & Data Protection Specialist at IRCCS Casa Sollievo della Sofferenza


Nel mondo dell’Intelligenza Artificiale, il modello di linguaggio GPT-3 (Generative Pre-trained Transformer 3) dell’azienda OpenAI sta rapidamente conquistando la curiosità del grande pubblico. Siamo di fronte ad un modello che utilizza il deep learning per – ad esempio – comporre poesie, racconti e canzoni in maniera celere, così reali da far pensare a “prodotti” scritti da un essere umano.

Ma l’eloquenza di GPT-3 è molto più che un trucco “da salotto”. I ricercatori infatti ritengono che le tecniche utilizzate per creare GPT-3 potrebbero svelare il segreto di un’Intelligenza Artificiale più avanzata. Tutto bene, dunque? In realtà, la notizia che solo Microsoft avrà accesso al codice di base della GPT-3 ha fatto sollevare più di un sopracciglio. Vediamo perché.

Cos’è il GPT-3, nuovo modello di intelligenza artificiale

Il GPT-3 si è formato su un’enorme quantità di dati testuali. Ma se addestrassimo tale modello di linguaggio oltre che su testi anche con immagini? Una nuova ricerca dell’Allen Institute for Artificial Intelligence (AI2) sta portando tale domanda alla sua realizzazione. I ricercatori hanno sviluppato un nuovo modello “combinato” di testo e immagini – noto come modello in linguaggio visivo – in grado di generare immagini con una didascalia. Le immagini sembrano dettagliate come i deepfake iperrealistici generati dai GAN (Generative Adversarial Networks o Rete Generativa Avversaria), e potrebbero dimostrare una nuova promettente “direzione” per ottenere una migliore Intelligenza Artificiale, apportando novità interessanti anche al settore della robotica.

La GPT-3 fa parte di un gruppo di modelli di linguaggio noti come “transformer“, che per primi si sono diffusi con il linguaggio BERT di Google (Bidirectional Encoder Representations from Transformers). Prima del BERT, i modelli linguistici erano piuttosto scadenti; in pratica, avevano abbastanza potere predittivo da essere utili per applicazioni come l’autocompletamento, ma non abbastanza potere per generare una lunga frase che seguisse le regole grammaticali e il senso logico. Il BERT ha cambiato questa situazione introducendo una nuova tecnica chiamata “mascheramento“: si tratta di nascondere parole diverse in una frase e chiedere al modello di riempire il vuoto. L’idea è che se il modello di linguaggio è costretto a fare questi esercizi – spesso milioni di volte – comincia pian piano a scoprire il modo in cui le parole sono assemblate in frasi, nonché come le frasi sono assemblate in paragrafi. Di conseguenza, il testo si avvicina sempre di più al senso compiuto. Dopo che il mascheramento si è rivelato molto efficace, i ricercatori hanno cercato di applicarlo ai modelli di linguaggio visivo nascondendo le parole nelle didascalie delle immagini. Questa volta il modello poteva guardare sia le parole circostanti che il contenuto dell’immagine per riempire il vuoto. Attraverso milioni di ripetizioni, si scoprono non solo i modelli tra le parole, ma anche le relazioni tra le parole e gli elementi di ogni immagine. Il risultato sono modelli in grado di mettere in relazione le descrizioni testuali con i riferimenti visivi, proprio come i bambini possono creare connessioni tra le parole che imparano e le cose che vedono. I modelli possono guardare una foto e redigere direttamente una didascalia, in maniera del tutto autonoma. Oppure possono rispondere a domande come “qual è il colore della palla?” collegando la parola “palla” con l’oggetto sferico presente nell’immagine.

Ma i ricercatori di AI2 volevano sapere se questi modelli avevano effettivamente sviluppato una comprensione concettuale del mondo visivo. Un bambino che ha imparato il nome di un oggetto può non solo evocare la parola per identificare l’oggetto, ma anche disegnare l’oggetto “connesso” con la parola, anche se l’oggetto stesso non è presente davanti a lui (ad es. la maestra dà il compito di disegnare un pallone da calcio non partendo da alcuna immagine). Così i ricercatori hanno chiesto ai modelli di fare lo stesso: generare immagini da didascalie, ossia da testi.

Nella pratica, trasformare il testo in immagini è molto più difficile che al contrario. Una didascalia non specifica tutto ciò che è contenuto in un’immagine, affermano da AI2. Quindi un modello ha bisogno di attingere a un sacco di informazioni sul mondo che lo circonda. Se gli si chiede di disegnare “una giraffa che cammina su una strada”, per esempio, il modello deve anche dedurre che la strada è più probabile che sia grigia che rosa, ad esempio; oppure che è più probabile che sia vicino a un campo erbaceo che vicino all’oceano, anche se nessuna di queste informazioni è resa esplicita. Così in AI2 hanno deciso di vedere se potevano insegnare a un modello tutta questa conoscenza visiva implicita modificando l’approccio al mascheramento. Invece di addestrare il modello a prevedere le “parole mascherate” nelle didascalie delle foto corrispondenti, l’hanno addestrato a prevedere i pixel mascherati nelle foto sulla base delle didascalie corrispondenti. Le immagini finali generate dal modello non sono state però esattamente realistiche. Ma non è questo il punto. Contengono i giusti concetti visivi di alto livello, l’equivalente dell’Intelligenza Artificiale di un bambino che disegna una figura stilizzata per rappresentare un essere umano.

WEBINAR
Intelligenza Artificiale, Data Analysis e Image Recognition: i vantaggi concreti per l’azienda
Big Data
Intelligenza Artificiale

La capacità dei modelli in linguaggio visivo di fare questo tipo di generazione di immagini rappresenta un importante passo avanti nella ricerca sull’Intelligenza Artificiale. Essa suggerisce che il modello è in realtà capace di un certo livello di astrazione, un’abilità fondamentale per la comprensione del mondo. A lungo termine, questo potrebbe avere implicazioni anche nel campo della robotica. Quanto più un robot è in grado di comprendere il suo ambiente visivo e di usare il linguaggio per comunicare su di esso, tanto più complessi saranno i compiti che sarà in grado di svolgere. A breve termine, questo tipo di visualizzazione potrebbe anche aiutare i ricercatori a capire meglio ciò che i modelli di Intelligenza Artificiale stanno imparando. Inoltre, il team prevede di sperimentare di più per migliorare la qualità della generazione di immagini e ampliare il vocabolario visivo e linguistico del modello per includere più argomenti, oggetti e aggettivi.

L’avanzata di Microsoft

Il 22 settembre scorso, Microsoft ha annunciato che inizierà a concedere in esclusiva la licenza per GPT-3. Microsoft ha affermato, in pratica, che inizierà ad utilizzare le capacità di questo modello nei suoi prodotti e servizi, anche se non ha specificato i dettagli. Ma cosa significa licenza esclusiva? In pratica OpenAI continuerà a offrire la sua API rivolta al pubblico, permettendo agli utenti di inviare testo a GPT-3 o ad altri modelli di OpenAI e di ricevere degli output. Tuttavia, solo Microsoft avrà accesso al codice di base della GPT-3, permettendo al colosso di Redmond di incorporare, riadattare e modificare il modello a suo piacimento.

OpenAI è stata originariamente fondata come una non profit e ha raccolto il suo iniziale miliardo di dollari con la promessa che avrebbe perseguito l’idea di un’Intelligenza Artificiale rivolta “a beneficio dell’umanità”. OpenAI affermava che sarebbe stata indipendente dagli incentivi finanziari dei colossi, e che sarebbe rimasta una non-profit. Ma all’inizio del 2019, OpenAI ha suscitato polemiche quando ha scelto di non rilasciare il predecessore della GPT-3, la GPT-2, e poco dopo ha abbandonato il suo status di puro non-profit per orientarsi verso lo scopo di lucro. All’epoca, molti ipotizzarono che parte del motivo dell’organizzazione per trattenere la GPT-2 potesse essere quello di preservare la possibilità di concedere in licenza il modello in futuro. Nel luglio del 2019, OpenAI ha accettato il suo secondo investimento miliardario da Microsoft. Nei mesi successivi all’investimento di Microsoft, OpenAI ha iniziato a sottolineare la necessità di commercializzare le sue tecnologie per continuare a sostenere il suo lavoro. Le ultime novità consolidano la trasformazione di OpenAI in un’azienda profit.

Conclusioni

Negli ultimi anni vi è stata una crescente preoccupazione sul modo in cui l’Intelligenza Artificiale concentra il potere. Le tecniche più avanzate richiedono un’enorme quantità di risorse computazionali, che sempre più spesso solo le aziende più ricche possono permettersi. Questo dà ai giganti della tecnologia un’influenza maggiore non solo nel plasmare il campo della ricerca, ma anche nel costruire e controllare gli algoritmi che modellano la nostra vita. Alcuni esperti hanno proposto di “livellare il campo di gioco” aumentando i finanziamenti governativi ai laboratori accademici per la ricerca sull’Intelligenza Artificiale. Ma questo richiede un livello di lungimiranza e di coordinamento che il governo degli Stati Uniti, in particolare, ha faticato a manifestare. OpenAI sembrava offrire una soluzione alternativa che non si affidasse né al denaro delle aziende né a quello del governo, ma non sembra più essere così.

@RIPRODUZIONE RISERVATA

Articolo 1 di 4