scenari

Gato è la prima AI “generalista”? Ma l’intelligenza umana è altra cosa

Gato è l’ultima frontiera dell’intelligenza artificiale Generale (AGI) che codifica lo sviluppo tecnico di capacità cognitive umane in grado di risolvere problemi e raggiungere risultati anche in relazione a obiettivi sconosciuti e imprevisti. Ci avviamo verso una nuova era tecnologica dominata dal primato della macchina?

Pubblicato il 03 Giu 2022

Angelo Alù

studioso di processi di innovazione tecnologica e digitale

Dopo AlphaFold^[1], DeepMind (azienda Google) ha recentemente presentato un nuovo modello di intelligenza artificiale “generalista”: Gato.

Gato rappresenta un nuovo prototipo dei programmi di intelligenza artificiale di ultima generazione sviluppato in auto-apprendimento automatico, e opera non solo come trasformatore ma anche come agente dotato di significative abilità generaliste che gli consentono di eseguire ben 604 compiti diversi.

Invece finora le AI sono state in grado di fare solo pochissime cose (per questo sono chiamate narrow-ai). E se ne dovevano fare altre, dovevano essere riaddestrate e addirittura dovevano dimenticare l’addestramento precedente. Tabula rasa.

InstructGPT e la ricerca di un’IA equa: è un obiettivo realistico?

Indice degli argomenti

Cos’è Gato

Gato è in particolare un “agente generalista” multimodale con funzioni multi-task, derivante dall’implementazione evolutiva dei sistemi di modellazione linguistica su larga scala, in grado di riprodurre immagini, chat, testi, didascali, e persino compiere operazioni più complesse, come ad esempio, mettere insieme oggetti mediante l’uso di un braccio elettronico, grazie ad una sofistica – ancora non del tutto testata – capacità di adattamento agli input che provengono dall’ambiente esterno.

In particolare, Gato può essere considerato l’ultima frontiera della cosiddetta intelligenza artificiale Generale (AGI) come sistema tecnologico “forte” (contrapposto all’ormai risalente – e forse superato? – modello di intelligenza artificiale “debole”) che codifica lo sviluppo tecnico di capacità cognitive umane in grado di risolvere problemi e raggiungere risultati anche in relazione alla realizzazione di obiettivi sconosciuti e imprevisti, sulla falsariga della tipica attitudine neurale di programmazione progettuale su cui si basa il funzionamento del cervello umano.

Le prospettive di Gato

Rispetto alle attuali utilizzazioni delle applicazioni AGI – chatbot commerciali, assistenti vocali e algoritmi di raccomandazione – sebbene sia ancora tutto da dimostrare l’infallibile perfezionamento di un sistema AGI operante in totale auto-apprendimento, il modello Gato sembra già proiettarci verso una nuova era “tecno-umana”. In essa potrebbero prendere forma organismi ibridi “cyborg”, basati sull’implementazione di sistemi AGI, dotati di una percezione sensoriale e avanzata creatività in grado di formulare pensieri astratti, mediante l’elaborazione di conoscenze basiche e complesse sino al punto di ricostruire, in piena autonomia concettuale, il rapporto causa-effetto nella concreta identificazione delle conseguenze determinate da qualunque accadimento eziologico di fatti.

Addirittura, le più ottimistiche previsioni futuristiche ipotizzano l’avvento di modelli tecnologici di AGI dotati persino di eccellenti abilità motorie e di una spiccata comprensione del linguaggio naturale anche grazie ad un elevato livello di intuizione modellata sulla conversazione intrattenuta con ogni specifico interlocutore.

In altre parole, al netto del generale (e in parte) comprensibile scetticismo attuale, l’AGI dovrebbe presto essere in grado – almeno teoricamente – di svolgere qualsiasi compito da realizzare con performance pari o superiori a quelle degli esseri umani nella risoluzione della generalità dei problemi esistenti, alla luce del pervasivo e continuo ciclo evolutivo dei sistemi di intelligenza artificiale destinati ad accelerare il progresso digitale sino alla definitiva realizzazione, come punto di non ritorno, della “singolarità tecnologica”.

I limiti di Gato

Il rovescio della medaglia è che Gato non esegue i singoli compiti così bene come i modelli che possono fare solo una cosa. Più in generale I robot devono ancora apprendere le “conoscenze di senso comune” su come funziona il mondo e questo è un grosso limite e differenza rispetto a quello che può fare l’intelligenza umana.
Gato è un “generalista”, nel senso che può fare molte cose diverse allo stesso tempo. Ma una IA “generale” vera e propria, se mai arriverà, deve essere in grado di adattarsi in modo significativo a nuovi compiti, diversi da quelli su cui il modello è stato addestrato.

Riescono a trasferire competenze da un dominio all’altro, invece di ripartire da zero: proprio come fa la nostra intelligenza.

Infine, i sistemi di AI generalisti dovrebbero avere secondo gli esperti un vero “apprendimento continuo”. Se gli viene insegnato qualcosa una volta, ne capiranno tutte le implicazioni e le useranno per prendere decisioni in altri ambiti. Per fare questo potrebbe servire proprio quella “comprensione del mondo” o senso comune che manca alle attuali AI.

Reti neurali: non solo Gato

Di certo, Gato non è una novità assoluta, se si considerano altri ulteriori interessanti progetti: il generatore di testo GPT-3 e il generatore di immagini DALL-E come esempi pratici dalle rilevanti e ancora non del tutto decifrabili implicazioni evolutive.

GPT3

In particolare, il sistema GPT-3 (Generative Pre-Trained Transformer 3) sta rendendo possibile lo sviluppo di una rete neurale sempre più sofisticata e complessa in grado, tra l’altro, di tradurre il linguaggio naturale in codice per siti Web, scrivere codice per addestrare modelli di apprendimento automatico, risolvere problemi mediante domande e risposte e in generale elaborare testi con una capacità dialettica di argomentazione stilistica non facilmente distinguibile dalle tradizionali tecniche di stesura testuale umana: si tratta quindi di un nuovo linguaggio computazionale di grandi dimensioni che consente di rispondere anche a domande complesse con frasi complete grazie ad una notevole fluidità discorsiva, mediante differenti stili linguistici sulla base di quanto appreso in precedenza (emblematico, in tal senso, l’articolo pubblicato dal “The Guardian”, intitolato “A robot wrote this entire article. Are you scared yet, human?”, scritto interamente proprio dalla tecnologia GPT-3).

I test di GPT-3: che cosa è davvero l’AI che sembra “umana”

DALL-E

Particolarmente rilevante è inoltre la rete neurale multimodale DALL-E (recentemente implementata nella nuova versione DALL-E 2), come sistema tecnologico ispirato al funzionamento dei neuroni celebrali, in grado di processare gli input provenienti dall’ambiente esterno all’esito di un dinamico processo di costante auto-apprendimento che consente di generare la combinazione tridimensionale di immagini mediante l’interpretazione di messaggi di testo associati a concetti correlabili, con riferimenti spazio-temporali e geografici molto dettagliati, per produrre informazioni testuali specifiche come risultato della corretta riconversione di parole e immagini in pixel ad alta risoluzione.

LaMDA

Google ha da tempo lanciato il modello sperimentale LaMDA, basato sul funzionamento di un algoritmo di deep learning, con l’intento di meglio comprendere e distinguere il significato, letterale o figurato, delle parole riferibili al flusso comunicativo della conversazione indicizzata online su specifici argomenti selezionati dagli utenti e processati in combinazione con 75 lingue diverse, per cercare di superare i limiti degli attuali strumenti conversazionali.

La chatbot di Google sostituirà i motori di ricerca? Male, ecco perché

Conclusioni

Da tempo, quindi, i sistemi di IA riescono, in autoapprendimento, a realizzare compiti tipicamente svolti dagli esseri umani, facendo emergere ulteriori inesplorate prospettive evolutive (oggi magari inimmaginabili) che potrebbero anche determinare il definitivo e totalizzante avvento di una nuova era tecnologica “transumana”, dominata dal primato della “macchina”, portatrice, al netto delle indubbie potenzialità positive legate al progresso digitale, di pericolosi pregiudizi discriminatori codificati nelle procedure algoritmiche già ora rilevati da alcuni studi di settore, da cui si evince, ad esempio, che il sistema GPT-3 richiede la necessità di una supervisione umana e automatizzata per ridurre l’incidenza di rischi associati all’esistenza di svariati pregiudizi algoritmici.

Per tale ragione, gli sviluppatori di GPT-3 hanno messo in guardia gli utenti in ordine alla possibile implementazione di discriminazioni diffuse su larga scala a causa del perfezionamento – ancora quindi non del tutto affidabile – degli attuali processi decisionali, da cui potrebbero derivare rilevanti implicazioni negative, come preoccupante effetto collaterale provocato dalla tecnologia IA, alla luce di una serie di evidenze che emergono nella concreta prassi tecnologica.

Note

AlphaFold è un sistema di intelligenza artificiale sviluppato per fornire alla ricerca scientifica specifiche previsioni sulla sequenza di amminoacidi che compongono il database del proteoma umano al fine di ricostruire, in modo dettagliato, la struttura 3D di una proteina ↑