Visione e linguaggio, così il deep learning ha monopolizzato l'intelligenza artificiale

Il deep learning ha fatto irruzione nell’ambito della visione artificiale in modo eclatante e inatteso e in breve tempo è riuscito a scalzare ogni altra alternativa. E così sta succedendo anche nel campo delle capacità linguistiche dell’IA. Ripercorriamo difficoltà, successi, e aspettative di questi due ambiti

La capacità visiva e il linguaggio sono due preziose facoltà umane, e pertanto i tentativi di riprodurle costituiscono per l’Intelligenza Artificiale (IA) due tra i suoi più ambiziosi progetti. Anche prescindendo dal traguardo più elevato, aver creato macchine in grado di vedere e conversare in modo analogo all’uomo, sono pochi i campi applicativi in cui, disporre della possibilità di interpretare e produrre linguaggio, e di comprendere il contenuto di immagini, non sia un prezioso valore aggiunto.

Si accennerà qui ai diversi percorsi seguiti da visione artificiale ed elaborazione del linguaggio naturale, per arrivare alla convergenza di oggi sotto l’egida del deep learning, la strategia che sta monopolizzando ogni ambito dell’IA, e si confronteranno difficoltà, successi, e aspettative di questi due ambiti.

Indice degli argomenti

Intelligenza artificiale e linguaggio, da Turin a Chomsky

Inizialmente nell’IA il peso specifico di visione e linguaggio era decisamente sbilanciato a favore di quest’ultimo. Il linguaggio è stato subito assunto a protagonista dalla celebre anticipazione dell’IA da parte di Alan Turing, nel suo lavoro Computing Machinery and Intelligence del 1950. L’articolo suggeriva un curioso metodo, poi popolarizzato come test di Turing, per stabilire se un computer potesse essere ritenuto intelligente: farlo conversare in incognito con una persona, verificando se le risposte fossero abbastanza pertinenti da non consentire a questa persona di stabilire se il suo interlocutore fosse umano o artificiale. Pertanto, il marchio dell’intelligenza starebbe proprio nell’adoperare il linguaggio, comprenderlo e produrlo.

Ma più che a Turing la centralità del linguaggio nella prima IA è dovuta a Noam Chomsky, colui che tra gli anni ’50 e ’70 rivoluzionò la linguistica, traghettandola da un mondo di attenti certosini filologi, ad un mondo di matematici ed informatici. La sua nuova visione della sintassi come un insieme di regole computazionali ebbe una portata enorme anzitutto in informatica, e poi in IA. Per un programmatore di oggi viene talmente naturale chiamare “linguaggi” i linguaggi di programmazione, da non porsi nemmeno la domanda su come mai si chiamino “linguaggi”.

I pionieri della moderna programmazione, come John Backus, si trovarono servito su un vassoio d’argento l’apparato delle grammatiche chomskiane, pronto ad essere predato per esprimere, anziché enunciati delle lingue naturali, indicazioni al processore di un computer su cosa eseguire. Senza questa fortunata coincidenza storica il gergo degli informatici non comprenderebbe termini propri della linguistica, ma avrebbe continuato ad usare quelli della sua più contigua disciplina, la matematica, come ai tempi di Turing.

In informatica la linguistica di Chomsky è una sorta di prestito per scopi diversi, il programmare, in IA assume invece un ruolo ben riverso, una sorta di trampolino di lancio per rendere il linguaggio naturale trattabile dai computer. Anche se le descrizioni computazionali della sintassi di Chomsky e della sua scuola erano ben lontane dal coprire completamente le astrusità e i capricci delle lingue naturali, avevano almeno il vantaggio di presentarsi già nel formato pronto all’uso da parte di un computer. Curiosamente, Chomsky non provò mai alcuna attrazione per la contaminazione tra la sua linguistica e l’informatica, e fu apertamente scettico riguardo le possibilità da parte dell’IA di aggiungere qualche capacità di comprensione delle lingue naturali.

Intelligenza artificiale e visione

Al contrario del linguaggio, la visione era inizialmente un ambito decisamente trascurato nell’IA. Dopo tutto il vedere non pareva intriso di intelligenza allo stesso modo del linguaggio, è una facoltà comune a molti animali, e confrontare le persone su quanto vedano bene dice poco rispetto a quanto siano intelligenti.

Una significativa occasione per confrontare l’attitudine nei confronti di linguaggio e visione dell’IA ai suoi albori è il progetto condotto presso il laboratorio di IA del MIT nella seconda metà degli anni ’60, di un robot intelligente, in grado di prendere da un tavolo dei blocchi ed usarli per costruire una piramide, così come smontarla e riporre i blocchi. Non si poteva considerare il robot “intelligente” se non fosse stato in grado di comprendere la lingua inglese, almeno limitatamente a richieste sui suoi comportamenti. Oltre a cercare concretamente di soddisfare le richieste, il robot doveva anche essere in grado di fornire risposte in inglese, per esempio lamentare che la richiesta non fosse sufficientemente chiara, o che fosse fisicamente irrealizzabile.

Il progetto era curato, tra altri, da uno dei padri fondatori dell’IA, Marvin Minsky. Lui affidò la parte di elaborazione del linguaggio naturale a uno dei più brillanti studenti laureati, Terry Winograd, come tema per il suo dottorato di ricerca. Il risultato arrivò nel 1972 con il programma SHRDLU (i caratteri che comparivano in una riga delle tastiere dell’epoca), una delle pietre miliari dell’elaborazione del linguaggio naturale, e dell’intera IA. Pur nell’estrema limitazione del suo universo, fatto di un tavolo, una scatola, e vari oggetti colorati spostabili dal braccio robotico, SHRDLU aveva dovuto fare i conti con le fondamentali difficoltà del linguaggio, ben oltre la pura sintassi oggetto degli studi di Chomsky, dovendo incorporare semantica, una serie di assunzioni riguardo come funziona questo frammento di mondo, le azioni che lo possono modificare, i piani per avere risultati attesi dalle azioni, la loro fattibilità.

Tutt’altra attenzione meritò la parte di visione del robot. Minsky richiese ad uno studente universitario di primo anno, un certo Sussman, di sviluppare come esercitazione un programma che prendendo in ingresso il segnale di una telecamera, restituisse in uscita una descrizione linguistica della scena inquadrata. Stimò che non ci sarebbe voluto più dell’estate 1996. Rimase nella storia dell’IA come uno dei più clamorosi errori di valutazione. Avendo aperto gli occhi su quanto vedere sia complicato, i primi tentativi di ricavare qualche indizio su cosa ci sia in un’immagine digitale si affidarono proprio alla scienza del linguaggio. Il filone che per qualche anno è esistito, denominato “riconoscimento sintattico” o “grammatica visiva” è stato un tentativo di imitare l’apparato sintattico di Chomsky nel dare struttura alle parti che compongono un’immagine.

Per avere un’idea oggettiva di quale compito sia più arduo tra la visione e il linguaggio, una via ragionevole potrebbe essere quella di vedere quanta “potenza” di calcolo dedica il nostro cervello a queste due diverse mansioni. Sembrerebbe ne richieda decisamente di più la visione. Il sistema visivo, localizzato nella corteccia occipitale e in parte di quelle temporale e frontale, recluta qualcosa come un paio di miliardi abbondanti di neuroni. Il linguaggio, i cui centri per la sua comprensione e produzione occupano soprattutto il lobo temporale e parte del frontale, ne richiede “solo” mezzo miliardo circa.

Quel primissimo confronto all’interno dell’IA tra visione e linguaggio, scaturito dal progetto del robot al MIT, pare aver confermato il divario di difficoltà dedotto dal cervello. Con una certa approssimazione si può dire che la maggior disinvoltura nelle faccende linguistiche, rispetto alle molte ombre e poche luci nel litigare con le immagini, è durata per tutto il corso dell’IA precedente all’avvento del deep learning.

Beninteso, l’elaborazione del linguaggio naturale si è sempre mantenuta ad una debita distanza di sicurezza dalle capacità umane, purtuttavia progressi in settori come il riconoscimento del parlato, l’individuazione di documenti su base semantica, la sintesi vocale, i sistemi di dialogo, sono confluiti in applicazioni pratiche di non poco rilievo. Anche la visione qualche progresso lo ha ottenuto, ma tipicamente restringendo in modo drastico il possibile mondo inquadrato nelle immagini, come nell’ispezione industriale o nell’elaborazione di immagini da satelliti. Il riconoscere gli oggetti presenti in una generica immagine di vita quotidiana, “semplice” per qualunque essere umano, sembrava un traguardo irraggiungibile per la visione artificiale.

L’arrivo del deep learning

Nel 2012 la situazione si ribalta, la rivoluzione del deep learning in IA inizia precisamente nel dominio della visione. Per capire quanto sia stata eclatante e inattesa l’irruzione del deep learning, viene in aiuto un lavoro di rassegna scritto da una delle massime autorità nella visione artificiale, John Tsotsos, nel 2013, dal titolo 50 Years of object recognition: Directions forward. Tsotsos esamina qualcosa come centocinquanta diversi algoritmi, raggruppandoli per tipologie, per esempio quelli basati su individuazioni di parti volumetriche di oggetti, o su alberi di ricerca, metodi a costellazione, e così via. Questa attenta ed esaustiva rassegna termina con una domanda poco entusiasmante: “come mai ancora ci sfugge un algoritmo affidabile di riconoscimento di immagini?” Nel lasso di tempo necessario all’articolo per uscire in stampa l’agognato algoritmo era apparso, un algoritmo appartenente ad una categoria – le reti neurali artificiali – che Tsotsos non considerava tra le più promettenti.

Goffrey Hinton, ricercatore di vecchia data nell’ambito delle reti neurali artificiali, e considerato il padre del deep learning, aveva realizzato con il suo studente di dottorato Krizhevsky un modello neurale che a sorpresa aveva vinto l’edizione 2012 della competizione ILSVRC (ImageNet Large-Scale Visual Recognition Challenge). Si tratta di un milione di immagini generiche appartenenti a mille diverse categorie, ed era considerato fuori portata per la visione artificiale, prima del deep learning. L’errore migliore ottenuto fino al 2011 era del 26%, abbattuto al 16% dal modello di Hinton e Krizhevsky. Era solo l’inizio. Sulla spinta del successo il deep learning attrasse le attenzioni di aziende come Google e Amazon, e il poderoso volume di investimenti innescò una rapida progressione nelle prestazioni. Dal 2018 ILSVRC è stato sospeso. Era oramai troppo facile per il deep learning, che aveva eguagliato le prestazioni umane, e si è passati a dataset ancor più impegnativi come PASCAL-VOC e MS-COCO. I centocinquanta diversi algoritmi esaminati da Tsotsos si sono mestamente avviati a diventare oggetto di curiosità storica. Il deep learning ha progressivamente spazzato via ogni alternativa, e oggi chiunque si occupi di visione artificiale utilizza modelli deep learning, in una delle molteplici varianti che sono state sviluppate.

Le reti neurali artificiali, nella forma “deep”, hanno presto trovato applicazione anche in ambito linguistico, ma senza replicare il successo così straordinario ottenuto nella visione, con il risultato di ribaltare la situazione precedente. Adesso nella visione le macchine hanno capacità prossime a quelle umane, pur se vi sono diversi aspetti in cui l’uomo continua a prevalere, la comparazione è su prestazioni molto ravvicinate. Non è così per il linguaggio.

Intelligenza artificiale: razionalisti vs empiristi

I successi meno eclatanti del deep learning nell’ambito linguistico sono stati interpretati come sintomatici da parte della compagine razionalista dell’IA. È utile fare qualche passo indietro, e ricordare come il variegato mondo dell’IA si fondi su una certa varietà di presupposti filosofici, talvolta in competizione, mai così apertamente in conflitto come per le due correnti ispirate al razionalismo e all’empirismo. La disputa ricalca quella che ha attraversato l’intera storia della filosofia occidentale, con il razionalismo che considera l’uomo dotato di un certo bagaglio di idee innate tramite cui cercare di comprendere il mondo, e l’empirismo che vede invece la conoscenza una derivazione dall’esperienza, incluse le idee più astratte. Chomsky è uno dei più convinti fautori contemporanei del razionalismo e dell’innatismo, secondo lui il linguaggio si poggia su una serie di regole computazionali di cui il cervello è dotato fin dalla nascita. Come raccontato sopra Chomsky è stato una figura di grande influenza nella prima IA, ben oltre lo specifico ambito dell’elaborazione del linguaggio naturale. L’impianto razionalista dell’IA ha cercato di adottare regole e simboli di tipo linguistico come soluzione generale applicabile in qualunque ambito.

Il deep learning aderisce al fronte opposto, empirista, ed è il perfezionamento delle reti neurali artificiali della fine degli anni ’80, un altro periodo nell’alternante storia dell’IA in cui il pendolo era oscillato decisamente nella sponda empirista. Le reti neurali artificiali non usano né regole preconfezionate né altro genere di conoscenza innata, tutta la loro potenza deriva dalla capacità di apprendere dall’esperienza. Il progetto era noto come PDP (Parallel Distributed Processing), in quanto le conoscenze apprese erano rappresentate in modo distribuito, da un elevato numero di unità relativamente semplici, spesso denominate – con una certa velleità – “neuroni”. Il testo sacro degli empiristi in IA era il Parallel Distributed Processing: Explorations in the Microstructure of Cognition del 1986, corposa collezione di ventisei capitoli spazianti sia aree applicative dell’IA che ambiti propri delle scienze cognitive.

Il capitolo scandaloso – non a caso di gran lunga il più citato dell’opera – era il diciottesimo, che osava sfidare Chomsky nella sua stessa arena, un fenomeno del linguaggio naturale. Si trattava di un modello neurale, sviluppato da David Rumelhart e James McClelland, che simulava l’apprendimento della forma passata dei verbi inglesi, in cui coesistono una regola di base adottata da un numero elevato di verbi, e alcune forme irregolari per un numero di verbi estremamente ridotto, ma dall’uso molto frequente. Il modello, esposto ad una serie di forme di base di verbi e contemporaneamente le loro forme passate, apprendeva la mappatura con un andamento di errori del tutto simile a quello dei bambini durante il loro sviluppo linguistico.

L’affronto al cuore razionalista dell’IA meritava un’adeguata reazione, affidata ad uno degli allora giovani entusiasti di Chomsky, destinato a diventare altrettanto famoso: Steven Pinker. In un lavoro di oltre 120 pagine articolò una serie di argomenti sofisticati, che mostravano pecche e limitazioni del modello di Rumelhart e McClelland nel simulare in modo genuino quel che succede negli umani alle prime armi coi verbi inglesi. La critica era convincente, ma fu solo l’inizio di una delle più accese dispute in linguistica. Nel 1993 Kim Plunkett e Virginia Marchman elaborano un modello neurale più raffinato e plausibile di quello pionieristico di Rumelhart e McClelland, sempre con la finalità di simulare l’apprendimento del passato dei verbi inglesi. Pinker non demorde, e per rafforzare la sua posizione avvia uno dei suoi più promettenti allievi, Gary Marcus, a svolgere parte della sua ricerca di dottorato proprio sull’apprendimento del fatidico passato dei verbi nei bambini. Ben preso, nel 1992, Marcus pubblica una serie di articoli che reiterano le critiche ai modelli neurali nell’apprendimento della morfologia dei verbi, tentando di estenderle a quello di Plunkett e Marchman.

AI “razionalistica”: primato della sintassi o della semantica

Ed è proprio Marcus oggi ad essere il portabandiera della compagine razionalista in IA, contro il deep learning che ha nuovamente riportato il pendolo della storia tutto a vantaggio dell’empirismo. Il suo libro del 2019 ha un titolo eloquente: Rebooting AI: Building Artificial Intelligence We Can Trust, ovvero per avere una IA seria occorre ripartire da capo, su quella empirista del deep learning c’è poco da fidarsi. L’argomento dominante nel libro è proprio il linguaggio, puntando il dito sulle prestazioni ancora non troppo convincenti del deep learning. Il quarto capitolo è proprio intitolato If computers are so smart, how come they can’t read?, e nel sesto capitolo viene riesumata la diatriba sul passato dei verbi inglesi, naturalmente letta dal versante razionalista.

Mentre Marcus interpreta il razionalismo linguistico di diretta discendenza chomskiana, che tende a vedere nella sintassi l’essenza del linguaggio, esiste una componente importante in IA che, pur aderendo al razionalismo, contesta il primato della sintassi teorizzato da Chomsky, per favorire invece la semantica. Uno dei suoi più insigni esponenti è Barry Smith, il filosofo che ha saputo infondere i computer di metafisica, inventando l’ingegnerizzazione delle ontologie. Nel suo recente articolo Making AI meaningful again contesta al deep learning, al pari di Marcus, gli scarsi risultati nell’ambito del linguaggio naturale, ma li attribuisce non tanto alla mancanza di regole sintattiche, quando alla carenza di un substrato di conoscenze innate, nel formato di ontologie di base, riguardanti concetti come quello di “oggetto”, “proprietà”, “processo”.

Conclusioni

Il fondo comune di queste, come di altre critiche sollevate contro le pretese linguistiche del deep learning, è la sua incapacità di incorporare anche la più minima frazione di tutto il sapere che generazioni di linguisti e filosofi hanno accumulato riguardo al funzionamento del linguaggio. Gli argomenti potrebbero apparire sensati, ma si scontrano con una chiara evidenza. È vero che i modelli neurali deep vanno molto meglio in visione che per il linguaggio, ma anche in quest’ultimo dominio stanno dimostrando di funzionare decisamente meglio di qualunque alternativa fondata sul regole linguistiche. Se la ragione del minor successo in linguaggio che in visione derivasse veramente dalla natura empirista del deep learning, allora ci si aspetterebbe che approcci di tipo razionalista dessero risultati migliori. Non è così.

Anche in ambito linguistico il deep learning ha aperto una nuova era, e in modo meno eclatante ma altrettanto implacabile che nella visione, sta facendo piazza pulita delle alternative non neurali.

Forse una ragione più profonda è che nell’era del deep learning si va ristabilendo un naturale primato di complessità del linguaggio rispetto alla visione, oscurato dal semplice confronto tra il numero di neuroni reclutati nel cervello per uno o l’altro compito. Il punto è che l’intero universo concettuale per l’uomo ha una controparte linguistica. L’esercizio contingente del linguaggio attiva principalmente le aree di comprensione e di produzione, ma i contenuti di ciò che si ascolta o si vuol proferire, possono avere connessioni con ogni remoto angolo del cervello, coinvolto nella rappresentazione di ciò che conosciamo. Già agli inizi dell’800 il linguista e filosofo tedesco Wilhelm von Humboldt aveva sottolineato la prerogativa del linguaggio di disporre di mezzi in numero limitato: parole, regole sintattiche, ma di esser grado di usare tali mezzi finiti per esprimere un’infinità di pensieri.

Una buona conferma di questa ipotesi deriva dal notare come il progresso dei modelli neurali deep del linguaggio, sia accompagnato da un vistoso aumento nel numero dei loro parametri.

Il primo modello GPT (Generative Pre-trained Transformer) di OpenAI del 2018 aveva 100 milioni di parametri, che passano a 340 milioni nel modello BERT (Bidirectional Encoder Representations from Transformers) sviluppato nel 2019 da Google, superano il miliardo nel Megatron-LM di NVIDIA di quest’anno, toccano i 17 miliardi nel Project Turing della Microsoft, per volare a 175 miliardi con la versione 3 del GPT di OpenAI. Intendiamoci, sempre piccoli numeri rispetto ad un probabile (le stime sono difficili) miliardo di miliardi di connessioni sinaptiche del cervello umano. Un guaio per il deep learning è che il silicio è troppo vorace di energia rispetto ai neuroni biologici. Mentre un normale pasto è sufficiente ad alimentare quel numero di connessioni sinaptiche nel nostro cervello, l’addestramento dei modelli neurali del linguaggio più avanzati è diventato un serio problema energetico.

È stato stimato che l’addestramento di un modello come BERT consumi trenta volte l’energia spesa da un americano medio in un anno.