Visiogrammi, come l'intelligenza artificiale impara a parlare per immagini

Muove i primi passi nella ricerca sull’Intelligenza artificiale l’apprendimento linguistico basato su “visiogrammi”. L’inserimento di modelli visuali nell’addestramento di sistemi neurali promette di superare una serie di nodi finora irrisolti. La strada è ancora lunga: ma l’industria ci sta già scommettendo

Linguisti e filosofi si sono interrogati per secoli su come avviene l’apprendimento del linguaggio. E soprattutto su come sia possibile per l’uomo ottenere risultati così brillanti nell’impararlo. I linguaggi naturali non sono progettati da qualcuno: emergono dall’uso. Certo, ci sono regole formali di grammatica e sintassi, ma chi parla può violarle. Inoltre, il linguaggio naturale presenta vari tipi di ambiguità (come interpretare la frase “una vecchia porta la sbarra”?).

Gli esseri umani convivono tranquillamente con tutte queste difficoltà. Che però risultano insormontabili nelle tecniche di Intelligenza artificiale basate sulla sintassi per elaborare testo e parlato in linguaggio naturale.

Una svolta potrebbe venire, per l’IA, con i visiogrammi: ossia, parlare per immagini.

Indice degli argomenti

Dalla grammatica alla statistica

È un viaggio che comincia dalle basi dell’AI. La modellazione statistica del linguaggio, tramite algoritmi, può essere considerata un atto di modestia della linguistica, che rinuncia a “spiegare” il linguaggio per limitarsi ad “osservarlo”. Un modello di linguaggio, infatti, non fa altro che elencare le frasi osservabili e assegna a ciascuna di esse una probabilità, sulla base della frequenza con cui appare nel corpus linguistico di riferimento. Idealmente, le frequenze delle frasi andrebbero calcolate (e continuamente aggiornate) sulla base di tutti i testi e le registrazioni del parlato esistenti; ma osservare direttamente gli scriventi e i parlanti di tutte le lingue è oggi alla portata di poche grandi organizzazioni come Google, a cui si aggiungono Amazon ed Apple per il parlato. Tutti gli altri devono accontentarsi di stimare la probabilità di occorrenza sulla base di corpus testuali standard.

Il più semplice modello di linguaggio (detto modello a unigramma o bag-of-words) associa una probabilità a ogni singola parola. I modelli bag-of-words sono facili da costruire perché la probabilità di ciascuna parola può essere stimata attraverso la sua frequenza nel testo o nel parlato. I modelli linguistici a multigrammi sono molto più utili per risolvere le ambiguità; ad esempio, permettono di distinguere tra frasi omofone, che suonano simili. In italiano, la frase “l’una di notte tramonta al mattino” ha una frase omofona con meno parole, che però ha una frequenza nei corpus (e quindi una probabilità) molto più alta.

Parlare e scrivere senza capire

I modelli di linguaggio sono alla base della capacità dei modelli di fare predizioni negli scambi linguistici (ad esempio, decidere la parola “giusta” da pronunciare, o la prossima frase da dire in un dialogo). Si tratta di una capacità che noi umani associamo alla comprensione, ma per sapere come continuare una frase (ad esempio “il bambino mangia… ”) si può ricorrere a un conteggio basato su un teorema che ci hanno insegnato al liceo, il teorema di Bayes sulla probabilità condizionale.

Il teorema ci dice che la probabilità che una frase inizi con “il bimbo mangia” sapendo che continua con “la sua merenda” è uguale a quella che continui con “la sua merenda”, sapendo che inizia con “il bimbo mangia”, moltiplicata per il rapporto tra le frequenze dei due multi-grammi “il bimbo mangia” e “la sua merenda” nell’intero corpus. Quindi se le frequenze assolute dei trigrammi sono state pre-calcolate, basterà interrogare il corpus per recuperare le (poche) frasi che dopo il multigramma iniziale proseguono con “la sua merenda”, e calcolare la percentuale che inizia con “il bimbo mangia” per stimare la probabilità che sia quella la prosecuzione da usare.

Ovviamente ci si può domandare come siano scelti i trigrammi candidati (chi dice al sistema di provare proprio “la sua merenda” come prosecuzione?). Per questo, si ricorre spesso a liste precompilate di termini che hanno una relazione concettuale tra loro (la cosiddetta Latent Semantic Analysis o LSA), in cui le alternative come “merenda” e “mela” sono entrambe associate a “mangia”. Ovviamente questo metodo può sbagliare; un approccio bayesiano “ingenuo” che sceglie la più probabile tra le alternative date da una LSA centra la prosecuzione giusta meno della metà delle volte.

Per aumentare la precisione si possono usare le previsioni del modello bayesiano che sono state confermate dagli utenti umani per accumulare i dati di addestramento per un altro modello di apprendimento computazionale, come una rete neurale profonda. Per parecchio tempo, però, l’addestramento di queste reti non ha permesso di raggiungere i livelli di accuratezza elevati necessari per rendere il testo sintetico accettabile.

Il ruolo del Teacher Forcing

Un salto di qualità è avvenuto quando si è capito meglio come eseguire questo addestramento. Il problema del completamento delle frasi è iterativo, cioè la soluzione di un passo (la parola da pronunciare o da scrivere per completare la frase) è parte degli input del passo successivo (la frase da completare). Il rischio è che l’errore fatto in uno dei passaggi comprometta delle sequenze che prima e dopo l’errore stesso erano perfette.

Una speciale tecnica di addestramento, il Teacher Forcing (“forzatura dell’insegnante”) ha risolto questo problema: dopo che il sistema neurale sotto addestramento ha proposto un primo completamento erroneo (ad esempio proponendo “la sua cartella” dopo “il bimbo mangia”), invece di usare la proposta errata “la sua cartella” come base per il secondo passo, e registrare l’errore complessivo alla fine, si calcola subito l’errore del primo completamento, e si usa invece la frase corretta “il bimbo mangia la sua merenda” come base per il secondo passo. Senza il Teacher Forcing, il completamento successivo userebbe “la sua cartella” come punto di partenza e potrebbe andare completamente fuoristrada, generando “piena di libri”, visto che altri esempi possono aver suggerito che le cartelle sono legate ai libri di testo. Con il Teacher Forcing, invece la rete in ingresso riceve la frase corretta e propone come secondo completamento “con un panino”, che è sulla strada giusta.

Dai multigrammi ai visiogrammi

Per quanto i loro risultati siano brillanti, i sistemi che usano l’apprendimento basato su multigrammi sono molto distanti dall’apprendimento umano. Chi ha, o ha avuto, dei figli piccoli sa benissimo che la maggior parte degli esseri umani impara la propria lingua associando alle frasi una visualizzazione. “Puntare a un’immagine” è un passo essenziale per la maggior parte dei bambini nell’apprendimento del linguaggio. Un modello di linguaggio in cui i multigrammi sono completati da immagini considerate come visualizzazioni dei multi-grammi corrispondenti, o modello a visiogrammi, è uno strumento essenziale per incorporare l’elemento visuale nell’apprendimento del linguaggio naturale.

Supponendo di avere un grande dataset di visiogrammi, si possono usare le tecniche di apprendimento descritte sopra per addestrare un modello che possa “parlare delle immagini” cioè generare e completare frasi come prosecuzioni di immagini, anche quelle mai viste prima. Sfortunatamente, un data set del genere non è ancora disponibile, ed è improbabile che lo diventi nel prossimo futuro. Finora sono stati raccolti circa 120 milioni di visiogrammi, che sono molti meno rispetto al 3.3 miliardi di multi-grammi nei dati di addestramento di BERT (la libreria per il trattamento del linguaggio naturale creata da Google, di cui abbiamo già parlato), e una piccola frazione dei 220 miliardi di multigrammi usati per i modelli trasformazionali di T5. Il problema è che la maggior parte delle parole in linguaggio naturale non sono facilmente collegabili a immagini.

Secondo una stima approssimativa, solo il 28% voci dell’edizione inglese di Wikipedia si possono usare per generare direttamente visiogrammi (cioè, contengono un’associazione immagine-multigramma creata dall’uomo). Questo rapporto basso rispecchia la scarsa “copertura visiva” del linguaggio naturale, che sembra essere un aspetto intrinseco della lingua.

La soluzione proposta dagli esperti di Intelligenza Artificiale per aumentare la copertura è, come intuibile… un altro modello di apprendimento computazionale, il generatore di visiogrammi (vokenizer), che è addestrato per aggiungere un’immagine anche ai multi-grammi a cui non ne corrisponde direttamente nessuna. Ad esempio, il di-gramma “depressione nera”, che contiene un termine astratto senza rappresentazione visuale diretta, può essere associato a immagini che mostrano musi lunghi ed espressioni lugubri.

L’attenzione dell’industria ai visiogrammi

I modelli conversazionali basati su visiogrammi hanno attirato l’attenzione dell’industria, perché competono con successo con quelli basati sul solo testo creati usando BERT. I modelli visuali hanno mostrato buone prestazioni su diversi benchmark internazionali come GLUE, che comprende nove attività di comprensione di frasi o coppie di frasi appartenenti a vari generi di testo e gradi di difficoltà. Il momento in cui una macchina potrà commentare adeguatamente una scena mai vista prima si sta avvicinando a grandi passi.