scenari

Una intelligenza artificiale “simile” a quella umana? La promessa dei modelli “multimodali”

Gli esseri umani sono stati superati dai modelli basati sull’apprendimento computazionale nel raggiungimento di specifici compiti cognitivi ma l’intelligenza artificiale non è ancora capace di integrare più sorgenti con diversi livelli di affidabilità. Come risolvere? Il punto sulle ricerche sui modelli multimodali

12 Apr 2021
Ernesto Damiani

Senior Director of Robotics and Intelligent Systems Institute at Khalifa University

intelligenza artificiale - deep learning

La ricerca in intelligenza artificiale sta cercando da anni di sviluppare modelli multimodali che, con la ricchezza di diversi sensi assieme (vista, udito, movimento…), raggiungano la stessa flessibilità del cervello umano.

Sembra sempre di più, questa, l’unica via per arrivare a un nuovo livello di sviluppo dell’intelligenza artificiale, ora “bloccata” su ambiti molto specifici e limitati.

Intelligenza umana vs artificiale

Già, perché bisogna smentire la credenza popolare secondo cui l’intelligenza artificiale sia ormai arrivata al punto da essere paragonabile a quella umana. Certamente, gli esseri umani sono stati superati dai modelli basati sull’apprendimento computazionale nel raggiungimento di specifici compiti cognitivi, ma queste vittorie sono spesso arrivate al prezzo di un’estrema specializzazione dei modelli rispetto allo spazio dei dati d’ingresso.

WHITEPAPER
Cognitive Experience Center: ecco l'AI che può davvero supportare i tuoi operatori!
Intelligenza Artificiale
Networking

I grandi modelli IBM che negli ultimi dieci anni hanno battuto i campioni umani di giochi anche molto complessi, come “Go” o “Chi Vuol Esser Milionario” (negli Stati Uniti, “Jeopardy!”) erano stati perfettamente addestrati sulla base esempi (configurazioni di scacchiera e misure di vantaggio, oppure coppie di domande e risposte) provenienti da spazi la cui struttura era completamente definita dalle regole del gioco.

La multimodalità “umana”

Gli esseri umani, invece, imparano fin da piccoli a integrare più sorgenti sensoriali con diversi livelli di affidabilità. I bambini imparano cose del mondo sentendolo e parlandone, con una combinazione di azioni e sensi che ora sembra la chiave di una svolta. Questa è appunto la multimodalità.

Man mano che i bambini cominciano ad associare le parole alla vista, ai suoni e ad altre informazioni sensoriali, sono in grado di descrivere fenomeni e dinamiche sempre più complicate, di distinguere ciò che è causale dalle correlazioni e di costruire un modello sofisticato del mondo. Quel modello li aiuta poi a navigare in ambienti non familiari e a contestualizzare nuove conoscenze ed esperienze.

Per esempio, un giocatore di Go o un concorrente umano di “Chi Vuol Esser Milionario” potrebbero tener conto nel rispondere dell’espressione del viso dell’avversario o del presentatore; e proprio per prevenire l’uso di questa multimodalità vengono prese precauzioni: l’avversario è spesso occultato da un paravento, e il presentatore non conosce le risposte alle domande

Se i sensi e il linguaggio fossero combinati per dare a un’IA un modo più simile a quello umano di raccogliere ed elaborare nuove informazioni, potrebbe finalmente sviluppare qualcosa come una comprensione del mondo? Questa la promessa. Con molte sfide però.

Le difficoltà dell’integrazione di diverse modalità

Il primo problema a essere affrontato nello sviluppo di modelli multimodali è l’uso simultaneo di modalità diverse per addestrare i modelli di apprendimento computazionale per i classici problemi di previsione e classificazione. Integrare diverse modalità non è facile, anche a causa dei livelli variabili di rumore od occlusione che si possono avere sui canali usati per acquisire i dati delle varie modalità. Si tratta di un problema che abbiamo anche noi umani: in un gioco, un’espressione scornata sul viso dell’avversario può farci pensare che esista per noi una mossa vincente “vicina” partendo dalla situazione attuale, ma possiamo fidarci di un’espressione del viso appena intravista in una fessura dello schermo? Inoltre, le varie modalità possono richiedere diversi livelli di granularità per consentire al modello di far emergere le caratteristiche (le “feature”) in base alle quali eseguire la classificazione.

Infine, bisogna gestire i potenziali conflitti tra le modalità. Vi sono metodi storici “laschi”, detti “late fusion” che addestrano un modello separato per ciascuna modalità e poi mettono insieme i risultati usando aggregatori, i cui parametri possono essere adattati – anche automaticamente – al livello di fiducia attribuito alle varie modalità. Più recentemente, sono stati sviluppati metodi basati sull’apprendimento computazionale profondo per “omogeneizzare” i dati, filtrando simultaneamente il rumore sui diversi canali e creando uno spazio dati unitario la cui struttura è una sorta di minimo comune denominatore (tecnicamente, un “common manifold”) delle strutture degli spazi dati delle singole modalità.

L’output del modello usato per l’integrazione opera un campionamento nel manifold, e fornisce i dati su cui opera il modello di classificazione vero e proprio per estrarre le caratteristiche da considerare e poi prendere le decisioni di classificazione in base ad esse. Secondo i neurofisiologi, questa integrazione preliminare a livello percettivo (“early fusion”) delle diverse modalità è diversa dalle strategie di integrazione multisensoriale del cervello umano, e per questo è considerata da alcuni la base di una differenza fondamentale tra il mondo percettivo in cui opera l’intelligenza artificiale multimodale e quello in cui opera l’uomo, un gap assimilabile a quello che la fantascienza aveva immaginato tra esseri senzienti di pianeti diversi dotati di apparati sensoriali profondamente diversi.

Un tema di ricerca importante – e ancora aperto – è come eseguire la combinazione delle informazioni provenienti dalle diverse modalità di origine in modo che il processo di formazione del manifold si concentri automaticamente sulle combinazioni di informazioni provenienti dalle modalità più affidabili. Questo contrasta con il tradizionale addestramento computazionale “batch” (addestra prima, e usa in seguito) perché’ richiede che l’addestramento avvenga contestualmente all’utilizzo del modello.

Usare il modello d’integrazione in modo generativo

Da questa considerazione è nata l’idea di usare il modello d’integrazione in modo generativo, producendo direttamente dei dati nello spazio integrato multimodale (dati che sono incomprensibili per gli umani e quindi “musica per gli extraterrestri”) con una strategia che tenga conto dei diversi livelli di affidabilità delle modalità.

Per usare questa strategia, l’extraterrestre ritorna umano, o meglio bambino: i possibili manifold di dati da cui alimentare il modello multimodale vengono selezionati procedendo in modo non supervisonato, ovvero per tentativi ed errori. Il tentativo è riprodurre il processo per cui i bambini iniziano ad associare il parlato a immagini, suoni e altre informazioni sensoriali, selezionando in modo rapido le modalità di cui tenere conto momento per momento. Questa abilità aiuta i modelli a navigare in ambienti sconosciuti e a contestualizzare nuove conoscenze ed esperienze.

Conclusioni

Recentemente ci sono stati parecchi risultati importanti nella multimodalità vista/udito, o meglio immagini/parlato, soprattutto per gli aspetti generativi. I ricercatori dell’Allen Institute for Artificial Intelligence (AI2) hanno creato un modello in grado di generare un’immagine da una didascalia di testo, dimostrando la capacità del loro modello di associare le parole alle informazioni visive, ovvero di lavorare in uno spazio dati dove le rappresentazioni di parole e immagini possono essere accostate e paragonate secondo una nozione di distanza.

Alla fine dell’anno scorso, i ricercatori dell’Università della Carolina del Nord, a Chapel Hill, hanno annunciato un metodo che incorpora le immagini nei modelli linguistici esistenti. L’Europa, dal canto suo, è avanti sul tema dei modelli multimodali per specifici domini applicativi.

Alcuni atenei italiani (in particolare l’Università di Firenze) hanno lavorato a lungo su modelli multimodali per la sanità capaci di prendere decisioni integrando dati clinici molto diversi. Le prospettive del “medico artificiale” sono molto interessanti, anche se occorrerà tener conto della difficile spiegabilità delle decisioni prese sulla base dei dati integrati.

@RIPRODUZIONE RISERVATA

Speciale PNRR

Tutti
Incentivi
Salute digitale
Formazione
Analisi
Sostenibilità
PA
Sostemibilità
Sicurezza
Digital Economy
CODICE STARTUP
Imprenditoria femminile: come attingere ai fondi per le donne che fanno impresa
DECRETI
PNRR e Fascicolo Sanitario Elettronico: investimenti per oltre 600 milioni
IL DOCUMENTO
Competenze digitali, ecco il nuovo piano operativo nazionale
STRUMENTI
Da Istat e RGS gli indicatori per misurare la sostenibilità nel PNRR
STRATEGIE
PNRR – Piano nazionale di Ripresa e Resilienza: cos’è e novità
FONDI
Pnrr, ok della Ue alla seconda rata da 21 miliardi: focus su 5G e banda ultralarga
GREEN ENERGY
Energia pulita: Banca Sella finanzia i progetti green incentivati dal PNRR
TECNOLOGIA SOLIDALE
Due buone notizie digitali: 500 milioni per gli ITS e l’inizio dell’intranet veloce in scuole e ospedali
INNOVAZIONE
Competenze digitali e InPA cruciali per raggiungere gli obiettivi del Pnrr
STRATEGIE
PA digitale 2026, come gestire i fondi PNRR in 5 fasi: ecco la proposta
ANALISI
Value-based healthcare: le esperienze in Italia e il ruolo del PNRR
Strategie
Accordi per l’innovazione, per le imprese altri 250 milioni
Strategie
PNRR, opportunità e sfide per le smart city
Strategie
Brevetti, il Mise mette sul piatto 8,5 milioni
Strategie
PNRR e opere pubbliche, la grande sfida per i Comuni e perché bisogna pensare digitale
Formazione
Trasferimento tecnologico, il Mise mette sul piatto 7,5 milioni
Strategie
PSN e Strategia Cloud Italia: a che punto siamo e come supportare la PA in questo percorso
Dispersione idrica
Siccità: AI e analisi dei dati possono ridurre gli sprechi d’acqua. Ecco gli interventi necessari
PNRR
Cloud, firmato il contratto per l’avvio di lavori del Polo strategico
Formazione
Competenze digitali, stanziati 48 milioni per gli Istituti tecnologici superiori
Iniziative
Digitalizzazione delle reti idriche: oltre 600 milioni per 21 progetti
Competenze e competitività
PNRR, così i fondi UE possono rilanciare la ricerca e l’Università
Finanziamenti
PNRR, si sbloccano i fondi per l’agrisolare
Sanità post-pandemica
PNRR, Missione Salute: a che punto siamo e cosa resta da fare
Strategie
Sovranità e autonomia tecnologica nazionale: come avviare un processo virtuoso e sostenibile
La relazione
Pnrr e PA digitale, l’alert della Corte dei conti su execution e capacità di spesa
L'editoriale
Elezioni 2022, la sfida digitale ai margini del dibattito politico
Strategie
Digitale, il monito di I-Com: “Senza riforme Pnrr inefficace”
Transizione digitale
Pnrr: arrivano 321 milioni per cloud dei Comuni, spazio e mobilità innovativa
L'analisi I-COM
Il PNRR alla prova delle elezioni: come usare bene le risorse e centrare gli obiettivi digitali
Cineca
Quantum computing, una svolta per la ricerca: lo scenario europeo e i progetti in corso
L'indice europeo
Desi, l’Italia scala due posizioni grazie a fibra e 5G. Ma è (ancora) allarme competenze
L'approfondimento
PNRR 2, ecco tutte le misure per cittadini e imprese: portale sommerso, codice crisi d’impresa e sismabonus, cosa cambia
Servizi digitali
PNRR e trasformazione digitale: ecco gli investimenti e le riforme previste per la digitalizzazione della PA
Legal health
Lo spazio europeo dei dati sanitari: come circoleranno le informazioni sulla salute nell’Unione Europea
Servizi digitali
PNRR e PA digitale: non dimentichiamo la dematerializzazione
Digital Healthcare transformation
La trasformazione digitale degli ospedali
Governance digitale
PA digitale, è la volta buona? Così misure e risorse del PNRR possono fare la differenza
Servizi digitali
Comuni e digitale, come usare il PNRR senza sbagliare
La survey
Pnrr e digitale accoppiata vincente per il 70% delle pmi italiane
Missione salute
Fascicolo Sanitario Elettronico alla prova del PNRR: limiti, rischi e opportunità
Servizi pubblici
PNRR: come diventeranno i siti dei comuni italiani grazie alle nuove risorse
Skill gap
PNRR, la banda ultra larga crea 20.000 nuovi posti di lavoro
Il Piano
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUMPA2022
PNRR e trasformazione digitale: rivedi i Talk di FORUM PA 2022 in collaborazione con le aziende partner
I contratti
Avio, 340 milioni dal Pnrr per i nuovi propulsori a metano
Next Generation EU
PNRR, a che punto siamo e cosa possono aspettarsi le aziende private
Fondi
Operativo il nuovo portale del MISE con tutti i finanziamenti per le imprese
Servizi comunali
Il PNRR occasione unica per i Comuni digitali: strumenti e risorse per enti e cittadini
Healthcare data platform
PNRR dalla teoria alla pratica: tecnologie e soluzioni per l’innovazione in Sanità
Skill
Competenze digitali, partono le Reti di facilitazione
Gli obiettivi
Scuola 4.0, PNRR ultima chance: ecco come cambierà il sistema formativo
Sistema Paese
PNRR 2, è il turno della space economy
FORUM PA 2022
FORUM PA 2022: la maturità digitale dei comuni italiani rispetto al PNRR
Analisi
PNRR: dalla Ricerca all’impresa, una sfida da cogliere insieme
Innovazione
Pnrr, il Dipartimento per la Trasformazione digitale si riorganizza
FORUM PA 2022
PA verde e sostenibile: il ruolo di PNRR, PNIEC, energy management e green public procurement
Analisi
PNRR, Comuni e digitalizzazione: tutto su fondi e opportunità, in meno di 3 minuti. Guarda il video!
Rapporti
Competenze digitali e servizi automatizzati pilastri del piano Inps
Analisi
Attuazione del PNRR: il dialogo necessario tra istituzioni e società civile. Rivedi lo Scenario di FORUM PA 2022
Progetti
Pnrr, fondi per il Politecnico di Torino. Fra i progetti anche IS4Aerospace
Analisi
PNRR, Colao fa il punto sulla transizione digitale dell’Italia: «In linea con tutte le scadenze»
La Svolta
Ict, Istat “riclassifica” i professionisti. Via anche al catalogo dati sul Pnrr
Analisi
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUM PA 2022
Ecosistema territoriale sostenibile: l’Emilia Romagna tra FESR e PNRR
Il Piano
Innovazione, il Mise “centra” gli obiettivi Pnrr: attivati 17,5 miliardi
Analisi
PNRR: raggiunti gli obiettivi per il primo semestre 2022. Il punto e qualche riflessione
Analisi
PNRR: dal dialogo tra PA e società civile passa il corretto monitoraggio dei risultati, tra collaborazione e identità dei luoghi
Webinar
Comuni e PNRR: un focus sui bandi attivi o in pubblicazione
Analisi
Formazione 4.0: cos’è e come funziona il credito d’imposta
PA e Sicurezza
PA e sicurezza informatica: il ruolo dei territori di fronte alle sfide della digitalizzazione
PA e sicurezza
PNRR e servizi pubblici digitali: sfide e opportunità per Comuni e Città metropolitane
Water management
Water management in Italia: verso una transizione “smart” e “circular” 
LE RISORSE
Transizione digitale, Simest apre i fondi Pnrr alle medie imprese
Prospettive
Turismo, cultura e digital: come spendere bene le risorse del PNRR
Analisi
Smart City: quale contributo alla transizione ecologica
Decarbonizzazione
Idrogeno verde, 450 milioni € di investimenti PNRR, Cingolani firma
Unioncamere
PNRR, imprese in ritardo: ecco come le Camere di commercio possono aiutare
I fondi
Industria 4.0: solo un’impresa su tre pronta a salire sul treno Pnrr
CODICE STARTUP
Imprenditoria femminile: come attingere ai fondi per le donne che fanno impresa
DECRETI
PNRR e Fascicolo Sanitario Elettronico: investimenti per oltre 600 milioni
IL DOCUMENTO
Competenze digitali, ecco il nuovo piano operativo nazionale
STRUMENTI
Da Istat e RGS gli indicatori per misurare la sostenibilità nel PNRR
STRATEGIE
PNRR – Piano nazionale di Ripresa e Resilienza: cos’è e novità
FONDI
Pnrr, ok della Ue alla seconda rata da 21 miliardi: focus su 5G e banda ultralarga
GREEN ENERGY
Energia pulita: Banca Sella finanzia i progetti green incentivati dal PNRR
TECNOLOGIA SOLIDALE
Due buone notizie digitali: 500 milioni per gli ITS e l’inizio dell’intranet veloce in scuole e ospedali
INNOVAZIONE
Competenze digitali e InPA cruciali per raggiungere gli obiettivi del Pnrr
STRATEGIE
PA digitale 2026, come gestire i fondi PNRR in 5 fasi: ecco la proposta
ANALISI
Value-based healthcare: le esperienze in Italia e il ruolo del PNRR
Strategie
Accordi per l’innovazione, per le imprese altri 250 milioni
Strategie
PNRR, opportunità e sfide per le smart city
Strategie
Brevetti, il Mise mette sul piatto 8,5 milioni
Strategie
PNRR e opere pubbliche, la grande sfida per i Comuni e perché bisogna pensare digitale
Formazione
Trasferimento tecnologico, il Mise mette sul piatto 7,5 milioni
Strategie
PSN e Strategia Cloud Italia: a che punto siamo e come supportare la PA in questo percorso
Dispersione idrica
Siccità: AI e analisi dei dati possono ridurre gli sprechi d’acqua. Ecco gli interventi necessari
PNRR
Cloud, firmato il contratto per l’avvio di lavori del Polo strategico
Formazione
Competenze digitali, stanziati 48 milioni per gli Istituti tecnologici superiori
Iniziative
Digitalizzazione delle reti idriche: oltre 600 milioni per 21 progetti
Competenze e competitività
PNRR, così i fondi UE possono rilanciare la ricerca e l’Università
Finanziamenti
PNRR, si sbloccano i fondi per l’agrisolare
Sanità post-pandemica
PNRR, Missione Salute: a che punto siamo e cosa resta da fare
Strategie
Sovranità e autonomia tecnologica nazionale: come avviare un processo virtuoso e sostenibile
La relazione
Pnrr e PA digitale, l’alert della Corte dei conti su execution e capacità di spesa
L'editoriale
Elezioni 2022, la sfida digitale ai margini del dibattito politico
Strategie
Digitale, il monito di I-Com: “Senza riforme Pnrr inefficace”
Transizione digitale
Pnrr: arrivano 321 milioni per cloud dei Comuni, spazio e mobilità innovativa
L'analisi I-COM
Il PNRR alla prova delle elezioni: come usare bene le risorse e centrare gli obiettivi digitali
Cineca
Quantum computing, una svolta per la ricerca: lo scenario europeo e i progetti in corso
L'indice europeo
Desi, l’Italia scala due posizioni grazie a fibra e 5G. Ma è (ancora) allarme competenze
L'approfondimento
PNRR 2, ecco tutte le misure per cittadini e imprese: portale sommerso, codice crisi d’impresa e sismabonus, cosa cambia
Servizi digitali
PNRR e trasformazione digitale: ecco gli investimenti e le riforme previste per la digitalizzazione della PA
Legal health
Lo spazio europeo dei dati sanitari: come circoleranno le informazioni sulla salute nell’Unione Europea
Servizi digitali
PNRR e PA digitale: non dimentichiamo la dematerializzazione
Digital Healthcare transformation
La trasformazione digitale degli ospedali
Governance digitale
PA digitale, è la volta buona? Così misure e risorse del PNRR possono fare la differenza
Servizi digitali
Comuni e digitale, come usare il PNRR senza sbagliare
La survey
Pnrr e digitale accoppiata vincente per il 70% delle pmi italiane
Missione salute
Fascicolo Sanitario Elettronico alla prova del PNRR: limiti, rischi e opportunità
Servizi pubblici
PNRR: come diventeranno i siti dei comuni italiani grazie alle nuove risorse
Skill gap
PNRR, la banda ultra larga crea 20.000 nuovi posti di lavoro
Il Piano
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUMPA2022
PNRR e trasformazione digitale: rivedi i Talk di FORUM PA 2022 in collaborazione con le aziende partner
I contratti
Avio, 340 milioni dal Pnrr per i nuovi propulsori a metano
Next Generation EU
PNRR, a che punto siamo e cosa possono aspettarsi le aziende private
Fondi
Operativo il nuovo portale del MISE con tutti i finanziamenti per le imprese
Servizi comunali
Il PNRR occasione unica per i Comuni digitali: strumenti e risorse per enti e cittadini
Healthcare data platform
PNRR dalla teoria alla pratica: tecnologie e soluzioni per l’innovazione in Sanità
Skill
Competenze digitali, partono le Reti di facilitazione
Gli obiettivi
Scuola 4.0, PNRR ultima chance: ecco come cambierà il sistema formativo
Sistema Paese
PNRR 2, è il turno della space economy
FORUM PA 2022
FORUM PA 2022: la maturità digitale dei comuni italiani rispetto al PNRR
Analisi
PNRR: dalla Ricerca all’impresa, una sfida da cogliere insieme
Innovazione
Pnrr, il Dipartimento per la Trasformazione digitale si riorganizza
FORUM PA 2022
PA verde e sostenibile: il ruolo di PNRR, PNIEC, energy management e green public procurement
Analisi
PNRR, Comuni e digitalizzazione: tutto su fondi e opportunità, in meno di 3 minuti. Guarda il video!
Rapporti
Competenze digitali e servizi automatizzati pilastri del piano Inps
Analisi
Attuazione del PNRR: il dialogo necessario tra istituzioni e società civile. Rivedi lo Scenario di FORUM PA 2022
Progetti
Pnrr, fondi per il Politecnico di Torino. Fra i progetti anche IS4Aerospace
Analisi
PNRR, Colao fa il punto sulla transizione digitale dell’Italia: «In linea con tutte le scadenze»
La Svolta
Ict, Istat “riclassifica” i professionisti. Via anche al catalogo dati sul Pnrr
Analisi
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUM PA 2022
Ecosistema territoriale sostenibile: l’Emilia Romagna tra FESR e PNRR
Il Piano
Innovazione, il Mise “centra” gli obiettivi Pnrr: attivati 17,5 miliardi
Analisi
PNRR: raggiunti gli obiettivi per il primo semestre 2022. Il punto e qualche riflessione
Analisi
PNRR: dal dialogo tra PA e società civile passa il corretto monitoraggio dei risultati, tra collaborazione e identità dei luoghi
Webinar
Comuni e PNRR: un focus sui bandi attivi o in pubblicazione
Analisi
Formazione 4.0: cos’è e come funziona il credito d’imposta
PA e Sicurezza
PA e sicurezza informatica: il ruolo dei territori di fronte alle sfide della digitalizzazione
PA e sicurezza
PNRR e servizi pubblici digitali: sfide e opportunità per Comuni e Città metropolitane
Water management
Water management in Italia: verso una transizione “smart” e “circular” 
LE RISORSE
Transizione digitale, Simest apre i fondi Pnrr alle medie imprese
Prospettive
Turismo, cultura e digital: come spendere bene le risorse del PNRR
Analisi
Smart City: quale contributo alla transizione ecologica
Decarbonizzazione
Idrogeno verde, 450 milioni € di investimenti PNRR, Cingolani firma
Unioncamere
PNRR, imprese in ritardo: ecco come le Camere di commercio possono aiutare
I fondi
Industria 4.0: solo un’impresa su tre pronta a salire sul treno Pnrr

Articolo 1 di 3