Natural Language Processing

L’intelligenza artificiale scrive sempre meglio, ma non sa che sta dicendo

Alcuni risultati ottenuti nell’ambito della capacità linguistica dell’intelligenza artificiale stupiscono in positivo, ma confermano anche che in queste reti non si produce nulla che somigli all’umana facoltà del linguaggio. Ecco l’analisi di GPT-3 di Open AI

26 Ago 2020
Matteo Grella

Associate Director / Head of Research & Artificial Intelligence at EXOP GmbH

Guido Vetere

Università degli Studi Guglielmo Marconi

renAIssance - intelligenza artificiale

La capacità linguistica dell’Intelligenza Artificiale (Natural Language Processing, NLP) fa continui progressi, ma forse non sta andando nella direzione auspicabile. Dubbi legittimi se si analizza lo stato dei lavori che tanto clamore stanno suscitando in questi giorni tra gli addetti.

GPT-3 di Open AI: i progressi nel Natural Language Processing

Una delle realtà più in vista in questo settore è OpenAI. Molti media ed esperti discutono in questi giorni del suo nuovo generatore di linguaggio GPT-3, a breve disponibile sul mercato. Chi ne ha avuto accesso parla di un sistema capace di generare comunicati stampa, articoli, testi di canzoni molto verosimili.

WHITEPAPER
Sai come implementare una rivoluzione dell’IT che parte dai processi più profondi?
Digital Transformation
Software

Open AI è una società senza (al momento) scopi di lucro ma finanziata dai big della Silicon Valley tra cui Elon Musk (al terzo posto tra i più ricchi degli Usa). Già da tempo si è distinta per essere in grado a macinare record in discipline come l’inferenza testuale (capire se una frase è logicamente collegata ad un’altra), la similarità semantica (capire se due frasi dicono cose simili), l’analisi della polarità emozionale, la classificazione settoriale (sport, politica, ecc.), il riconoscimento di nomi e concetti, il completamento automatico di frasi o interi testi.

Questi progressi sono il risultato dell’applicazione di tecniche di apprendimento automatico basate su reti neurali molto sofisticate (Deep Neural Networks, DNN) a grandi volumi di dati testuali, resa possibile da capacità di calcolo sempre maggiori. Le DNN, con opportune architetture, come quella messa a punto in OpenAI (Generative Pretrained Transformer, GPT), riescono a produrre modelli del linguaggio dall’osservazione di testi, senza intervento umano (Unsupervised Learning).

La “vecchia scuola” dell’apprendimento automatico (machine learning) prevedeva una fase in cui regole e risorse specifiche create ad hoc erano impiegate per descrivere le caratteristiche del fenomeno che si intendeva apprendere (features extraction). Ma nel caso del linguaggio, la descrizione del fenomeno è sempre stato un serio problema. Basti considerare che tra diversi linguisti non c’è completo accordo neanche sullo “statuto” delle categorie grammaticali come nome, aggettivo, verbo, avverbio e preposizione. D’altra parte, queste categorie derivano dalla tradizione della grammatica classica, non da una descrizione scientifica della “rappresentazione mentale” del linguaggio, che non sappiamo ancora caratterizzare.

Gli informatici di oggi, che dispongono di ingenti risorse, si sono dunque chiesti: “perché non lasciare che la macchina trovi autonomamente la rappresentazione migliore?”. Ed ecco che seguendo la tendenza degli ultimi anni, OpenAI ha reciso il nodo gordiano del linguaggio sfruttando appieno l’apprendimento profondo (deep learning) ed esonerando completamente i linguisti dalla costruzione di lessici, regole e reti semantiche. Nella AI moderna, il problema della modellazione del fenomeno linguistico è dunque semplicemente accantonato.

Le caratteristiche del modello GPT-3

Il modello di OpenAI, arrivato alla terza versione (GPT-3), è una rappresentazione del linguaggio naturale la cui conoscenza “sub-simbolica”, costituita dal numero record 175 miliardi di parametri (connessioni tra nodi della rete neurale), è creata dal modello stesso, in quella che viene chiamata fase di addestramento “auto-regressivo”.

In questa fase, GPT-3 viene sottoposto a tutto lo scibile digitale di cui oggi possiamo disporre, ad esempio in fonti come Wikipedia, ma principalmente attinto dal Web. Il suo compito, per ogni sequenza del testo, è indovinare quale possa essere la parola successiva più probabile, un po’ come fanno i nostri smartphone, ma all’ennesima potenza. È evidente che un sistema capace di predire la parola successiva di qualsiasi frase mai osservata prima, deve aver necessariamente appreso i pattern del linguaggio umano così come si presentano nei testi forniti in fase di apprendimento. Tali pattern costituiscono, appunto, il modello.

GPT-3 fornisce prove così convincenti da far gridare al superamento del Test di Turing, che misura la capacità mimetica delle macchine. Un articolo del New York Times è stato diviso in due parti, la prima è stata mostrata all’AI, che ha generato alcune possibili continuazioni. Un essere umano chiamato a distinguere tra queste continuazioni e quella dell’articolo originale si trova in seria difficoltà.

I limiti di GPT-3

Ma se da una parte alcuni risultati ottenuti dalle reti neurali addestrate in modo non supervisionato stupiscono, dall’altra confermano che in queste reti non si produce nulla che somigli all’umana facoltà del linguaggio. Ci sono evidenze che il tipo di modello neurale usato da GPT-3 (Transformer) sia capace di sviluppare una sorta di grammatica, ma basta, ad esempio, una semplice negazione per mandare fuori strada questo genere di sistemi, che mostrano difficoltà a ragionare su cose ovvie (senso comune), come il fatto che uno scapolo non sia sposato.

Un interessante test del Mit Technology Review (Gary Marcus) evidenzia come l’AI non ha comprensione del mondo; sembra parlare in modo corretto ma facilmente cade in assurdità irrealistiche. Come quando arriva a desumere che bere un succo di frutta faccia morire. O che per far passare un tavolo da una porta molto stretta bisogna segarla a metà (sic).

Il motivo è che l’AI non sa il significato delle parole. Non le può collegare al mondo. Ma le usa solo in base a correlazioni tra le parole stesse. Scrive che dopo il succo il bevitore muore perché deve aver trovato, nei suoi dati, una forte ricorrenza statistica tra la frase “sei morto” e quelle che parlano di un succo simile.

L’articolo del Mit riflette come affidarsi a questa AI è un rischio pratico. A volte va bene, a volte no e non è prevedibile quanto andrà bene e quando no. Un po’ come affidarsi per un consiglio di medicina non a un medico ma a un attore che ha imparato a fare molto bene finta di essere un medico.

Il paradosso delle performance senza competence

Siamo dunque di fronte al paradosso di una performance senza competence (per dirla con Chomsky) cioè di sistemi che funzionano ma sono del tutto privi delle capacità che noi umani impieghiamo in quegli stessi compiti. David Ferrucci, artefice di quel miracolo che fu, nel 2011, la vittoria di IBM nel gioco a quiz Jeopardy!, parla di super-pappagalli, cioè di sistemi che sostanzialmente non fanno altro che ripetere quello che gli è stato detto senza neanche tentare di comprenderlo, sessismo e razzismo inclusi.

Addestrare un super-pappagallo è estremamente costoso: su GPT-3, solo per l’inglese, sono stati spesi 12 milioni di dollari (senza contare la mostruosa quantità energia necessaria e conseguente CO2 emessa). Anche usare in proprio modelli linguistici neurali di centinaia di miliardi di parametri, ammesso che siano resi disponibili da chi ha speso i soldi per addestrarli, può risultare oneroso. Il risultato è che questi approcci al linguaggio basati solamente sui dati sono molto adatti ai pochi soggetti che oggi monopolizzano l’infosfera, molto meno a tutti gli altri. Se OpenAI intende davvero, come afferma, “democratizzare” le tecnologie intelligenti, forse dovrebbe fare una riflessione su questo. Che poi questa sia la strada giusta per una AI forte è ancora tutto da vedere (il nostro cervello fa cose incredibili consumando circa 20 Watt); intanto c’è già chi è all’opera per incentivare una libera condivisione dei suddetti modelli “pre-addestrati”, anche per il bene del pianeta.

Conclusioni

I super-pappagalli dell’AI rischiano di colonizzare l’infosfera come una specie infestante, con effetti potenzialmente devastanti. Si pensi ai generatori di notizie accattivanti ma infondate (fake news), ai chatbot di intrattenimento stereotipati e tendenziosi, ai classificatori automatici che eternano i pregiudizi di chi ha maggiori risorse. Si pensi a quanta disumanità ci sia nella performance senza competence, e a come oggi questa disumanità sia a portata di mano.

Uno sviluppo delle capacità linguistiche dell’AI che accentra le risorse nelle mani di pochi e mette da parte le competenze umane è esattamente il contrario di ciò che dovremmo auspicare: una AI decentralizzata, trasparente e criticabile.

Dall'operation monitoring & performance all'automation I trend per rispondere alle esigenze del business Scarica il White Paper

@RIPRODUZIONE RISERVATA

Speciale PNRR

Tutti
Incentivi
PA
Sostemibilità
Analisi
Formazione
Salute digitale
Sicurezza
Sostenibilità
Digital Economy
Formazione
Trasferimento tecnologico, il Mise mette sul piatto 7,5 milioni
Strategie
PSN e Strategia Cloud Italia: a che punto siamo e come supportare la PA in questo percorso
Dispersione idrica
Siccità: AI e analisi dei dati possono ridurre gli sprechi d’acqua. Ecco gli interventi necessari
PNRR
Cloud, firmato il contratto per l’avvio di lavori del Polo strategico
Formazione
Competenze digitali, stanziati 48 milioni per gli Istituti tecnologici superiori
Iniziative
Digitalizzazione delle reti idriche: oltre 600 milioni per 21 progetti
Competenze e competitività
PNRR, così i fondi UE possono rilanciare la ricerca e l’Università
Finanziamenti
PNRR, si sbloccano i fondi per l’agrisolare
Sanità post-pandemica
PNRR, Missione Salute: a che punto siamo e cosa resta da fare
Strategie
Sovranità e autonomia tecnologica nazionale: come avviare un processo virtuoso e sostenibile
La relazione
Pnrr e PA digitale, l’alert della Corte dei conti su execution e capacità di spesa
L'editoriale
Elezioni 2022, la sfida digitale ai margini del dibattito politico
Strategie
Digitale, il monito di I-Com: “Senza riforme Pnrr inefficace”
Transizione digitale
Pnrr: arrivano 321 milioni per cloud dei Comuni, spazio e mobilità innovativa
L'analisi I-COM
Il PNRR alla prova delle elezioni: come usare bene le risorse e centrare gli obiettivi digitali
Cineca
Quantum computing, una svolta per la ricerca: lo scenario europeo e i progetti in corso
L'indice europeo
Desi, l’Italia scala due posizioni grazie a fibra e 5G. Ma è (ancora) allarme competenze
L'approfondimento
PNRR 2, ecco tutte le misure per cittadini e imprese: portale sommerso, codice crisi d’impresa e sismabonus, cosa cambia
Servizi digitali
PNRR e trasformazione digitale: ecco gli investimenti e le riforme previste per la digitalizzazione della PA
Legal health
Lo spazio europeo dei dati sanitari: come circoleranno le informazioni sulla salute nell’Unione Europea
Servizi digitali
PNRR e PA digitale: non dimentichiamo la dematerializzazione
Digital Healthcare transformation
La trasformazione digitale degli ospedali
Governance digitale
PA digitale, è la volta buona? Così misure e risorse del PNRR possono fare la differenza
Servizi digitali
Comuni e digitale, come usare il PNRR senza sbagliare
La survey
Pnrr e digitale accoppiata vincente per il 70% delle pmi italiane
Missione salute
Fascicolo Sanitario Elettronico alla prova del PNRR: limiti, rischi e opportunità
Servizi pubblici
PNRR: come diventeranno i siti dei comuni italiani grazie alle nuove risorse
Skill gap
PNRR, la banda ultra larga crea 20.000 nuovi posti di lavoro
Il Piano
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUMPA2022
PNRR e trasformazione digitale: rivedi i Talk di FORUM PA 2022 in collaborazione con le aziende partner
I contratti
Avio, 340 milioni dal Pnrr per i nuovi propulsori a metano
Next Generation EU
PNRR, a che punto siamo e cosa possono aspettarsi le aziende private
Fondi
Operativo il nuovo portale del MISE con tutti i finanziamenti per le imprese
Servizi comunali
Il PNRR occasione unica per i Comuni digitali: strumenti e risorse per enti e cittadini
Healthcare data platform
PNRR dalla teoria alla pratica: tecnologie e soluzioni per l’innovazione in Sanità
Skill
Competenze digitali, partono le Reti di facilitazione
Gli obiettivi
Scuola 4.0, PNRR ultima chance: ecco come cambierà il sistema formativo
Sistema Paese
PNRR 2, è il turno della space economy
FORUM PA 2022
FORUM PA 2022: la maturità digitale dei comuni italiani rispetto al PNRR
Analisi
PNRR: dalla Ricerca all’impresa, una sfida da cogliere insieme
Innovazione
Pnrr, il Dipartimento per la Trasformazione digitale si riorganizza
FORUM PA 2022
PA verde e sostenibile: il ruolo di PNRR, PNIEC, energy management e green public procurement
Analisi
PNRR, Comuni e digitalizzazione: tutto su fondi e opportunità, in meno di 3 minuti. Guarda il video!
Rapporti
Competenze digitali e servizi automatizzati pilastri del piano Inps
Analisi
Attuazione del PNRR: il dialogo necessario tra istituzioni e società civile. Rivedi lo Scenario di FORUM PA 2022
Progetti
Pnrr, fondi per il Politecnico di Torino. Fra i progetti anche IS4Aerospace
Analisi
PNRR, Colao fa il punto sulla transizione digitale dell’Italia: «In linea con tutte le scadenze»
La Svolta
Ict, Istat “riclassifica” i professionisti. Via anche al catalogo dati sul Pnrr
Analisi
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUM PA 2022
Ecosistema territoriale sostenibile: l’Emilia Romagna tra FESR e PNRR
Il Piano
Innovazione, il Mise “centra” gli obiettivi Pnrr: attivati 17,5 miliardi
Analisi
PNRR: raggiunti gli obiettivi per il primo semestre 2022. Il punto e qualche riflessione
Analisi
PNRR: dal dialogo tra PA e società civile passa il corretto monitoraggio dei risultati, tra collaborazione e identità dei luoghi
Webinar
Comuni e PNRR: un focus sui bandi attivi o in pubblicazione
Analisi
Formazione 4.0: cos’è e come funziona il credito d’imposta
PA e Sicurezza
PA e sicurezza informatica: il ruolo dei territori di fronte alle sfide della digitalizzazione
PA e sicurezza
PNRR e servizi pubblici digitali: sfide e opportunità per Comuni e Città metropolitane
Water management
Water management in Italia: verso una transizione “smart” e “circular” 
LE RISORSE
Transizione digitale, Simest apre i fondi Pnrr alle medie imprese
Prospettive
Turismo, cultura e digital: come spendere bene le risorse del PNRR
Analisi
Smart City: quale contributo alla transizione ecologica
Decarbonizzazione
Idrogeno verde, 450 milioni € di investimenti PNRR, Cingolani firma
Unioncamere
PNRR, imprese in ritardo: ecco come le Camere di commercio possono aiutare
I fondi
Industria 4.0: solo un’impresa su tre pronta a salire sul treno Pnrr
Formazione
Trasferimento tecnologico, il Mise mette sul piatto 7,5 milioni
Strategie
PSN e Strategia Cloud Italia: a che punto siamo e come supportare la PA in questo percorso
Dispersione idrica
Siccità: AI e analisi dei dati possono ridurre gli sprechi d’acqua. Ecco gli interventi necessari
PNRR
Cloud, firmato il contratto per l’avvio di lavori del Polo strategico
Formazione
Competenze digitali, stanziati 48 milioni per gli Istituti tecnologici superiori
Iniziative
Digitalizzazione delle reti idriche: oltre 600 milioni per 21 progetti
Competenze e competitività
PNRR, così i fondi UE possono rilanciare la ricerca e l’Università
Finanziamenti
PNRR, si sbloccano i fondi per l’agrisolare
Sanità post-pandemica
PNRR, Missione Salute: a che punto siamo e cosa resta da fare
Strategie
Sovranità e autonomia tecnologica nazionale: come avviare un processo virtuoso e sostenibile
La relazione
Pnrr e PA digitale, l’alert della Corte dei conti su execution e capacità di spesa
L'editoriale
Elezioni 2022, la sfida digitale ai margini del dibattito politico
Strategie
Digitale, il monito di I-Com: “Senza riforme Pnrr inefficace”
Transizione digitale
Pnrr: arrivano 321 milioni per cloud dei Comuni, spazio e mobilità innovativa
L'analisi I-COM
Il PNRR alla prova delle elezioni: come usare bene le risorse e centrare gli obiettivi digitali
Cineca
Quantum computing, una svolta per la ricerca: lo scenario europeo e i progetti in corso
L'indice europeo
Desi, l’Italia scala due posizioni grazie a fibra e 5G. Ma è (ancora) allarme competenze
L'approfondimento
PNRR 2, ecco tutte le misure per cittadini e imprese: portale sommerso, codice crisi d’impresa e sismabonus, cosa cambia
Servizi digitali
PNRR e trasformazione digitale: ecco gli investimenti e le riforme previste per la digitalizzazione della PA
Legal health
Lo spazio europeo dei dati sanitari: come circoleranno le informazioni sulla salute nell’Unione Europea
Servizi digitali
PNRR e PA digitale: non dimentichiamo la dematerializzazione
Digital Healthcare transformation
La trasformazione digitale degli ospedali
Governance digitale
PA digitale, è la volta buona? Così misure e risorse del PNRR possono fare la differenza
Servizi digitali
Comuni e digitale, come usare il PNRR senza sbagliare
La survey
Pnrr e digitale accoppiata vincente per il 70% delle pmi italiane
Missione salute
Fascicolo Sanitario Elettronico alla prova del PNRR: limiti, rischi e opportunità
Servizi pubblici
PNRR: come diventeranno i siti dei comuni italiani grazie alle nuove risorse
Skill gap
PNRR, la banda ultra larga crea 20.000 nuovi posti di lavoro
Il Piano
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUMPA2022
PNRR e trasformazione digitale: rivedi i Talk di FORUM PA 2022 in collaborazione con le aziende partner
I contratti
Avio, 340 milioni dal Pnrr per i nuovi propulsori a metano
Next Generation EU
PNRR, a che punto siamo e cosa possono aspettarsi le aziende private
Fondi
Operativo il nuovo portale del MISE con tutti i finanziamenti per le imprese
Servizi comunali
Il PNRR occasione unica per i Comuni digitali: strumenti e risorse per enti e cittadini
Healthcare data platform
PNRR dalla teoria alla pratica: tecnologie e soluzioni per l’innovazione in Sanità
Skill
Competenze digitali, partono le Reti di facilitazione
Gli obiettivi
Scuola 4.0, PNRR ultima chance: ecco come cambierà il sistema formativo
Sistema Paese
PNRR 2, è il turno della space economy
FORUM PA 2022
FORUM PA 2022: la maturità digitale dei comuni italiani rispetto al PNRR
Analisi
PNRR: dalla Ricerca all’impresa, una sfida da cogliere insieme
Innovazione
Pnrr, il Dipartimento per la Trasformazione digitale si riorganizza
FORUM PA 2022
PA verde e sostenibile: il ruolo di PNRR, PNIEC, energy management e green public procurement
Analisi
PNRR, Comuni e digitalizzazione: tutto su fondi e opportunità, in meno di 3 minuti. Guarda il video!
Rapporti
Competenze digitali e servizi automatizzati pilastri del piano Inps
Analisi
Attuazione del PNRR: il dialogo necessario tra istituzioni e società civile. Rivedi lo Scenario di FORUM PA 2022
Progetti
Pnrr, fondi per il Politecnico di Torino. Fra i progetti anche IS4Aerospace
Analisi
PNRR, Colao fa il punto sulla transizione digitale dell’Italia: «In linea con tutte le scadenze»
La Svolta
Ict, Istat “riclassifica” i professionisti. Via anche al catalogo dati sul Pnrr
Analisi
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUM PA 2022
Ecosistema territoriale sostenibile: l’Emilia Romagna tra FESR e PNRR
Il Piano
Innovazione, il Mise “centra” gli obiettivi Pnrr: attivati 17,5 miliardi
Analisi
PNRR: raggiunti gli obiettivi per il primo semestre 2022. Il punto e qualche riflessione
Analisi
PNRR: dal dialogo tra PA e società civile passa il corretto monitoraggio dei risultati, tra collaborazione e identità dei luoghi
Webinar
Comuni e PNRR: un focus sui bandi attivi o in pubblicazione
Analisi
Formazione 4.0: cos’è e come funziona il credito d’imposta
PA e Sicurezza
PA e sicurezza informatica: il ruolo dei territori di fronte alle sfide della digitalizzazione
PA e sicurezza
PNRR e servizi pubblici digitali: sfide e opportunità per Comuni e Città metropolitane
Water management
Water management in Italia: verso una transizione “smart” e “circular” 
LE RISORSE
Transizione digitale, Simest apre i fondi Pnrr alle medie imprese
Prospettive
Turismo, cultura e digital: come spendere bene le risorse del PNRR
Analisi
Smart City: quale contributo alla transizione ecologica
Decarbonizzazione
Idrogeno verde, 450 milioni € di investimenti PNRR, Cingolani firma
Unioncamere
PNRR, imprese in ritardo: ecco come le Camere di commercio possono aiutare
I fondi
Industria 4.0: solo un’impresa su tre pronta a salire sul treno Pnrr

Articoli correlati