intelligenza artificiale

Linguaggio artificiale, le big tech accelerano: urge una soluzione etica

Le big tech puntano molto sui modelli linguistici, che in un prossimo futuro filtreranno le tutte le nostre interazioni digitali, dal mandare e-mail all’interagire sui social media. Ma nessuno sembra curarsi troppo dei risvolti etici della tecnologia. Ci pensa, allora, un gruppo di ricercatori, col progetto Bigscience

11 Giu 2021
Luigi Mischitelli

Privacy & Data Protection Specialist at IRCCS Casa Sollievo della Sofferenza

deep fake_ intelligenza artificiale

Le tecnologie linguistiche, sempre più intelligenti e integrate negli strumenti della nostra vita quotidiana, incorporano anche ben noti problemi di razzismo, sessismo, discriminazioni di varia natura.

Le big tech che le stanno alacremente sviluppando “per renderci la vita più semplice” stanno deliberatamente evitando di approfondire (e magari risolvere) i pregiudizi insiti nelle loro intelligenze (e linguaggi) artificiali.

Ecco perché in risposta è nato il progetto BigScience, realizzato da tanti ricercatori indipendenti con l’obiettivo di creare un modello di linguaggio open-source che potrebbe essere utilizzato per condurre ricerche critiche indipendenti da qualsiasi azienda.

I test di GPT-3: che cosa è davvero l’AI che sembra “umana”

LaMDA di Google

Importante fare presto nel trovare una risposta etica perché le big tech non stanno aspettando. Anzi, accelrano.

“Chiedi e ti sarà detto”. Potrebbe essere questo il motto di Google appena completato il progetto che ruota attorno al nuovo strumento di intelligenza artificiale chiamato LaMDA (Language Model for Dialogue Applications), il quale può “chattare” con gli utenti “umani” su qualsiasi argomento.

WHITEPAPER
AZIENDA RETAIL: ecco i 15 motivi per cui hai bisogno dell'Intelligenza Artificiale!
Intelligenza Artificiale
Retail

Google prevede di integrare il suo nuovo modello – varato a maggio – nei suoi principali applicativi, come il suo diffusissimo portale di ricerca, il suo assistente vocale, nonché il suo super diffuso “trio” Gmail, Docs e Drive.

L’obiettivo finale del gigante di Mountain View è quello di creare un’interfaccia conversazionale che permetta alle persone di recuperare qualsiasi tipo di informazione – testuale, visiva, audio – mediante l’utilizzo di tutti i prodotti Google.

Il lancio di LaMDA è l’ennesimo segnale che consolida le “tecnologie linguistiche” come parte integrante della nostra vita quotidiana. Tuttavia, Google non ha ancora affrontato il dibattito etico (con i relativi “bias”) che ultimamente circonda sempre più in maniera pressante tali sistemi di intelligenza artificiale. LaMDA è un grande esempio di apprendimento profondo (Deep Learning) “addestrato” su enormi quantità di dati di testo.

Studi recenti (ultimi anni) hanno già mostrato come alcune “idee” razziste e sessiste sono incorporate in questi modelli fin dalla loro progettazione. Ci troviamo di fronte a sistemi, ad esempio, che associano categorie come i medici con gli uomini e categorie come gli infermieri con le donne; così come associano eventi positivi con persone di etnia caucasica ed eventi negativi con persone di colore. A causa della loro grandezza e della loro “velocità di pensiero”, tali sistemi di intelligenza artificiale tendono a “confondersi” facilmente, con inevitabili risvolti sul lato pratico.

Le altre: Microsoft, Facebook

Tuttavia, a questa partita del “linguaggio artificiale” non partecipa solo Google. I modelli di linguaggio di più alto profilo finora presenti sul mercato sono stati GPT-2 e GPT-3 di OpenAI (del magnate Elon Musk), che creano passaggi di testo notevolmente convincenti, mirando anche all’originare composizioni musicali e codici informatici. Microsoft, invece, concede in licenza esclusiva il GPT-3 per incorporarlo in prodotti non ancora annunciati. In ultimo, ma non meno importante, il colosso Facebook, che ha sviluppato i propri linguaggi per la traduzione e la moderazione dei contenuti delle sue piattaforme.

Facebook ha di recente svelato un modello di natural language processing con allenamento non supervisionato.

Big Tech a parte però, diverse startup stanno creando decine di prodotti e servizi basati sui sopra citati modelli dei giganti della tecnologia. È probabile che nel prossimo futuro tutte le nostre interazioni digitali, dal mandare e-mail all’interagire sui social media, saranno filtrate attraverso tali modelli di linguaggio “intelligente”.

Il dibattito etico (assente) sui modelli di linguaggio intelligente

Sfortunatamente, tuttavia, si investono ancora pochissime risorse (denaro, tempo e professionisti) per comprendere come i difetti di questa tecnologia potrebbero influenzare le persone nelle applicazioni del mondo reale (bias), o per capire come progettare modelli di linguaggio migliori che “colgano queste sfide”.

Probabilmente le poche aziende “abbastanza ricche” da formare e mantenere i modelli di linguaggio hanno un forte interesse finanziario nel non approfondire il problema dei pregiudizi dell’intelligenza artificiale… In altre parole, ci troviamo di fronte a modelli di linguaggio di Intelligenza Artificiale sempre più integrati nell’infrastruttura linguistica di Internet che, al contempo, perdono di vista i problemi etici che via via emergono sul “loro cammino”.

Ma il mondo scientifico non è “sordo” al problema etico. Infatti, più di cinquecento ricercatori in tutto il mondo (riuniti nel progetto BigScience) stanno affrontando i problemi dei modelli di linguaggio, partendo dalle loro capacità e dai loro limiti. I ricercatori si chiedono come e quando i modelli di linguaggio dovrebbero essere sviluppati e distribuiti per raccogliere “benefici senza danni”.

I ricercatori della startup Cohere, invece, promettono di portare i modelli di linguaggio in qualsiasi azienda con una sola riga di codice. Cohere ha sviluppato una tecnica per addestrare e ospitare il suo modello di linguaggio con gli scarti inattivi delle risorse computazionali in un data center, così da mantenere i costi bassi i costi di affitto, manutenzione e la distribuzione molto bassi. Tra i clienti di Cohere vi è la startup Ada Support, una piattaforma per la costruzione di chatbot di supporto clienti senza codice, che a sua volta ha clienti come Facebook e Zoom. Cohere è una delle numerose startup che cercano di portare i modelli di linguaggio in varie aziende. Tra queste aziende vi è Aleph Alpha, una startup tedesca che mira a costruire un “GPT-3 tedesco”.

Se i modelli di linguaggi rigurgitano l’odio appreso sui social

Tornando alle criticità dei modelli, i ricercatori sono preoccupati dal divario che c’è tra i modelli di linguaggio attuali e quelli che sono “destinati” a diventare. I modelli di linguaggio sono le tecnologie di auto-completamento più potenti del mondo. “Ingerendo” milioni di frasi, paragrafi e persino dialoghi, imparano come ciascuno di questi elementi dovrebbe essere assemblato in un ordine sensato. Questo significa che tali modelli possono migliorare alcune attività, come la creazione di chatbot più interattivi e fluidi nella conversazione, senza la necessità di seguire un “copione” ben stabilito.

Il problema è che la tecnologia linguistica basata su intelligenza artificiale può essere molto utile quando è appropriatamente mirata, situata e inquadrata. Cosa che non (sempre) avviene nella sua applicazione, con diverse aziende che la usano in aree per le quali non è attrezzata a operare. Nel caso di Facebook, ad esempio, l’azienda di Menlo Park si affida molto ai modelli di linguaggio per automatizzare la moderazione dei contenuti della piattaforma a livello globale. Il tutto senza moderazione “umana”.

Tuttavia quando le fake news, i discorsi d’odio e persino le minacce di morte non vengono moderati, i modelli di linguaggio, ripetendo ciò su cui sono stati addestrati, finiscono per “rigurgitare” tutte le negatività della rete. In molti casi, i ricercatori non hanno indagato abbastanza a fondo per sapere come questa tossicità avrebbe potuto manifestarsi nelle applicazioni “a valle”. Con Google, invece, alcuni ricercatori hanno documentato come i pregiudizi incorporati nel suo motore di ricerca possono perpetuare il razzismo e, in casi estremi, anche la violenza su base etnica.

Google utilizza già un modello di linguaggio per ottimizzare alcuni dei suoi risultati di ricerca. Con il suo ultimo annuncio (LaMDA) e una recente proposta, l’azienda di Sundar Pichai ha reso chiaro che aumenterà solo la sua dipendenza dalla tecnologia, non affrontando per il momento i problemi etici dell’intelligenza artificiale.

Il progetto BigScience

Il progetto BigScience è iniziato come risposta diretta al crescente bisogno di un controllo scientifico dei modelli di linguaggio basati sull’intelligenza artificiale. Osservando la rapida proliferazione della tecnologia, unitamente al disinteresse delle Big Tech nella risoluzione di questioni etiche, diversi ricercatori hanno deciso di prendere in mano la situazione. Tali ricercatori hanno concepito un’idea per un modello di linguaggio open-source che potrebbe essere utilizzato per condurre ricerche critiche indipendenti da qualsiasi azienda.

Nelle aziende tecnologiche, i modelli di linguaggio sono spesso costruiti solo da una mezza dozzina di persone che hanno principalmente competenze tecniche. BigScience, invece, mira ad impiegare centinaia di ricercatori volontari, da una vasta gamma di paesi, per partecipare a un processo di costruzione di modelli altamente collaborativo.

Altri gruppi di lavoro sono dedicati allo sviluppo e alla valutazione della “multilingualità” del modello. Per iniziare, BigScience ha selezionato otto lingue o famiglie linguistiche, tra cui l’inglese, il cinese, l’arabo, l’hindi e il bantu (compreso lo swahili). Il piano è quello di lavorare a stretto contatto con ogni comunità linguistica per mappare il maggior numero possibile di dialetti regionali e garantire che siano rispettate tutte le norme, compresa la protezione dei dati personali.

Il punto non è quello di costruire un modello commercialmente fattibile per competere con colossi del calibro di GPT-3 o LaMDA. Un tale modello sarebbe troppo grande e troppo lento per essere utile alle aziende “clienti”. Tale modello, invece, viene progettato esclusivamente per la ricerca. Ogni dato e ogni decisione viene accuratamente e pubblicamente documentato, così è più facile analizzare come tutti i “pezzi” influenzano i risultati del modello.

Il progetto è senza dubbio ambizioso e altamente collaborativo. La logistica di coordinare così tanti ricercatori è di per sé una sfida. Per di più, come accennato, ogni singolo ricercatore sta contribuendo su base volontaria. Ma gli stessi ricercatori sono ottimisti sul fatto che alla fine del progetto, che durerà fino a maggio 2022, produrranno strumenti migliori e più etici di quelli finora a disposizione sul mercato.

Gli organizzatori sperano, infine, che questa collaborazione ispirerà più persone all’interno del mondo dell’intelligenza artificiale a incorporare queste pratiche nella loro strategia con i modelli di linguaggio. Anche se… l’idealismo e l’ottimismo sono di casa.[1]

Note

  1. The race to understand the exhilarating, dangerous world of language AI. MIT Technology Review. / https://www.technologyreview.com/2021/05/20/1025135/ai-large-language-models-bigscience-project
WHITEPAPER
Come l'AI può rendere più performante ed efficace una strategia di Marketing?
CRM
Intelligenza Artificiale
@RIPRODUZIONE RISERVATA

Speciale PNRR

Tutti
Incentivi
PA
Sostemibilità
Analisi
Formazione
Salute digitale
Sicurezza
Sostenibilità
Digital Economy
Formazione
Trasferimento tecnologico, il Mise mette sul piatto 7,5 milioni
Strategie
PSN e Strategia Cloud Italia: a che punto siamo e come supportare la PA in questo percorso
Dispersione idrica
Siccità: AI e analisi dei dati possono ridurre gli sprechi d’acqua. Ecco gli interventi necessari
PNRR
Cloud, firmato il contratto per l’avvio di lavori del Polo strategico
Formazione
Competenze digitali, stanziati 48 milioni per gli Istituti tecnologici superiori
Iniziative
Digitalizzazione delle reti idriche: oltre 600 milioni per 21 progetti
Competenze e competitività
PNRR, così i fondi UE possono rilanciare la ricerca e l’Università
Finanziamenti
PNRR, si sbloccano i fondi per l’agrisolare
Sanità post-pandemica
PNRR, Missione Salute: a che punto siamo e cosa resta da fare
Strategie
Sovranità e autonomia tecnologica nazionale: come avviare un processo virtuoso e sostenibile
La relazione
Pnrr e PA digitale, l’alert della Corte dei conti su execution e capacità di spesa
L'editoriale
Elezioni 2022, la sfida digitale ai margini del dibattito politico
Strategie
Digitale, il monito di I-Com: “Senza riforme Pnrr inefficace”
Transizione digitale
Pnrr: arrivano 321 milioni per cloud dei Comuni, spazio e mobilità innovativa
L'analisi I-COM
Il PNRR alla prova delle elezioni: come usare bene le risorse e centrare gli obiettivi digitali
Cineca
Quantum computing, una svolta per la ricerca: lo scenario europeo e i progetti in corso
L'indice europeo
Desi, l’Italia scala due posizioni grazie a fibra e 5G. Ma è (ancora) allarme competenze
L'approfondimento
PNRR 2, ecco tutte le misure per cittadini e imprese: portale sommerso, codice crisi d’impresa e sismabonus, cosa cambia
Servizi digitali
PNRR e trasformazione digitale: ecco gli investimenti e le riforme previste per la digitalizzazione della PA
Legal health
Lo spazio europeo dei dati sanitari: come circoleranno le informazioni sulla salute nell’Unione Europea
Servizi digitali
PNRR e PA digitale: non dimentichiamo la dematerializzazione
Digital Healthcare transformation
La trasformazione digitale degli ospedali
Governance digitale
PA digitale, è la volta buona? Così misure e risorse del PNRR possono fare la differenza
Servizi digitali
Comuni e digitale, come usare il PNRR senza sbagliare
La survey
Pnrr e digitale accoppiata vincente per il 70% delle pmi italiane
Missione salute
Fascicolo Sanitario Elettronico alla prova del PNRR: limiti, rischi e opportunità
Servizi pubblici
PNRR: come diventeranno i siti dei comuni italiani grazie alle nuove risorse
Skill gap
PNRR, la banda ultra larga crea 20.000 nuovi posti di lavoro
Il Piano
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUMPA2022
PNRR e trasformazione digitale: rivedi i Talk di FORUM PA 2022 in collaborazione con le aziende partner
I contratti
Avio, 340 milioni dal Pnrr per i nuovi propulsori a metano
Next Generation EU
PNRR, a che punto siamo e cosa possono aspettarsi le aziende private
Fondi
Operativo il nuovo portale del MISE con tutti i finanziamenti per le imprese
Servizi comunali
Il PNRR occasione unica per i Comuni digitali: strumenti e risorse per enti e cittadini
Healthcare data platform
PNRR dalla teoria alla pratica: tecnologie e soluzioni per l’innovazione in Sanità
Skill
Competenze digitali, partono le Reti di facilitazione
Gli obiettivi
Scuola 4.0, PNRR ultima chance: ecco come cambierà il sistema formativo
Sistema Paese
PNRR 2, è il turno della space economy
FORUM PA 2022
FORUM PA 2022: la maturità digitale dei comuni italiani rispetto al PNRR
Analisi
PNRR: dalla Ricerca all’impresa, una sfida da cogliere insieme
Innovazione
Pnrr, il Dipartimento per la Trasformazione digitale si riorganizza
FORUM PA 2022
PA verde e sostenibile: il ruolo di PNRR, PNIEC, energy management e green public procurement
Analisi
PNRR, Comuni e digitalizzazione: tutto su fondi e opportunità, in meno di 3 minuti. Guarda il video!
Rapporti
Competenze digitali e servizi automatizzati pilastri del piano Inps
Analisi
Attuazione del PNRR: il dialogo necessario tra istituzioni e società civile. Rivedi lo Scenario di FORUM PA 2022
Progetti
Pnrr, fondi per il Politecnico di Torino. Fra i progetti anche IS4Aerospace
Analisi
PNRR, Colao fa il punto sulla transizione digitale dell’Italia: «In linea con tutte le scadenze»
La Svolta
Ict, Istat “riclassifica” i professionisti. Via anche al catalogo dati sul Pnrr
Analisi
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUM PA 2022
Ecosistema territoriale sostenibile: l’Emilia Romagna tra FESR e PNRR
Il Piano
Innovazione, il Mise “centra” gli obiettivi Pnrr: attivati 17,5 miliardi
Analisi
PNRR: raggiunti gli obiettivi per il primo semestre 2022. Il punto e qualche riflessione
Analisi
PNRR: dal dialogo tra PA e società civile passa il corretto monitoraggio dei risultati, tra collaborazione e identità dei luoghi
Webinar
Comuni e PNRR: un focus sui bandi attivi o in pubblicazione
Analisi
Formazione 4.0: cos’è e come funziona il credito d’imposta
PA e Sicurezza
PA e sicurezza informatica: il ruolo dei territori di fronte alle sfide della digitalizzazione
PA e sicurezza
PNRR e servizi pubblici digitali: sfide e opportunità per Comuni e Città metropolitane
Water management
Water management in Italia: verso una transizione “smart” e “circular” 
LE RISORSE
Transizione digitale, Simest apre i fondi Pnrr alle medie imprese
Prospettive
Turismo, cultura e digital: come spendere bene le risorse del PNRR
Analisi
Smart City: quale contributo alla transizione ecologica
Decarbonizzazione
Idrogeno verde, 450 milioni € di investimenti PNRR, Cingolani firma
Unioncamere
PNRR, imprese in ritardo: ecco come le Camere di commercio possono aiutare
I fondi
Industria 4.0: solo un’impresa su tre pronta a salire sul treno Pnrr
Formazione
Trasferimento tecnologico, il Mise mette sul piatto 7,5 milioni
Strategie
PSN e Strategia Cloud Italia: a che punto siamo e come supportare la PA in questo percorso
Dispersione idrica
Siccità: AI e analisi dei dati possono ridurre gli sprechi d’acqua. Ecco gli interventi necessari
PNRR
Cloud, firmato il contratto per l’avvio di lavori del Polo strategico
Formazione
Competenze digitali, stanziati 48 milioni per gli Istituti tecnologici superiori
Iniziative
Digitalizzazione delle reti idriche: oltre 600 milioni per 21 progetti
Competenze e competitività
PNRR, così i fondi UE possono rilanciare la ricerca e l’Università
Finanziamenti
PNRR, si sbloccano i fondi per l’agrisolare
Sanità post-pandemica
PNRR, Missione Salute: a che punto siamo e cosa resta da fare
Strategie
Sovranità e autonomia tecnologica nazionale: come avviare un processo virtuoso e sostenibile
La relazione
Pnrr e PA digitale, l’alert della Corte dei conti su execution e capacità di spesa
L'editoriale
Elezioni 2022, la sfida digitale ai margini del dibattito politico
Strategie
Digitale, il monito di I-Com: “Senza riforme Pnrr inefficace”
Transizione digitale
Pnrr: arrivano 321 milioni per cloud dei Comuni, spazio e mobilità innovativa
L'analisi I-COM
Il PNRR alla prova delle elezioni: come usare bene le risorse e centrare gli obiettivi digitali
Cineca
Quantum computing, una svolta per la ricerca: lo scenario europeo e i progetti in corso
L'indice europeo
Desi, l’Italia scala due posizioni grazie a fibra e 5G. Ma è (ancora) allarme competenze
L'approfondimento
PNRR 2, ecco tutte le misure per cittadini e imprese: portale sommerso, codice crisi d’impresa e sismabonus, cosa cambia
Servizi digitali
PNRR e trasformazione digitale: ecco gli investimenti e le riforme previste per la digitalizzazione della PA
Legal health
Lo spazio europeo dei dati sanitari: come circoleranno le informazioni sulla salute nell’Unione Europea
Servizi digitali
PNRR e PA digitale: non dimentichiamo la dematerializzazione
Digital Healthcare transformation
La trasformazione digitale degli ospedali
Governance digitale
PA digitale, è la volta buona? Così misure e risorse del PNRR possono fare la differenza
Servizi digitali
Comuni e digitale, come usare il PNRR senza sbagliare
La survey
Pnrr e digitale accoppiata vincente per il 70% delle pmi italiane
Missione salute
Fascicolo Sanitario Elettronico alla prova del PNRR: limiti, rischi e opportunità
Servizi pubblici
PNRR: come diventeranno i siti dei comuni italiani grazie alle nuove risorse
Skill gap
PNRR, la banda ultra larga crea 20.000 nuovi posti di lavoro
Il Piano
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUMPA2022
PNRR e trasformazione digitale: rivedi i Talk di FORUM PA 2022 in collaborazione con le aziende partner
I contratti
Avio, 340 milioni dal Pnrr per i nuovi propulsori a metano
Next Generation EU
PNRR, a che punto siamo e cosa possono aspettarsi le aziende private
Fondi
Operativo il nuovo portale del MISE con tutti i finanziamenti per le imprese
Servizi comunali
Il PNRR occasione unica per i Comuni digitali: strumenti e risorse per enti e cittadini
Healthcare data platform
PNRR dalla teoria alla pratica: tecnologie e soluzioni per l’innovazione in Sanità
Skill
Competenze digitali, partono le Reti di facilitazione
Gli obiettivi
Scuola 4.0, PNRR ultima chance: ecco come cambierà il sistema formativo
Sistema Paese
PNRR 2, è il turno della space economy
FORUM PA 2022
FORUM PA 2022: la maturità digitale dei comuni italiani rispetto al PNRR
Analisi
PNRR: dalla Ricerca all’impresa, una sfida da cogliere insieme
Innovazione
Pnrr, il Dipartimento per la Trasformazione digitale si riorganizza
FORUM PA 2022
PA verde e sostenibile: il ruolo di PNRR, PNIEC, energy management e green public procurement
Analisi
PNRR, Comuni e digitalizzazione: tutto su fondi e opportunità, in meno di 3 minuti. Guarda il video!
Rapporti
Competenze digitali e servizi automatizzati pilastri del piano Inps
Analisi
Attuazione del PNRR: il dialogo necessario tra istituzioni e società civile. Rivedi lo Scenario di FORUM PA 2022
Progetti
Pnrr, fondi per il Politecnico di Torino. Fra i progetti anche IS4Aerospace
Analisi
PNRR, Colao fa il punto sulla transizione digitale dell’Italia: «In linea con tutte le scadenze»
La Svolta
Ict, Istat “riclassifica” i professionisti. Via anche al catalogo dati sul Pnrr
Analisi
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUM PA 2022
Ecosistema territoriale sostenibile: l’Emilia Romagna tra FESR e PNRR
Il Piano
Innovazione, il Mise “centra” gli obiettivi Pnrr: attivati 17,5 miliardi
Analisi
PNRR: raggiunti gli obiettivi per il primo semestre 2022. Il punto e qualche riflessione
Analisi
PNRR: dal dialogo tra PA e società civile passa il corretto monitoraggio dei risultati, tra collaborazione e identità dei luoghi
Webinar
Comuni e PNRR: un focus sui bandi attivi o in pubblicazione
Analisi
Formazione 4.0: cos’è e come funziona il credito d’imposta
PA e Sicurezza
PA e sicurezza informatica: il ruolo dei territori di fronte alle sfide della digitalizzazione
PA e sicurezza
PNRR e servizi pubblici digitali: sfide e opportunità per Comuni e Città metropolitane
Water management
Water management in Italia: verso una transizione “smart” e “circular” 
LE RISORSE
Transizione digitale, Simest apre i fondi Pnrr alle medie imprese
Prospettive
Turismo, cultura e digital: come spendere bene le risorse del PNRR
Analisi
Smart City: quale contributo alla transizione ecologica
Decarbonizzazione
Idrogeno verde, 450 milioni € di investimenti PNRR, Cingolani firma
Unioncamere
PNRR, imprese in ritardo: ecco come le Camere di commercio possono aiutare
I fondi
Industria 4.0: solo un’impresa su tre pronta a salire sul treno Pnrr

Articoli correlati