Intelligenza artificiale

Superare il dominio dell’inglese nell’IA: l’importanza di modelli multilingue



Indirizzo copiato

I modelli di IA attuali, spesso anglofoni, rischiano di creare discriminazioni culturali e linguistiche. Sviluppare LLM in lingue diverse, come l’italiano, è cruciale per garantire dati affidabili, personalizzazione, indipendenza digitale e innovazione. Questo approccio preserva il patrimonio linguistico e giuridico, superando le barriere linguistiche e culturali

Pubblicato il 18 lug 2024

Gea Arcella

Assessore al Comune Udine alla smart city ed innovazione digitale



artificial-intelligence-4736369_960_720

È patrimonio comune ed ampiamente acquisito che i risultati forniti dall’intelligenza artificiale generativa sono determinati dalle lingue e dai contenuti che vengono utilizzati per addestrarla e gli attuali modelli di IA sono prevalentemente anglofoni.

Discriminazioni culturali e linguistiche: i pericoli dei modelli monolingue

Già questa caratteristica dovrebbe far riflettere su come questa impostazione possa creare problemi per le culture diverse e ultimamente le analisi svolte sul funzionamento di alcuni tra i più diffusi applicativi di IA iniziano a mostrare come i documenti da loro prodotti risultano scritti in un linguaggio “nuovo”, a sua volta diverso e specifico anche rispetto alla lingua inglese[1].

Siamo, pertanto, di fronte un duplice ordine di problemi: l’addestramento a senso unico utilizzando un solo modello linguistico potrebbe portare ad una falsa comprensione del testo, soggetto ad una continua traduzione dai diversi idiomi alla lingua inglese o addirittura a delle discriminazioni, dovute alle incomprensioni derivanti dall’utilizzo di un linguaggio diverso da quello utilizzato per la programmazione dell’IA; ma la stessa lingua inglese, nel momento in cui chi effettua l’addestramento è un soggetto non madrelingua, potrebbe evolversi in un idioma a sé stante, creando un lessico caratteristico dell’IA.

L’importanza dello sviluppo di LLM multilingue

Soprattutto la prima criticità evidenziata sta alla base della crescente attenzione verso modelli linguistici non in inglese e sta diventando un argomento importante nell’ambito dell’intelligenza artificiale e del elaborazione del linguaggio naturale; infatti, sono in corso di elaborazione modelli specifici per diverse lingue, come il cinese, l’arabo, il russo e molte altre. Essi sono fondamentali per consentire l’utilizzo di sistemi di IA in contesti multilingue e per superare le barriere linguistiche.

Le sfide nella creazione di modelli multilingue

Lo sviluppo di tali modelli linguistici alternativi all’inglese presenta diverse sfide, come la disponibilità di dati di addestramento, le differenze grammaticali e sintattiche tra le lingue, l’adattamento ad altri contesti delle tecniche di machine learning sviluppate principalmente per l’inglese.

Ciò nonostante, la sfida va raccolta anche e soprattutto in ambito pubblico per diversi ordini di ragioni: sempre più pressante è l’esigenza di poter contare su dati affidabili quanto a correttezza e provenienza, dati faziosi o pregiudizievoli possono fornire soluzioni con i medesimi pregiudizi quando vengono interpellati.

La raccolta responsabile dei dati

Inoltre, la raccolta responsabile dei dati è un aspetto fondamentale dell’apprendimento automatico ed in questo campo le pubbliche amministrazioni posso svolgere un ruolo guida mettendo a disposizione non semplicemente dei big data, ma dei veri open data: verificati, veritieri, correttamente raccolti e categorizzati.

Va tenuta presente anche l’innata ambiguità dei linguaggi naturali: lo stesso termine assume significati diversi a seconda del contesto, e le macchine addestrate su corpi linguistici, necessariamente cercano di dare una interpretazione univoca a tale ambiguità.

L’esempio lampante del linguaggio giuridico

Se da questa constatazione generale, valida per qualsiasi lingua e per qualsiasi contesto, scendiamo ad un ambito più specifico come quello legale e/o amministrativo, ancora più evidente è come il linguaggio giuridico non sia uniforme in tutto il mondo ed anzi sussistono notevoli differenze tra i sistemi di civili law, come quello italiano sostanzialmente basato su una legge scritta e codificata, e quelli di common law, come quello anglo-americano incentrato sulle sentenze dei giudici e sui precedenti giurisprudenziali. Tali differenti impostazioni si ripercuotono non solo nel linguaggio e nei termini utilizzati ma anche nella stessa costruzione degli istituti giuridici che quei termini descrivono.

L’applicazione di regole e logiche linguistiche improntate a diritti esteri poste alla base di sistemi “esperti” di predisposizione dei testi legali portano il principale rischio di un impoverimento del bagaglio giuridico e di un sotterraneo ed inconsapevole travisamento del nostro diritto in base a sistemi legali diversi per impostazione e tradizione.

Benefici dei LLM nella lingua italiana: affidabilità e personalizzazione

Creare un modello linguistico di grandi dimensioni (LLM) addestrato nativamente in italiano diventa a questo punto strategico per diversi motivi:

  • Controllo dei dati: addestrare un LLM in italiano significa che i dati utilizzati per l’addestramento, provenienti da fonte verificata ed affidabile, rimarranno fisicamente in Italia, garantendo il controllo e la protezione delle informazioni.
  • Personalizzazione: un LLM italiano può essere personalizzato per le esigenze specifiche, migliorando la precisione e l’efficacia delle applicazioni AI, ad esempio in ambito giuridico/amministrativo.
  • Indipendenza digitale: l’addestramento di un LLM in italiano rappresenta un passo verso la indipendenza digitale, poiché le tecnologie IA possono essere utilizzate per sviluppare servizi e applicazioni nazionali senza dipendere da fornitori esteri.
  • Innovazione: la creazione di un LLM italiano può aprire nuove opportunità per l’innovazione e lo sviluppo di servizi IA specifici per i vari settori della pubblica amministrazione, come la sanità, l’educazione e la mobilità.

L’addestramento di modelli IA con testi in italiano, provenienti dalla nostra cultura e una mentalità differente rappresenta, quindi, non solo un’opportunità per innovare ma anche una necessità se si vuole preservare un il proprio patrimonio linguistico, giuridico e culturale, garantendo il controllo dei dati e l’indipendenza digitale.

Note


[1]Sul The Guardian è uscito recentemente un articolo dal titolo molto esplicativo: “L’IA sta parlando una lingua tutta sua”. L’Autore, Alex Hern, descrive il fenomeno secondo il quale l’intelligenza artificiale (IA) sta creando una lingua propria, definita AI-ese, grazie ad una serie di input umani forniti durante l’addestramento dei modelli di IA. Questa circostanza è stata osservata in particolare in Nigeria, dove il termine “delve”, il cui significato può essere tradotto in italiano come approfondire o scavare, è molto utilizzato e di conseguenza moltissimi dei contenuti creati dall’AI riportano con una frequenza anomala e non corrispondente all’uso comune questa parola. L’articolo analizza come l’IA sta influenzando il modo in cui comunichiamo e come questo possa avere conseguenze a lungo termine: l’AI-ese potrebbe diffondersi e avere ripercussioni impreviste, come ad esempio la discriminazione linguistica, in cui la lingua di una persona potrebbe essere associata a quella di un bot.

EU Stories - La coesione innova l'Italia

Tutti
Social
Iniziative
Video
Analisi
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 3