università di bari

IA generativa, il modello “LLaMAntino” in italiano e il ruolo della lingua nel training



Indirizzo copiato

I Large Language Models sono al momento addestrati prevalentemente in lingua inglese, data la sua predominanza sui dati disponibili online. Il progetto “LLaMAntino”, dimostra che seppur complesso, è possibile addestrare un’IA con dati che siano rappresentativi della cultura italiana

Pubblicato il 26 apr 2024

Vincenzo Patruno

Data Manager e Open Data Expert – Istat



LLaMAntino-2-7b-hf-dolly-ITA

Da un po’ di tempo a questa parte l’attenzione del mondo che ruota attorno all’innovazione e alla trasformazione digitale si è fortemente focalizzata sull’intelligenza artificiale generativa e sui Large Language Models (LLM). Il successo che ChatGPT ha riscosso in tutto il mondo è stato solo l’inizio di un profondo cambiamento che certamente avrà nei prossimi anni un fortissimo impatto non soltanto nelle nostre attività quotidiane, ma soprattutto nel modo in cui verranno ridisegnati tanti processi produttivi e servizi erogati da parte di aziende e pubbliche amministrazioni. Non solo.

La nascita di ChatGPT ha innescato un’accesa competizione per sviluppare chatbot e servizi basati su modelli sempre più evoluti e accurati. GPT-4, LLama2, Gemini, Mixtral, Bloom sono solo alcuni dei numerosi modelli al momento disponibili attorno ai quali stanno rapidamente nascendo servizi a cittadini e imprese, startup e interessanti opportunità di business.

Il ruolo della lingua nel training dei modelli

Sebbene questi siano modelli mutlilingua, addestrati in modo tale da poter operare in più lingue diverse, la netta prevalenza della lingua inglese è un elemento comune a tutti i modelli. I modelli sono quindi addestrati prevalentemente in lingua inglese, data la sua predominanza sui dati disponibili online. Questo aspetto comporta che tante lingue sono sottorappresentate. Ad esempio, nel modello LLama2, fatto 100 i dati di training, il 90% di questi sono dati in lingua inglese.

Faccio qui alcune considerazioni che ho avuto modo di fare in alcune occasioni in cui ho avuto il piacere di essere coinvolto su queste tematiche. Innanzitutto, abbiamo sicuramente la necessità di avere una IA che sia addestrata sulla lingua e sulla cultura italiana. Una IA che sia efficace ed affidabile dovrebbe infatti essere addestrata con dati che siano rappresentativi della cultura italiana e che possano esprimere la conoscenza del nostro Paese. È poi necessario che i modelli utilizzati siano Open, e questo è un aspetto fondamentale in particolar modo se si pensa di utilizzare i modelli in questione all’interno della Pubblica Amministrazione. La PA non può infatti permettersi di automatizzare processi e costruire servizi su scatole nere di cui non sappiamo praticamente nulla. Sarebbe un rischio enorme che non ha alcun senso correre.

Le sfide dell’addestramento: dati e risorse computazionali

Ora, costruire un modello LLM da zero è un’operazione molto complessa e molto costosa. È necessario, infatti, avere a disposizione due cose oltre ovviamente alle competenze necessarie: una enorme quantità di dati e un’enorme capacità computazionale. Servono supercalcolatori con un numero di GPU tale da assicurare quella capacità di calcolo parallelo richiesta per processare l’enorme quantità di dati necessaria ad addestrare il modello. E serve tempo. Il training del modello GPT-4 ha richiesto circa 5-6 mesi. Mesi in cui le GPU NVIDIA V100 hanno lavorato giorno e notte ininterrottamente per svariate sessioni di training. E per un costo complessivo attorno ai 100 milioni di dollari. Una bella cifra, non c’è che dire. Fatto sta che questo aspetto fa sì che costruire da zero e addestrare un LLM è un’operazione che possono permettersi soltanto grosse aziende e, aggiungo, i governi nazionali che possono finanziare ad esempio Università ed enti di ricerca e sostenere così gli investimenti necessari. Servono però anche i dati. E ne servono tanti, tantissimi, ma soprattutto servono dati di qualità.

Il caso di LLaMAntino: un LLM italiano

Ho avuto modo di parlarne con il gruppo di ricerca del DIB, il Dipartimento di Informatica dell’Università degli Studi di Bari che ha curato l’addestramento e il rilascio di LLaMAntino, uno degli LLM attualmente disponibili e addestrati in modo specifico per supportare la lingua italiana. Gli altri progetti su LLM italiani sono stati avviati (e sono in continuo aggiornamento) in altre università, in particolare da gruppi di ricerca dell’Università La Sapienza di Roma e dell’Università di Pisa, senza dimenticare l’LLM su cui sta lavorando attualmente Fastweb.

È stata l’occasione per chiedere loro cosa c’è “sotto il cofano”, come ci si organizza e cosa comporta costruire un Large Language Model. Riporto qui un paio di punti fondamentali che a mio avviso danno un’idea della complessità di un progetto di questo tipo. Dove i dati sono il primo grande problema. Costruire un LLM italiano da zero necessita di tanti, tantissimi dati di qualità. E i dati disponibili in lingua italiana non sono in quantità sufficiente per addestrare un LLM. Servono terabytes di libri, pubblicazioni, articoli di giornale, intere biblioteche, siti web, archivi di documenti, codici e così via. E servirebbe che tutto questo materiale sia Open, quindi riutilizzabile per questo scopo o in alternativa che ci sia un qualche agreement con chi detiene qual particolare tipo di dato, ad esempio con le case editrici per quanto riguarda i libri.

Il condizionale è d’obbligo. Il web per tanti aspetti somiglia ad un nuovo e moderno Far West dove è diventato normale appropriarsi di dati in modo famelico e indiscriminato. Il caso del New York Times che fa causa ad OpenAI per aver utilizzato gli articoli pubblicati sul sito e che erano consultabili soltanto dagli abbonati è soltanto la punta dell’iceberg.

L’approccio del Dipartimento di Informatica dell’Università di Bari

Ad ogni modo, per ovviare a questo problema l’approccio utilizzato dal Dipartimento di Informatica dell’’Università di Bari è stato quello di non partire da zero ma di addestrare con dati in lingua italiana un modello già esistente. Per poter fare questo è stato necessario partire da un modello che fosse Open Source, e la scelta è caduta su Llama2 di Meta.

Il modello linguistico Llama2 è stato rilasciato in tre diverse dimensioni di parametri: 7 miliardi, 13 miliardi e 70 miliardi e l’Università di Bari ha lavorato progressivamente su tutte queste versioni, utilizzando tecniche di “language adaptation”.

Si parte cioè dal modello pre-addestrato e lo si addestra ulteriormente utilizzando dataset disponibili o costruiti, avvalendosi in alcuni casi anche di sistemi automatici di traduzione per quei dataset necessari all’addestramento del modello ma che non sono disponibili in lingua italiana. È il caso di Ultrachat, dataset Open Source utilizzato per addestrare in modo specifico le capacità conversazionali di LLaMAntino.

C’è poi un altro aspetto. Come abbiamo detto in precedenza, addestrare un modello richiede importanti risorse computazionali, e questo vale anche se si lavora su un modello pre-addestrato come in questo caso. Su questo fronte ci si è potuti avvalere dell’equivalente di una Ferrari in ambito computazionale, il supercomputer Leonardo, uno dei più potenti al mondo gestito dal CINECA, il cui accesso è regolato attraverso le call for proposal di ISCRA (Italian SuperComputing Resource Allocation).

Il futuro dei LLM: verso i Large Multimodal Models

I prossimi passi saranno quelli di migliorare le performance del modello, monitorandole attraverso valutazioni comparative con modelli simili ma soprattutto di aggiornarlo con nuovi dati e implementando strategie di adattamento specifiche in grado di capire anche le immagini. Aggiungendo in questo modo nuove funzionalità e nuove capacità generative, andando verso quelli che vengono chiamati modelli LMM, i Large Multimodal Models.

Tutto ciò per fornire una Intelligenza Artificiale generativa Open Source che sia competitiva in termini di performance e che possa essere una importante opportunità per il territorio e più in generale per le pubbliche amministrazioni e le imprese del nostro Paese.

Speciale PNRR

Tutti
Incentivi
Salute digitale
Formazione
Analisi
Sostenibilità
PA
Sostemibilità
Sicurezza
Digital Economy
CODICE STARTUP
Imprenditoria femminile: come attingere ai fondi per le donne che fanno impresa
DECRETI
PNRR e Fascicolo Sanitario Elettronico: investimenti per oltre 600 milioni
IL DOCUMENTO
Competenze digitali, ecco il nuovo piano operativo nazionale
STRUMENTI
Da Istat e RGS gli indicatori per misurare la sostenibilità nel PNRR
STRATEGIE
PNRR – Piano nazionale di Ripresa e Resilienza: cos’è e novità
FONDI
Pnrr, ok della Ue alla seconda rata da 21 miliardi: focus su 5G e banda ultralarga
GREEN ENERGY
Energia pulita: Banca Sella finanzia i progetti green incentivati dal PNRR
TECNOLOGIA SOLIDALE
Due buone notizie digitali: 500 milioni per gli ITS e l’inizio dell’intranet veloce in scuole e ospedali
INNOVAZIONE
Competenze digitali e InPA cruciali per raggiungere gli obiettivi del Pnrr
STRATEGIE
PA digitale 2026, come gestire i fondi PNRR in 5 fasi: ecco la proposta
ANALISI
Value-based healthcare: le esperienze in Italia e il ruolo del PNRR
Strategie
Accordi per l’innovazione, per le imprese altri 250 milioni
Strategie
PNRR, opportunità e sfide per le smart city
Strategie
Brevetti, il Mise mette sul piatto 8,5 milioni
Strategie
PNRR e opere pubbliche, la grande sfida per i Comuni e perché bisogna pensare digitale
Formazione
Trasferimento tecnologico, il Mise mette sul piatto 7,5 milioni
Strategie
PSN e Strategia Cloud Italia: a che punto siamo e come supportare la PA in questo percorso
Dispersione idrica
Siccità: AI e analisi dei dati possono ridurre gli sprechi d’acqua. Ecco gli interventi necessari
PNRR
Cloud, firmato il contratto per l’avvio di lavori del Polo strategico
Formazione
Competenze digitali, stanziati 48 milioni per gli Istituti tecnologici superiori
Iniziative
Digitalizzazione delle reti idriche: oltre 600 milioni per 21 progetti
Competenze e competitività
PNRR, così i fondi UE possono rilanciare la ricerca e l’Università
Finanziamenti
PNRR, si sbloccano i fondi per l’agrisolare
Sanità post-pandemica
PNRR, Missione Salute: a che punto siamo e cosa resta da fare
Strategie
Sovranità e autonomia tecnologica nazionale: come avviare un processo virtuoso e sostenibile
La relazione
Pnrr e PA digitale, l’alert della Corte dei conti su execution e capacità di spesa
L'editoriale
Elezioni 2022, la sfida digitale ai margini del dibattito politico
Strategie
Digitale, il monito di I-Com: “Senza riforme Pnrr inefficace”
Transizione digitale
Pnrr: arrivano 321 milioni per cloud dei Comuni, spazio e mobilità innovativa
L'analisi I-COM
Il PNRR alla prova delle elezioni: come usare bene le risorse e centrare gli obiettivi digitali
Cineca
Quantum computing, una svolta per la ricerca: lo scenario europeo e i progetti in corso
L'indice europeo
Desi, l’Italia scala due posizioni grazie a fibra e 5G. Ma è (ancora) allarme competenze
L'approfondimento
PNRR 2, ecco tutte le misure per cittadini e imprese: portale sommerso, codice crisi d’impresa e sismabonus, cosa cambia
Servizi digitali
PNRR e trasformazione digitale: ecco gli investimenti e le riforme previste per la digitalizzazione della PA
Legal health
Lo spazio europeo dei dati sanitari: come circoleranno le informazioni sulla salute nell’Unione Europea
Servizi digitali
PNRR e PA digitale: non dimentichiamo la dematerializzazione
Digital Healthcare transformation
La trasformazione digitale degli ospedali
Governance digitale
PA digitale, è la volta buona? Così misure e risorse del PNRR possono fare la differenza
Servizi digitali
Comuni e digitale, come usare il PNRR senza sbagliare
La survey
Pnrr e digitale accoppiata vincente per il 70% delle pmi italiane
Missione salute
Fascicolo Sanitario Elettronico alla prova del PNRR: limiti, rischi e opportunità
Servizi pubblici
PNRR: come diventeranno i siti dei comuni italiani grazie alle nuove risorse
Skill gap
PNRR, la banda ultra larga crea 20.000 nuovi posti di lavoro
Il Piano
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUMPA2022
PNRR e trasformazione digitale: rivedi i Talk di FORUM PA 2022 in collaborazione con le aziende partner
I contratti
Avio, 340 milioni dal Pnrr per i nuovi propulsori a metano
Next Generation EU
PNRR, a che punto siamo e cosa possono aspettarsi le aziende private
Fondi
Operativo il nuovo portale del MISE con tutti i finanziamenti per le imprese
Servizi comunali
Il PNRR occasione unica per i Comuni digitali: strumenti e risorse per enti e cittadini
Healthcare data platform
PNRR dalla teoria alla pratica: tecnologie e soluzioni per l’innovazione in Sanità
Skill
Competenze digitali, partono le Reti di facilitazione
Gli obiettivi
Scuola 4.0, PNRR ultima chance: ecco come cambierà il sistema formativo
Sistema Paese
PNRR 2, è il turno della space economy
FORUM PA 2022
FORUM PA 2022: la maturità digitale dei comuni italiani rispetto al PNRR
Analisi
PNRR: dalla Ricerca all’impresa, una sfida da cogliere insieme
Innovazione
Pnrr, il Dipartimento per la Trasformazione digitale si riorganizza
FORUM PA 2022
PA verde e sostenibile: il ruolo di PNRR, PNIEC, energy management e green public procurement
Analisi
PNRR, Comuni e digitalizzazione: tutto su fondi e opportunità, in meno di 3 minuti. Guarda il video!
Rapporti
Competenze digitali e servizi automatizzati pilastri del piano Inps
Analisi
Attuazione del PNRR: il dialogo necessario tra istituzioni e società civile. Rivedi lo Scenario di FORUM PA 2022
Progetti
Pnrr, fondi per il Politecnico di Torino. Fra i progetti anche IS4Aerospace
Analisi
PNRR, Colao fa il punto sulla transizione digitale dell’Italia: «In linea con tutte le scadenze»
La Svolta
Ict, Istat “riclassifica” i professionisti. Via anche al catalogo dati sul Pnrr
Analisi
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUM PA 2022
Ecosistema territoriale sostenibile: l’Emilia Romagna tra FESR e PNRR
Il Piano
Innovazione, il Mise “centra” gli obiettivi Pnrr: attivati 17,5 miliardi
Analisi
PNRR: raggiunti gli obiettivi per il primo semestre 2022. Il punto e qualche riflessione
Analisi
PNRR: dal dialogo tra PA e società civile passa il corretto monitoraggio dei risultati, tra collaborazione e identità dei luoghi
Webinar
Comuni e PNRR: un focus sui bandi attivi o in pubblicazione
Analisi
Formazione 4.0: cos’è e come funziona il credito d’imposta
PA e Sicurezza
PA e sicurezza informatica: il ruolo dei territori di fronte alle sfide della digitalizzazione
PA e sicurezza
PNRR e servizi pubblici digitali: sfide e opportunità per Comuni e Città metropolitane
Water management
Water management in Italia: verso una transizione “smart” e “circular” 
LE RISORSE
Transizione digitale, Simest apre i fondi Pnrr alle medie imprese
Prospettive
Turismo, cultura e digital: come spendere bene le risorse del PNRR
Analisi
Smart City: quale contributo alla transizione ecologica
Decarbonizzazione
Idrogeno verde, 450 milioni € di investimenti PNRR, Cingolani firma
Unioncamere
PNRR, imprese in ritardo: ecco come le Camere di commercio possono aiutare
I fondi
Industria 4.0: solo un’impresa su tre pronta a salire sul treno Pnrr
CODICE STARTUP
Imprenditoria femminile: come attingere ai fondi per le donne che fanno impresa
DECRETI
PNRR e Fascicolo Sanitario Elettronico: investimenti per oltre 600 milioni
IL DOCUMENTO
Competenze digitali, ecco il nuovo piano operativo nazionale
STRUMENTI
Da Istat e RGS gli indicatori per misurare la sostenibilità nel PNRR
STRATEGIE
PNRR – Piano nazionale di Ripresa e Resilienza: cos’è e novità
FONDI
Pnrr, ok della Ue alla seconda rata da 21 miliardi: focus su 5G e banda ultralarga
GREEN ENERGY
Energia pulita: Banca Sella finanzia i progetti green incentivati dal PNRR
TECNOLOGIA SOLIDALE
Due buone notizie digitali: 500 milioni per gli ITS e l’inizio dell’intranet veloce in scuole e ospedali
INNOVAZIONE
Competenze digitali e InPA cruciali per raggiungere gli obiettivi del Pnrr
STRATEGIE
PA digitale 2026, come gestire i fondi PNRR in 5 fasi: ecco la proposta
ANALISI
Value-based healthcare: le esperienze in Italia e il ruolo del PNRR
Strategie
Accordi per l’innovazione, per le imprese altri 250 milioni
Strategie
PNRR, opportunità e sfide per le smart city
Strategie
Brevetti, il Mise mette sul piatto 8,5 milioni
Strategie
PNRR e opere pubbliche, la grande sfida per i Comuni e perché bisogna pensare digitale
Formazione
Trasferimento tecnologico, il Mise mette sul piatto 7,5 milioni
Strategie
PSN e Strategia Cloud Italia: a che punto siamo e come supportare la PA in questo percorso
Dispersione idrica
Siccità: AI e analisi dei dati possono ridurre gli sprechi d’acqua. Ecco gli interventi necessari
PNRR
Cloud, firmato il contratto per l’avvio di lavori del Polo strategico
Formazione
Competenze digitali, stanziati 48 milioni per gli Istituti tecnologici superiori
Iniziative
Digitalizzazione delle reti idriche: oltre 600 milioni per 21 progetti
Competenze e competitività
PNRR, così i fondi UE possono rilanciare la ricerca e l’Università
Finanziamenti
PNRR, si sbloccano i fondi per l’agrisolare
Sanità post-pandemica
PNRR, Missione Salute: a che punto siamo e cosa resta da fare
Strategie
Sovranità e autonomia tecnologica nazionale: come avviare un processo virtuoso e sostenibile
La relazione
Pnrr e PA digitale, l’alert della Corte dei conti su execution e capacità di spesa
L'editoriale
Elezioni 2022, la sfida digitale ai margini del dibattito politico
Strategie
Digitale, il monito di I-Com: “Senza riforme Pnrr inefficace”
Transizione digitale
Pnrr: arrivano 321 milioni per cloud dei Comuni, spazio e mobilità innovativa
L'analisi I-COM
Il PNRR alla prova delle elezioni: come usare bene le risorse e centrare gli obiettivi digitali
Cineca
Quantum computing, una svolta per la ricerca: lo scenario europeo e i progetti in corso
L'indice europeo
Desi, l’Italia scala due posizioni grazie a fibra e 5G. Ma è (ancora) allarme competenze
L'approfondimento
PNRR 2, ecco tutte le misure per cittadini e imprese: portale sommerso, codice crisi d’impresa e sismabonus, cosa cambia
Servizi digitali
PNRR e trasformazione digitale: ecco gli investimenti e le riforme previste per la digitalizzazione della PA
Legal health
Lo spazio europeo dei dati sanitari: come circoleranno le informazioni sulla salute nell’Unione Europea
Servizi digitali
PNRR e PA digitale: non dimentichiamo la dematerializzazione
Digital Healthcare transformation
La trasformazione digitale degli ospedali
Governance digitale
PA digitale, è la volta buona? Così misure e risorse del PNRR possono fare la differenza
Servizi digitali
Comuni e digitale, come usare il PNRR senza sbagliare
La survey
Pnrr e digitale accoppiata vincente per il 70% delle pmi italiane
Missione salute
Fascicolo Sanitario Elettronico alla prova del PNRR: limiti, rischi e opportunità
Servizi pubblici
PNRR: come diventeranno i siti dei comuni italiani grazie alle nuove risorse
Skill gap
PNRR, la banda ultra larga crea 20.000 nuovi posti di lavoro
Il Piano
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUMPA2022
PNRR e trasformazione digitale: rivedi i Talk di FORUM PA 2022 in collaborazione con le aziende partner
I contratti
Avio, 340 milioni dal Pnrr per i nuovi propulsori a metano
Next Generation EU
PNRR, a che punto siamo e cosa possono aspettarsi le aziende private
Fondi
Operativo il nuovo portale del MISE con tutti i finanziamenti per le imprese
Servizi comunali
Il PNRR occasione unica per i Comuni digitali: strumenti e risorse per enti e cittadini
Healthcare data platform
PNRR dalla teoria alla pratica: tecnologie e soluzioni per l’innovazione in Sanità
Skill
Competenze digitali, partono le Reti di facilitazione
Gli obiettivi
Scuola 4.0, PNRR ultima chance: ecco come cambierà il sistema formativo
Sistema Paese
PNRR 2, è il turno della space economy
FORUM PA 2022
FORUM PA 2022: la maturità digitale dei comuni italiani rispetto al PNRR
Analisi
PNRR: dalla Ricerca all’impresa, una sfida da cogliere insieme
Innovazione
Pnrr, il Dipartimento per la Trasformazione digitale si riorganizza
FORUM PA 2022
PA verde e sostenibile: il ruolo di PNRR, PNIEC, energy management e green public procurement
Analisi
PNRR, Comuni e digitalizzazione: tutto su fondi e opportunità, in meno di 3 minuti. Guarda il video!
Rapporti
Competenze digitali e servizi automatizzati pilastri del piano Inps
Analisi
Attuazione del PNRR: il dialogo necessario tra istituzioni e società civile. Rivedi lo Scenario di FORUM PA 2022
Progetti
Pnrr, fondi per il Politecnico di Torino. Fra i progetti anche IS4Aerospace
Analisi
PNRR, Colao fa il punto sulla transizione digitale dell’Italia: «In linea con tutte le scadenze»
La Svolta
Ict, Istat “riclassifica” i professionisti. Via anche al catalogo dati sul Pnrr
Analisi
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUM PA 2022
Ecosistema territoriale sostenibile: l’Emilia Romagna tra FESR e PNRR
Il Piano
Innovazione, il Mise “centra” gli obiettivi Pnrr: attivati 17,5 miliardi
Analisi
PNRR: raggiunti gli obiettivi per il primo semestre 2022. Il punto e qualche riflessione
Analisi
PNRR: dal dialogo tra PA e società civile passa il corretto monitoraggio dei risultati, tra collaborazione e identità dei luoghi
Webinar
Comuni e PNRR: un focus sui bandi attivi o in pubblicazione
Analisi
Formazione 4.0: cos’è e come funziona il credito d’imposta
PA e Sicurezza
PA e sicurezza informatica: il ruolo dei territori di fronte alle sfide della digitalizzazione
PA e sicurezza
PNRR e servizi pubblici digitali: sfide e opportunità per Comuni e Città metropolitane
Water management
Water management in Italia: verso una transizione “smart” e “circular” 
LE RISORSE
Transizione digitale, Simest apre i fondi Pnrr alle medie imprese
Prospettive
Turismo, cultura e digital: come spendere bene le risorse del PNRR
Analisi
Smart City: quale contributo alla transizione ecologica
Decarbonizzazione
Idrogeno verde, 450 milioni € di investimenti PNRR, Cingolani firma
Unioncamere
PNRR, imprese in ritardo: ecco come le Camere di commercio possono aiutare
I fondi
Industria 4.0: solo un’impresa su tre pronta a salire sul treno Pnrr

Articoli correlati

Articolo 1 di 4