approfondimento

AI, da dove vengono i dati per addestrarla? Ecco tutte le fonti



Indirizzo copiato

Servono ingenti quantità di dati per addestrare i modelli di intelligenza artificiale: è interessante vedere da dove vengono presi e quali utilizzi se ne fanno

Pubblicato il 7 gen 2025

Marco Martorana

avvocato, studio legale Martorana, Presidente Assodata, DPO Certificato UNI 11697:2017



modelli ai sul pc

L’intelligenza artificiale necessita di ingenti quantità di dati per il suo funzionamento: è naturale che tali dati debbano essere reperiti da qualche parte e che qualcuno li raccolga. Come e chi, sono temi di grande interesse e apprensione.

Sulla questione della provenienza dei dati, il problema è stato affrontato dalla Data Provenance Initiative, un gruppo di oltre 50 ricercatori provenienti sia dal mondo accademico che da quello industriale. In sostanza, il loro obiettivo era quello di sapere, molto semplicemente, da dove provenissero i dati per addestrare l’IA, esaminando circa 4.000 set di dati pubblici che coprono oltre 600 lingue, 67 paesi e tre decenni.            
Negli ultimi anni, il quadro delle fonti di provenienza dei dati usati per addestrare l’IA è profondamente mutato.  

Dati e AI, un rapporto indispensabile

L’intelligenza artificiale è inscindibile dai dati. Quanto viene inserito nei modelli di intelligenza artificiale, determina la qualità e affidabilità di tutto ciò che ne esce.
Tale meccanismo non è naturalmente esente da problemi. In primis, non è trascurabile la qualità e quantità di dati immessi, che incide in modo determinate sul funzionamento degli algoritmi.

Pensiamo ad esempio al caso dei bias discriminatori ed all’impatto che hanno sui diritti e le libertà dei soggetti. Ma c’è un altro problema, perché gli sviluppatori e i ricercatori di intelligenza artificiale non sanno molto sulle fonti dei dati che utilizzano. Le pratiche di raccolta dati per addestrare l’IA, cioè, sono poco chiare oltre che rudimentali rispetto alla sofisticatezza dello sviluppo dei modelli di IA. Ma soprattutto le big tech continuano ad essere estremamente presenti, a proposito di diritti.

IA e dati, quanto pesa l’addestramento

L’addestramento dell’intelligenza artificiale è un processo complesso ma anche affascinante, che permette a un modello di apprendere e migliorare le proprie capacità nel tempo. Immaginiamo di insegnare a un bambino a riconoscere un gatto: gli mostri molte foto di gatti, gli spieghi le loro caratteristiche, e poi lo metti alla prova con nuove immagini. L’IA funziona in modo simile, ma su scala molto più grande, con strumenti matematici sofisticati, e soprattutto con una quantità estremamente importante di dati personali, i c.d. dati di addestramento o training data.

I dati di addestramento dell’IA sono cioè un set di informazioni, o input, utilizzati per insegnare ai modelli di IA a fare previsioni o decisioni accurate. Questi dati vengono immessi nel modello di IA come input di apprendimento, consentendogli in ultima analisi di produrre il risultato richiesto con un livello di accuratezza determinato anche e soprattutto dalla quantità e qualità dei dati usati per l’addestramento.

I dati per l’addestramento dell’IA possono essere generati naturalmente dall’attività umana e raccolti per l’uso in un set di dati di addestramento dell’IA, oppure possono essere prodotti allo scopo, creando dati sintetici che imitino i dati di addestramento del mondo reale. I dati di addestramento sintetici sono particolarmente utili quando i dati del mondo reale sono ad esempio limitati.

Come avviene l’addestramento dei modelli di IA

Ma come avviene l’addestramento? In primo luogo, occorre procedere alla raccolta dei dati, una grande quantità di dati, che possono essere immagini, testi, numeri o qualsiasi altra tipologia di informazione rilevante per il compito che si vuole far svolgere all’IA. Questi dati devono essere pertinenti, accurati e rappresentativi del problema che si vuole risolvere.

I dati raccolti vengono poi “puliti”, organizzati e trasformati in un formato comprensibile per l’algoritmo. Questo processo può includere la rimozione di dati errati, la normalizzazione dei valori e la creazione di nuove caratteristiche. Dopodiché si seleziona un modello di apprendimento automatico adatto al problema. Esistono diversi tipi di modelli, ognuno con le sue caratteristiche e i suoi punti di forza.

Successivamente, il modello viene “alimentato” con i dati preparati. Durante questa fase, l’algoritmo cerca di individuare dei pattern e delle relazioni all’interno dei dati, aggiornando i propri parametri interni per migliorare le proprie prestazioni. Una volta terminato l’addestramento, il modello viene valutato su un insieme di dati di test, che non sono stati utilizzati durante la fase di addestramento. Questo permette di stimare la sua accuratezza e di identificare eventuali problemi. Se i risultati non sono soddisfacenti, si può ripetere il processo di addestramento modificando i parametri del modello o utilizzando una quantità di dati maggiore.

Fatta questa premessa sul funzionamento del meccanismo di addestramento, appare evidente che l’accento è posto soprattutto sul quantitativo dei dati utilizzati, sulla loro natura, ma soprattutto sulla loro provenienza e su chi ne abbia effettivamente il controllo. Tema non di poco conto, poiché è qui che viene in rilievo l’impatto sui diritti e le libertà dei soggetti.

Da dove provengono i dati utilizzati per l’addestramento dell’IA

In linea generale, i dati utilizzati per l’addestramento possono essere reperiti internamente, ad esempio dati dei clienti detenuti da organizzazioni, o esternamente, da fonti terze. I dati interni sono spesso utilizzati per cose molto specifiche o per progetti interni più di nicchia. I dati interni sono spesso utilizzati per cose molto specifiche o per progetti interni più di nicchia. Esempi di ciò includono l’AI DJ di Spotify che tiene traccia della cronologia degli ascolti per generare playlist, e Facebook che usa i dati dei suoi utenti attraverso il suo algoritmo di raccomandazione per spingere i contenuti consigliati. I dati possono essere ottenuti però da venditori che ne ottengono e vendono grandi quantità. Reddit, ad esempio, ha iniziato a far pagare agli utenti l’accesso alla sua API nell’aprile 2023, probabilmente in risposta al successo di ChatGPT e all’ambizione di generare un nuovo flusso di entrate attraverso la vendita dei suoi dati per scopi di addestramento dell’IA.

Altre fonti di dati esterni includono set di dati aperti forniti, ad esempio, dal governo, istituti di ricerca e aziende per scopi commerciali. Le aziende utilizzano anche scraper Internet per ottenere dati, ma c’è un rischio maggiore che ciò possa violare il copyright.

Come vengono gestiti i set di dati

In passato, i set di dati erano specificamente curati e raccolti da diverse fonti per adattarsi alle singole attività, provenendo da 800 fonti uniche e quasi 700 organizzazioni. Negli ultimi anni, però, abbiamo assistito all’ascesa di modelli di intelligenza artificiale generativa multimodale, in grado di generare video e immagini. Come i grandi modelli linguistici, hanno bisogno di quanti più dati possibili e la fonte maggiore per questo appare essere YouTube, che copre oltre il 70% dei dati per i set di dati vocali e di immagini, che quindi proviene da un’unica fonte.

Questo è certamente un vantaggio per Alphabet, la società madre di Google, che possiede a sua volta YouTube, perché di fatto la detenzione dei dati video è estremamente concentrata in un’unica piattaforma, creando quasi un monopolio.

Un problema di democrazia nello sviluppo dell’IA

Il fatto che i dati provengano da poche fonti, se non addirittura una, potrebbe apparire come un problema superficiale, se non fosse che Google sta anche sviluppando i propri modelli di intelligenza artificiale, e quindi il suo enorme vantaggio solleva anche domande su come l’azienda renderà questi dati disponibili per i concorrenti, per non parlare di una perdita per la “democraticità” dello sviluppo dell’IA, intesa come la realizzazione di un processo condiviso o almeno non monopolizzato da poche Big Tech, al fine di rendere le nuove tecnologie quanto più accessibili a tutti, anche in un’ottica di crescita della fiducia globale.

Il problema solleva ancora più preoccupazioni se pensiamo al fatto che le aziende di intelligenza artificiale di solito non condividono i dati utilizzati per addestrare i propri modelli, soprattutto per proteggere il loro vantaggio competitivo, che nel caso di Google, ad esempio, è importante.

Aspetti geografici e linguistici

Ma non è tutto, la provenienza effettiva dei dati, il loro uso, la loro conservazione, e la loro condivisione restano ancora opachi, al punto che i soggetti interessati da tali dati non sapranno mai con certezza il percorso che tali dati compiono.
Altro tema che tocca la democraticità nello sviluppo dell’IA è quello geografico e linguistico. Oltre il 90% dei set di dati analizzati dai ricercatori proveniva dall’Europa e dal Nord America, mentre meno del 4% proveniva dall’Africa, escludendo ancora una volta una grossa fetta del Mondo dalla crescita globale.

Ancora, il predominio della lingua inglese nei training data è pressoché totale. In parte si può spiegare con il fatto che Internet è ancora per oltre il 90% in inglese e ci sono ancora molti posti sulla Terra dove la connessione è davvero scarsa o addirittura assente. Ma un altro motivo è sia pratico che culturale, perché mettere insieme set di dati in altre lingue e tenere conto di altre culture richiede consapevolezza e lavoro.

Ridurre il coinvolgimento di Paesi non anglofoni o non occidentali rafforza però i pregiudizi e potrebbe portare a modelli di intelligenza artificiale che spingono una certa visione del mondo incentrata sugli Stati Uniti, cancellando altre lingue e culture. E se i giganti del Pianeta vogliono preparare i consociati all’avvento delle nuove tecnologie, questo non è certamente il migliore dei modi per accrescere entusiasmo e fiducia.

EU Stories - La coesione innova l'Italia

Tutti
Iniziative
Social
Analisi
Video
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 4