approfondimento

AI, da dove vengono i dati per addestrarla? Ecco tutte le fonti

Home Cultura e società digitali competenze digitali

Servono ingenti quantità di dati per addestrare i modelli di intelligenza artificiale: è interessante vedere da dove vengono presi e quali utilizzi se ne fanno

Pubblicato il 7 gen 2025

Marco Martorana

avvocato, studio legale Martorana, Presidente Assodata, DPO Certificato UNI 11697:2017

L’intelligenza artificiale necessita di ingenti quantità di dati per il suo funzionamento: è naturale che tali dati debbano essere reperiti da qualche parte e che qualcuno li raccolga. Come e chi, sono temi di grande interesse e apprensione.

Sulla questione della provenienza dei dati, il problema è stato affrontato dalla Data Provenance Initiative, un gruppo di oltre 50 ricercatori provenienti sia dal mondo accademico che da quello industriale. In sostanza, il loro obiettivo era quello di sapere, molto semplicemente, da dove provenissero i dati per addestrare l’IA, esaminando circa 4.000 set di dati pubblici che coprono oltre 600 lingue, 67 paesi e tre decenni.
Negli ultimi anni, il quadro delle fonti di provenienza dei dati usati per addestrare l’IA è profondamente mutato.

Condivisione dei dati con Paesi extra-Ue: le linee guida EDPB

Indice degli argomenti

Dati e AI, un rapporto indispensabile

L’intelligenza artificiale è inscindibile dai dati. Quanto viene inserito nei modelli di intelligenza artificiale, determina la qualità e affidabilità di tutto ciò che ne esce.
Tale meccanismo non è naturalmente esente da problemi. In primis, non è trascurabile la qualità e quantità di dati immessi, che incide in modo determinate sul funzionamento degli algoritmi.

WHITEPAPER

Massimizza l'efficienza: integra IT e OT per ottimizzare il monitoring SCADA

Industria 4.0/5.0

Data Storage

Pensiamo ad esempio al caso dei bias discriminatori ed all’impatto che hanno sui diritti e le libertà dei soggetti. Ma c’è un altro problema, perché gli sviluppatori e i ricercatori di intelligenza artificiale non sanno molto sulle fonti dei dati che utilizzano. Le pratiche di raccolta dati per addestrare l’IA, cioè, sono poco chiare oltre che rudimentali rispetto alla sofisticatezza dello sviluppo dei modelli di IA. Ma soprattutto le big tech continuano ad essere estremamente presenti, a proposito di diritti.

IA e dati, quanto pesa l’addestramento

L’addestramento dell’intelligenza artificiale è un processo complesso ma anche affascinante, che permette a un modello di apprendere e migliorare le proprie capacità nel tempo. Immaginiamo di insegnare a un bambino a riconoscere un gatto: gli mostri molte foto di gatti, gli spieghi le loro caratteristiche, e poi lo metti alla prova con nuove immagini. L’IA funziona in modo simile, ma su scala molto più grande, con strumenti matematici sofisticati, e soprattutto con una quantità estremamente importante di dati personali, i c.d. dati di addestramento o training data.

I dati di addestramento dell’IA sono cioè un set di informazioni, o input, utilizzati per insegnare ai modelli di IA a fare previsioni o decisioni accurate. Questi dati vengono immessi nel modello di IA come input di apprendimento, consentendogli in ultima analisi di produrre il risultato richiesto con un livello di accuratezza determinato anche e soprattutto dalla quantità e qualità dei dati usati per l’addestramento.

I dati per l’addestramento dell’IA possono essere generati naturalmente dall’attività umana e raccolti per l’uso in un set di dati di addestramento dell’IA, oppure possono essere prodotti allo scopo, creando dati sintetici che imitino i dati di addestramento del mondo reale. I dati di addestramento sintetici sono particolarmente utili quando i dati del mondo reale sono ad esempio limitati.

Come avviene l’addestramento dei modelli di IA

Ma come avviene l’addestramento? In primo luogo, occorre procedere alla raccolta dei dati, una grande quantità di dati, che possono essere immagini, testi, numeri o qualsiasi altra tipologia di informazione rilevante per il compito che si vuole far svolgere all’IA. Questi dati devono essere pertinenti, accurati e rappresentativi del problema che si vuole risolvere.

I dati raccolti vengono poi “puliti”, organizzati e trasformati in un formato comprensibile per l’algoritmo. Questo processo può includere la rimozione di dati errati, la normalizzazione dei valori e la creazione di nuove caratteristiche. Dopodiché si seleziona un modello di apprendimento automatico adatto al problema. Esistono diversi tipi di modelli, ognuno con le sue caratteristiche e i suoi punti di forza.

Successivamente, il modello viene “alimentato” con i dati preparati. Durante questa fase, l’algoritmo cerca di individuare dei pattern e delle relazioni all’interno dei dati, aggiornando i propri parametri interni per migliorare le proprie prestazioni. Una volta terminato l’addestramento, il modello viene valutato su un insieme di dati di test, che non sono stati utilizzati durante la fase di addestramento. Questo permette di stimare la sua accuratezza e di identificare eventuali problemi. Se i risultati non sono soddisfacenti, si può ripetere il processo di addestramento modificando i parametri del modello o utilizzando una quantità di dati maggiore.

Fatta questa premessa sul funzionamento del meccanismo di addestramento, appare evidente che l’accento è posto soprattutto sul quantitativo dei dati utilizzati, sulla loro natura, ma soprattutto sulla loro provenienza e su chi ne abbia effettivamente il controllo. Tema non di poco conto, poiché è qui che viene in rilievo l’impatto sui diritti e le libertà dei soggetti.

Da dove provengono i dati utilizzati per l’addestramento dell’IA

In linea generale, i dati utilizzati per l’addestramento possono essere reperiti internamente, ad esempio dati dei clienti detenuti da organizzazioni, o esternamente, da fonti terze. I dati interni sono spesso utilizzati per cose molto specifiche o per progetti interni più di nicchia. I dati interni sono spesso utilizzati per cose molto specifiche o per progetti interni più di nicchia. Esempi di ciò includono l’AI DJ di Spotify che tiene traccia della cronologia degli ascolti per generare playlist, e Facebook che usa i dati dei suoi utenti attraverso il suo algoritmo di raccomandazione per spingere i contenuti consigliati. I dati possono essere ottenuti però da venditori che ne ottengono e vendono grandi quantità. Reddit, ad esempio, ha iniziato a far pagare agli utenti l’accesso alla sua API nell’aprile 2023, probabilmente in risposta al successo di ChatGPT e all’ambizione di generare un nuovo flusso di entrate attraverso la vendita dei suoi dati per scopi di addestramento dell’IA.

Altre fonti di dati esterni includono set di dati aperti forniti, ad esempio, dal governo, istituti di ricerca e aziende per scopi commerciali. Le aziende utilizzano anche scraper Internet per ottenere dati, ma c’è un rischio maggiore che ciò possa violare il copyright.

Come vengono gestiti i set di dati

In passato, i set di dati erano specificamente curati e raccolti da diverse fonti per adattarsi alle singole attività, provenendo da 800 fonti uniche e quasi 700 organizzazioni. Negli ultimi anni, però, abbiamo assistito all’ascesa di modelli di intelligenza artificiale generativa multimodale, in grado di generare video e immagini. Come i grandi modelli linguistici, hanno bisogno di quanti più dati possibili e la fonte maggiore per questo appare essere YouTube, che copre oltre il 70% dei dati per i set di dati vocali e di immagini, che quindi proviene da un’unica fonte.

Questo è certamente un vantaggio per Alphabet, la società madre di Google, che possiede a sua volta YouTube, perché di fatto la detenzione dei dati video è estremamente concentrata in un’unica piattaforma, creando quasi un monopolio.

Un problema di democrazia nello sviluppo dell’IA

Il fatto che i dati provengano da poche fonti, se non addirittura una, potrebbe apparire come un problema superficiale, se non fosse che Google sta anche sviluppando i propri modelli di intelligenza artificiale, e quindi il suo enorme vantaggio solleva anche domande su come l’azienda renderà questi dati disponibili per i concorrenti, per non parlare di una perdita per la “democraticità” dello sviluppo dell’IA, intesa come la realizzazione di un processo condiviso o almeno non monopolizzato da poche Big Tech, al fine di rendere le nuove tecnologie quanto più accessibili a tutti, anche in un’ottica di crescita della fiducia globale.

Il problema solleva ancora più preoccupazioni se pensiamo al fatto che le aziende di intelligenza artificiale di solito non condividono i dati utilizzati per addestrare i propri modelli, soprattutto per proteggere il loro vantaggio competitivo, che nel caso di Google, ad esempio, è importante.

Aspetti geografici e linguistici

Ma non è tutto, la provenienza effettiva dei dati, il loro uso, la loro conservazione, e la loro condivisione restano ancora opachi, al punto che i soggetti interessati da tali dati non sapranno mai con certezza il percorso che tali dati compiono.
Altro tema che tocca la democraticità nello sviluppo dell’IA è quello geografico e linguistico. Oltre il 90% dei set di dati analizzati dai ricercatori proveniva dall’Europa e dal Nord America, mentre meno del 4% proveniva dall’Africa, escludendo ancora una volta una grossa fetta del Mondo dalla crescita globale.

Ancora, il predominio della lingua inglese nei training data è pressoché totale. In parte si può spiegare con il fatto che Internet è ancora per oltre il 90% in inglese e ci sono ancora molti posti sulla Terra dove la connessione è davvero scarsa o addirittura assente. Ma un altro motivo è sia pratico che culturale, perché mettere insieme set di dati in altre lingue e tenere conto di altre culture richiede consapevolezza e lavoro.

Ridurre il coinvolgimento di Paesi non anglofoni o non occidentali rafforza però i pregiudizi e potrebbe portare a modelli di intelligenza artificiale che spingono una certa visione del mondo incentrata sugli Stati Uniti, cancellando altre lingue e culture. E se i giganti del Pianeta vogliono preparare i consociati all’avvento delle nuove tecnologie, questo non è certamente il migliore dei modi per accrescere entusiasmo e fiducia.

WHITEPAPER

Proteggi la tua infrastruttura IT dai cyber-attacchi, scopri come!

Datacenter

Datacenter Infrastructure Management

@RIPRODUZIONE RISERVATA