Proviamo a descrivere una scena familiare a chiunque abbia lavorato su un progetto di intelligenza artificiale (AI) in un contesto reale. Si addestra un modello, le metriche sono buone, si va in produzione. Dopo qualche mese – a volte qualche settimana – le prestazioni calano. Si interviene sul modello, si ritocca l’architettura, si riesegue l’addestramento. Le cose migliorano un po’, poi calano di nuovo. Il ciclo si ripete.
Indice degli argomenti
Il problema non è il modello, ma la qualità dei dati
Quello che quasi mai ci si chiede, in questo ciclo, è se il problema stia effettivamente nel modello. Nella maggior parte dei casi non è lì. Il problema è nei dati: nell’etichettatura errata degli esempi che rischia di essere imitata dal modello, nello squilibrio tra classi che rende il modello meno sensibile ai casi rari, nello scarto tra la distribuzione dei dati di addestramento e quella del mondo reale. Secondo alcune stime, l’industria dedica il 90% dello sforzo agli algoritmi e solo il 10% ai dati. La proporzione andrebbe rovesciata. E più continuiamo a ignorarlo, più i sistemi in produzione diventano instabili.
Non è una critica agli algoritmi. È una critica a come li stiamo usando. I grandi modelli linguistici, le architetture transformer, le reti neurali profonde sono strumenti potenti e continuano a migliorare. Il problema è culturale e metodologico: abbiamo costruito un’intera disciplina intorno all’idea che il modello sia la variabile principale da ottimizzare, e abbiamo trattato i dati come un input fisso, un prerequisito da sbrigare prima di arrivare alla parte “vera” del lavoro.
Alcuni dei progetti di AI più noti degli ultimi anni hanno reso evidente un punto fondamentale: l’affidabilità dei modelli nel mondo reale dipende molto più dalla qualità dei dati di addestramento di quanto si pensasse. Perfino OpenAI ha riconosciuto che uno dei principali colli di bottiglia durante lo sviluppo di modelli come GPT-3 e DALL·E non era l’architettura né la potenza di calcolo, bensì gli errori e le incoerenze nei dati stessi. Una storia simile arriva da Tesla. Invece di concentrarsi esclusivamente sull’innovazione dei modelli, l’azienda ha investito fortemente in quello che definisce un “Data Engine” — un sistema per la raccolta, l’annotazione, il filtraggio e il miglioramento continuo dei dati, assistito dai propri modelli. Come osservato da Andrej Karpathy in una presentazione pubblica del 2021, quando era direttore dell’AI in Tesla, questa strategia ha permesso di sviluppare sistemi di guida autonoma più avanzati rispetto a molti concorrenti — non necessariamente grazie ad algoritmi migliori, ma grazie a un perfezionamento continuo e sistematico dei dati.
Invertire le priorità: il modello si fissa, i dati si migliorano
Il paradigma Data-Centric AI (DCAI) [1], promosso da Andrew Ng – un pioniere dell’IA, parte da un rovesciamento tanto semplice quanto controintuitivo: si sceglie un modello adeguato, lo si fissa, e si smette di inseguire architetture sempre nuove. Il miglioramento avviene altrove: nei dati. Non si esplora lo spazio degli algoritmi. Si esplora lo spazio dei dati. È lì che si gioca la qualità del sistema.
Questo cambio di prospettiva non è uno slogan: ha una base formale precisa. Nel paradigma model-centric, si ottimizzano i parametri e gli iperparametri del modello tenendo il dataset fisso. Nel paradigma data-centric, si fissano gli iperparametri del modello e si ottimizza il dataset stesso: si cerca l’insieme di addestramento (training set) di qualità superiore che, usato per addestrare lo stesso modello, produce una migliore generalizzazione. La qualità del dataset è misurata lungo dimensioni precise: assenza di errori, pertinenza degli esempi, completezza della copertura, coerenza interna. Ogni intervento sul dato è un’operazione con un effetto misurabile e causalmente attribuibile, non il risultato opaco di scelte architetturali difficili da replicare.
In termini pratici, questo significa costruire un processo strutturato attorno a operazioni sui dati: individuare e correggere etichette errate, aggiungere esempi rappresentativi di classi sottorappresentate, arricchire il dataset con informazioni contestuali esterne, verificare la coerenza semantica tra le fonti. Operazioni che esistono già, ma che nel paradigma tradizionale vengono relegate a una fase preliminare rapida. Qui diventano il cuore del processo.
Tre fasi, non una: come strutturare il ciclo di vita del dato
Una delle lacune più frequenti nella pratica industriale è pensare ai dati come a qualcosa che si costruisce una volta, all’inizio del progetto, e poi rimane stabile. I dati invecchiano, il mondo cambia, e i dataset non monitorati degradano silenziosamente.
Una approccio maturo distingue tre fasi distinte. La prima è la costruzione del dataset di addestramento: raccolta da fonti eterogenee, etichettatura — con il supporto di annotatori esperti o strumenti semi-automatici — pulizia, riduzione dimensionale, arricchimento semantico. Non una fase da chiudere in fretta: un processo iterativo in cui le versioni successive del dataset vengono tracciate e confrontate, come avviene per il codice sorgente con un sistema di versioning.
La seconda fase, spesso trascurata, riguarda i dati di valutazione. Valutare un modello solo sulla distribuzione dei dati di addestramento è insufficiente: bisogna costruire dataset valutativi che sondino il comportamento del sistema in condizioni limite, fuori distribuzione, in presenza di drift concettuale. In ambiti dinamici — come i processi industriali o le cartelle cliniche — questa valutazione deve includere la capacità di rilevare e gestire il cambiamento nel tempo.
La terza fase è la manutenzione continuativa in produzione: monitoraggio della qualità del dato nel tempo, rilevamento del drift, aggiornamento controllato del dataset. Un sistema AI non è un artefatto che si consegna e si lascia girare: è un sistema sociotecnico che evolve con i dati che lo alimentano. Se quei dati non vengono sorvegliati, il sistema deriva. E quando ce ne accorgiamo, è già troppo tardi.
Il rischio dell’AI generativa: il collasso ricorsivo
Il paradigma DCAI diventa ancora più urgente con la diffusione massiva dell’AI generativa, dove i rischi legati alla qualità del dato assumono una forma nuova e particolarmente insidiosa. Sta emergendo un problema che non esisteva in questi termini fino a pochi anni fa. Una quantità crescente di contenuti sul web è prodotta da modelli generativi. Quei contenuti vengono poi usati per addestrare nuovi modelli. Il ciclo si chiude su sé stesso, e smette progressivamente di ancorarsi alla realtà.
Il risultato è quello che la letteratura chiama model collapse o contaminazione ricorsiva: i modelli addestrati su dati sintetici generati da versioni precedenti di sé stessi perdono progressivamente diversità, amplificano le distorsioni sistematiche (bias) originali, si allontanano dalla distribuzione reale dei dati umani. Le allucinazioni, la tendenza alla banalizzazione, la perdita di sfumatura che si osservano in alcuni sistemi generativi hanno spesso questa radice.
La risposta non può essere solo algoritmica. Non basta cambiare modello. Richiede un presidio attivo sulla provenienza e la qualità dei dati di addestramento: tracciabilità della fonte, metriche di diversità interna del corpus, confronto continuo con distribuzioni di riferimento generate da esseri umani. I modelli generativi possono anche contribuire positivamente alla pipeline DCAI — come strumenti di annotazione automatica o di arricchimento del dataset — ma solo a condizione che il loro output venga validato rigorosamente prima di diventare dato di addestramento.
È significativo che questa consapevolezza stia emergendo anche dall’interno delle grandi organizzazioni che sviluppano i modelli fondazionali (LLM) più potenti. Nella sua newsletter di dicembre 2025, Andrew Ng — che aveva coniato il termine Data-Centric AI quattro anni prima — osserva che far avanzare i modelli di frontiera oggi richiede decisioni manuali continue e un approccio sistematico all’ingegnerizzazione dei dati: dopo aver esaurito i contenuti del web aperto, i laboratori di ricerca si trovano a dover raccogliere, pulire e preparare dati specifici per ogni dominio con processi sempre più laboriosi [2]. Il paradigma data-centric, insomma, non è solo una proposta metodologica accademica: è la risposta pratica a un collo di bottiglia reale, riconosciuto da chi quei modelli li costruisce.
Aggiornare la metodologia: cosa cambia nel processo di sviluppo
Cambiare paradigma non basta se non cambia anche il modo in cui si organizza il lavoro. La metodologia CRISP-DM, nata alla fine degli anni Novanta e ancora usata come riferimento in molte organizzazioni, riflette una logica in cui il dato è preparato una volta e poi consegnato al modello. È un’impostazione che oggi non è più sufficiente.
In un processo data-centric, la preparazione dei dati non precede il modello: lo accompagna per tutta la sua vita. La fase di “Business Understanding” e quella di “Data Understanding” devono fondersi, perché gli obiettivi di business sono inscindibili dalle realtà dei dati disponibili. Nasce una nuova fase esplicita di raccolta ed etichettatura. La preparazione dei dati si trasforma in data curation continua e versionata: ogni trasformazione applicata al dataset è una modifica registrata e documentata, replicabile, confrontabile con le versioni precedenti, esattamente come nel controllo di versione del codice.
Entra in gioco anche l’active learning — l’apprendimento attivo guidato dal modello — come meccanismo strutturale. Il modello, una volta addestrato su una versione curata del dataset, segnala i campioni su cui è meno sicuro: quelli vengono prioritizzati per la revisione, l’arricchimento o la ri-etichettatura. Il dataset migliora in risposta al comportamento del modello, creando un ciclo di miglioramento continuo guidato dai dati reali, non da ipotesi sul modello.
La valutazione si sdoppia: non misura solo se il sistema raggiunge i KPI — gli indicatori di performance — di business, ma verifica esplicitamente se gli interventi sui dati hanno prodotto i miglioramenti attesi in termini di robustezza, stabilità e interpretabilità. L’AI Act renderà presto obbligatorio questo tipo di rendicontazione per i sistemi ad alto rischio: conviene costruirla adesso perché farlo dopo, su sistemi già in produzione, è molto più costoso e spesso inefficace. La fase di messa in esercizio del modello (deployment) si trasforma in operazioni data-centric continue: monitoraggio automatico della qualità del dato, rilevamento del drift, cicli di feedback tra dato operativo ed evoluzione del dataset (Figura 1).

Dalla teoria alla pratica: un esempio concreto
Un caso istruttivo è quello della classificazione del testo. Su un dataset di 1.000 richieste di servizio clienti, l’applicazione del framework di confident learning — una tecnica che individua automaticamente le etichette errate stimando la distribuzione congiunta tra etichette osservate e latenti — ha permesso di rilevare e rimuovere i campioni di qualità insufficiente. Risultato: miglioramenti significativi di accuratezza, ottenuti senza toccare il modello, senza ritoccare l’architettura, senza cercare nuovi iperparametri. Solo dati migliori.
Lo stesso approccio si dimostra applicabile in domini molto diversi. Nella manutenzione predittiva industriale, i sistemi AI devono anticipare guasti in tempo reale su flussi continui di dati di sensori, spesso sbilanciati tra classi rare e frequenti e soggetti a variazioni della distribuzione nel tempo: un approccio data-centric rileva la causa del degrado a livello del dato prima ancora di intervenire sul modello. In ambito ospedaliero, completezza, tempestività e rappresentatività dei dati clinici sono determinanti per l’accuratezza e l’equità dei modelli di supporto decisionale. Nel telerilevamento satellitare, la preparazione semantica delle immagini Sentinel è ciò che rende possibile la segmentazione affidabile di fenomeni come le infestazioni di bostrico. In tutti questi casi, la qualità del dato — non la sofisticazione del modello — è il fattore determinante.
Data-Centric AI, una questione di cultura prima che di tecnologia
Adottare un approccio data-centric non richiede di buttare via quello che si sa fare. Richiede di spostare radicalmente l’attenzione: dai modelli ai dati, dall’ottimizzazione una tantum alla cura continuativa, dalla metrica di test alla robustezza in produzione.
Per le aziende e le pubbliche amministrazioni che stanno investendo in AI, questo significa scelte operative molto precise. Investire nella qualità del dato prima — e non solo dopo — di scegliere il modello. Dotarsi di processi e strumenti per versionare, tracciare e monitorare i dataset nel tempo. Formare team con competenze di data engineering con la stessa serietà con cui si formano esperti di AI. Costruire nella struttura organizzativa una collaborazione stretta tra esperti di dominio, ingegneri del dato e sviluppatori di modelli: nel paradigma DCAI questa collaborazione non è un nice-to-have, è il meccanismo centrale del miglioramento.
Non è un cambio semplice. La cultura tecnica dominante ha investito anni a costruire competenze sui modelli, e i benchmark più citati premiano ancora chi ottimizza le architetture. Ma i sistemi AI che stanno entrando nei processi decisionali reali — in ospedale, in fabbrica, negli uffici pubblici — vengono giudicati da criteri completamente diversi: affidabilità, spiegabilità, conformità normativa. E su quei criteri, la qualità del dato fa la differenza che nessun modello, per quanto sofisticato, può compensare. Senza dati di qualità, l’AI non è “intelligente”: è solo fragile.
Questi temi sono stati sviluppati nell’ambito del Progetto Trasversale 7 – Data-Centric AI and Infrastructures del programma FAIR — Future Artificial Intelligence Research [3].
[1] Andrew Ng. “Unbiggen AI: The AI pioneer says it’s time for smart-sized, “data-centric” solutions to big issues,” By Eliza Strickland. IEEE Spectrum, February 9, 2022, https://spectrum.ieee.org/andrew-ng-data-centric-ai.
[2] Andrew Ng. The Batch – Issue 332. DeepLearning.AI, newsletter online. Disponibile all’indirizzo: https://www.deeplearning.ai/the-batch/issue-332/
[3] Malerba D. et al., “Data-Centric AI Manifesto: How Data Quality Drives Modern AI”, Electronics 2026, 15(9), 1913, https://www.mdpi.com/2079-9292/15/9/1913













