In molti settori – dalla sanità alla finanza, fino alla cybersecurity e all’automotive – le aziende si trovano davanti a un’esigenza sempre più evidente: sviluppare modelli AI efficaci senza poter contare, almeno con facilità, su grandi quantità di dati reali liberamente utilizzabili.
Il tema non riguarda soltanto la disponibilità del dato, ma anche la crescente complessità normativa e organizzativa legata al trattamento dei dati personali. Condividere dataset tra team, utilizzare dati per attività di testing, coinvolgere vendor esterni o addestrare modelli su categorie particolari di dati richiede oggi livelli di governance e controllo sempre più elevati.
È in questo contesto che i dati sintetici stanno trovando spazio concreto. Non come soluzione “magica” ai problemi di compliance, ma come strumento che, se correttamente progettato e governato, può contribuire a ridurre alcuni rischi e a rendere più flessibile il ciclo di sviluppo dei sistemi AI.
Indice degli argomenti
Cosa sono i dati sintetici
Con l’espressione “dati sintetici” si fa generalmente riferimento a dati generati artificialmente tramite modelli statistici, simulazioni o tecniche di machine learning generativo, con l’obiettivo di riprodurre le caratteristiche e le correlazioni di un dataset reale senza coincidere con i dati originari. In termini molto pratici, il punto non è creare dati “casuali”, ma generare informazioni statisticamente coerenti con il fenomeno reale che si vuole rappresentare.
In molti casi, i dati sintetici vengono creati “addestrando” un modello su dati reali, così che possa apprenderne pattern, distribuzioni e correlazioni e generare poi nuovi dati artificiali con caratteristiche simili. In altri scenari, invece, i dati vengono prodotti tramite simulatori o ambienti virtuali che riproducono artificialmente determinati contesti operativi: è il caso, ad esempio, dei sistemi utilizzati per simulare scenari di guida autonoma, traffico urbano o processi industriali.
L’interesse verso questi strumenti deriva soprattutto dal fatto che consentono, almeno in parte, di sviluppare e testare sistemi AI senza utilizzare direttamente dati reali relativi a persone fisiche. Ed è proprio qui che il tema assume particolare rilevanza anche dal punto di vista privacy.
Un equivoco piuttosto diffuso consiste infatti nel considerare automaticamente “anonimi” i dati sintetici. In realtà, la questione è più complessa: la qualificazione giuridica del dataset dipende dal concreto rischio che, direttamente o indirettamente, sia ancora possibile ricostruire o inferire informazioni riferibili agli interessati presenti nei dati originari.
Perché le aziende stanno guardando ai dati sintetici
L’interesse crescente verso i dati sintetici deriva soprattutto dalla possibilità di superare alcuni limiti che oggi rendono sempre più complesso utilizzare dati reali nello sviluppo dei sistemi AI.
Il primo vantaggio riguarda la maggiore flessibilità operativa. Disporre di dataset sintetici può semplificare attività di sviluppo, testing e condivisione dei dati, consentendo alle organizzazioni di lavorare in ambienti più controllati e meno esposti alle complessità tipiche della gestione dei dati personali. In molti casi, questo permette anche di accelerare il ciclo di sviluppo dei modelli, riducendo i tempi necessari per accedere ai dataset reali, autorizzarne l’utilizzo o coinvolgere fornitori e partner tecnologici nelle attività di training e validazione.
Per molte aziende, il tema è anche organizzativo. La possibilità di utilizzare dati sintetici in ambienti di test o sandbox consente di sperimentare nuovi casi d’uso AI con minori vincoli operativi, limitando la circolazione interna dei dati reali e riducendo la necessità di replicare continuamente controlli e autorizzazioni su dataset contenenti informazioni personali o sensibili.
In altri contesti, il valore dei dati sintetici emerge soprattutto sotto il profilo tecnico. La sintesi può aiutare a gestire problemi di scarsità o sbilanciamento del dato, simulare scenari rari oppure generare casistiche difficilmente osservabili nella pratica. È il caso, ad esempio, degli eventi clinici poco frequenti in ambito sanitario, delle anomalie nei sistemi antifrode o di determinati scenari di cybersecurity che non risultano disponibili in quantità sufficienti nei dataset reali. In questo senso, la sintesi non viene vista soltanto come uno strumento “privacy-oriented”, ma anche come una leva per migliorare qualità e resilienza dei sistemi AI.
A rendere particolarmente interessante il tema è poi il crescente collegamento tra dati sintetici, gestione del rischio e compliance AI. Lo stesso European Data Protection Board, nell’Opinion 28/2024, ha richiamato l’utilizzo dei dati sintetici tra gli strumenti tecnici che possono contribuire a ridurre i rischi nella fase di sviluppo e addestramento dei modelli AI.
I principali rischi: re-identificazione, qualità del dato e bias
Se è vero che i dati sintetici possono aiutare le aziende a sviluppare sistemi AI in modo più flessibile e meno esposto ai rischi legati all’utilizzo diretto di dati personali, è altrettanto vero che il loro utilizzo non elimina automaticamente i problemi privacy o di compliance.
Uno dei temi più delicati riguarda il rischio che, partendo dai dati sintetici o dal modello che li ha generati, sia comunque possibile ricostruire – almeno in parte – informazioni riconducibili alle persone presenti nel dataset originario. Questo può accadere, ad esempio, quando il sistema “impara” in modo troppo preciso caratteristiche presenti nei dati reali e finisce per riprodurre informazioni molto simili a quelle di partenza.
Il rischio tende ad aumentare soprattutto quando il dataset originario è molto piccolo, contiene informazioni rare o particolarmente distintive, oppure quando il modello viene addestrato in modo eccessivamente aderente ai dati utilizzati nella fase di training. Il fatto che un dataset sia “sintetico” non basta, da solo, a escludere la presenza di rischi privacy: occorre invece valutare concretamente come i dati siano stati generati, quali informazioni siano state utilizzate e quanto sia realisticamente possibile ricostruire collegamenti con gli interessati originari.
Accanto ai profili privacy, esiste poi un altro tema spesso sottovalutato: la qualità del dato sintetico. Un dataset sintetico è utile solo se riesce a rappresentare in modo sufficientemente realistico il fenomeno che il modello AI dovrà affrontare. Se i dati generati risultano troppo semplificati, distorti o poco rappresentativi, il rischio è addestrare sistemi AI meno accurati o meno affidabili rispetto a quanto atteso.
Lo stesso vale per i bias. I dati sintetici non eliminano automaticamente le distorsioni presenti nei dati reali; in alcuni casi possono addirittura replicarle o amplificarle. Un dataset sintetico costruito a partire da dati sbilanciati tenderà infatti, molto spesso, a riprodurre gli stessi squilibri presenti nel dataset originario, con possibili impatti sulla correttezza e affidabilità del modello finale.
Il punto di contatto con l’AI Act
Il tema dei dati sintetici assume particolare rilievo anche alla luce dell’AI Act, soprattutto per quanto riguarda i sistemi AI qualificati come “ad alto rischio”.
L’art. 10 del Regolamento attribuisce un ruolo centrale alla governance dei dati utilizzati nelle fasi di addestramento, validazione e testing, richiedendo che i dataset siano pertinenti, sufficientemente rappresentativi e adeguati rispetto alla finalità del sistema. Particolare attenzione viene inoltre dedicata alla gestione dei bias e alla qualità complessiva del dato, profili rispetto ai quali i dati sintetici possono assumere una funzione operativa significativa, ad esempio per integrare dataset incompleti o supportare attività di testing su scenari che difficilmente emergerebbero in misura sufficiente nei dati reali.
Il punto probabilmente più interessante è però rappresentato dall’art. 10, par. 5, dell’AI Act. La disposizione consente il trattamento eccezionale di categorie particolari di dati personali per finalità di rilevamento e correzione delle distorsioni solo laddove tali risultati non possano essere raggiunti efficacemente tramite altri mezzi, inclusi dati sintetici o anonimizzati.
Pur senza imporre un obbligo generalizzato di utilizzo dei dati sintetici, il Regolamento sembra quindi introdurre una logica piuttosto chiara: prima di ricorrere all’utilizzo di dati sensibili reali, le organizzazioni dovrebbero essere in grado di dimostrare di aver valutato concretamente la disponibilità di soluzioni alternative meno invasive.
Sotto questo profilo, i dati sintetici smettono di essere soltanto uno strumento tecnico di supporto allo sviluppo dei modelli AI e diventano progressivamente parte delle strategie di minimizzazione, mitigazione del rischio e accountability richieste dal quadro regolatorio europeo.
Alcune indicazioni operative: quando i dati sintetici funzionano davvero
Per le organizzazioni che intendono utilizzare dati sintetici nei propri progetti AI, il punto centrale non è tanto capire se questi dati siano “compliant” in astratto, quanto valutare se rappresentino davvero una soluzione adeguata rispetto allo specifico caso d’uso e costruire, attorno al loro utilizzo, un processo sufficientemente solido sotto il profilo tecnico e organizzativo.
Non tutti i modelli, infatti, tollerano lo stesso livello di perdita di fedeltà statistica e non tutte le finalità consentono di sostituire efficacemente il dato reale. In alcuni contesti – soprattutto nelle attività di testing, simulazione o bilanciamento dei dataset – i dati sintetici possono offrire vantaggi molto concreti. In altri, invece, il rischio è che la distanza tra dato sintetico e fenomeno reale comprometta accuratezza, robustezza o affidabilità del modello finale. Diventa quindi importante comprendere come i dati siano stati generati, quale sia il rischio residuo di re-identificazione, quanto il dataset sintetico resti rappresentativo rispetto ai dati originari e quali impatti possano derivare sul comportamento del modello AI addestrato.
Sul piano privacy e compliance, assume poi particolare rilievo il fatto che la generazione dei dati sintetici – quando avviene a partire da dati personali reali – costituisce essa stessa un trattamento da valutare nell’ambito del GDPR. Diventa quindi importante definire in modo chiaro finalità, basi giuridiche, misure di sicurezza, tempi di conservazione e ruoli dei soggetti coinvolti, soprattutto nei casi in cui intervengano fornitori o piattaforme esterne nel processo di sintesi o utilizzo dei dati.
Per i sistemi soggetti all’AI Act, inoltre, acquista crescente importanza la capacità di documentare le scelte effettuate: tecniche di generazione adottate, motivazioni dell’utilizzo dei sintetici, verifiche svolte sui dataset e limiti riscontrati dovrebbero essere adeguatamente tracciati all’interno dei processi di governance AI e della documentazione tecnica del sistema.
Anche sotto questo profilo, il tema dei dati sintetici tende sempre meno a essere una questione esclusivamente tecnica. La loro gestione richiede il coinvolgimento coordinato di competenze legali, privacy, cybersecurity, data governance e business, soprattutto nei progetti AI più complessi o regolamentati.
In definitiva, i dati sintetici non rappresentano una soluzione universale né un automatismo di compliance. Possono però diventare uno strumento estremamente utile quando esiste un equilibrio credibile tra riduzione del rischio privacy, qualità del dato generato e affidabilità del sistema AI sviluppato. Ed è probabilmente proprio su questo equilibrio – più che sulla sola promessa di anonimizzazione – che si giocherà, nei prossimi anni, la loro diffusione concreta nello sviluppo dei sistemi di intelligenza artificiale.










