L’uso dei dati sintetici in medicina sta trasformando radicalmente il panorama della ricerca sanitaria europea, offrendo soluzioni innovative per accelerare lo sviluppo di nuove terapie senza compromettere la privacy dei pazienti.
Questa tecnologia, basata su algoritmi di Intelligenza Artificiale, genera informazioni statisticamente coerenti con i dati reali ma prive di elementi identificativi, rispondendo alle crescenti esigenze di protezione imposte dalle normative europee come il ben conosciuto GDPR e il nuovo AI Act, ossia il regolamento europeo in materia di Intelligenza Artificiale varato l’anno scorso.
La loro adozione, però, non manca di sollevare interrogativi complessi riguardo alla protezione dei dati personali, alla validità scientifica e alle implicazioni etiche.
Fino a che punto, dunque, i dati artificiali possono cambiare il volto della medicina senza minacciare i diritti fondamentali dell’uomo? E soprattutto: siamo davvero pronti, come comunità scientifica, istituzioni e società civile, a gestire questa complessa evoluzione?
Indice degli argomenti
I limiti della ricerca medica tradizionale e l’emergere dei dati sintetici
Per comprendere le ragioni che hanno portato all’affermazione dei dati sintetici nella ricerca medica occorre partire dalla constatazione di alcuni limiti strutturali della metodologia tradizionale. Gli studi clinici randomizzati, pur rimanendo lo standard di riferimento per la valutazione di nuove terapie farmacologiche, richiedono tempi lunghi, risorse ingenti e pongono sfide crescenti nel reclutamento dei pazienti, specie in alcune aree come le malattie rare, l’oncologia pediatrica o la medicina di precisione.
Non meno importante è la difficoltà intrinseca nella condivisione dei dati clinici tra enti e paesi diversi, complicata dall’inquadramento sempre più rigoroso delle normative sulla protezione dei dati personali. In questo quadro, il dato sintetico (generato da algoritmi in grado di cogliere e replicare le proprietà statistiche dei dati reali) si impone come punto di svolta: consente di aggirare i problemi di riservatezza, ampliare la platea di dati a disposizione dei ricercatori e offrire nuove soluzioni a esigenze non soddisfatte dalla “semplice” anonimizzazione.
Definizione e funzionamento dei dati sintetici
Ma cos’è davvero un dato sintetico? La letteratura scientifica e i principali esperti del settore convergono su una definizione chiara: il dato sintetico è frutto di elaborazioni statistiche e algoritmi di Intelligenza Artificiale applicati a dati originali, da cui vengono estratte le relazioni e i pattern identificativi, ossia quelle combinazioni di dati o schemi che, anche senza dati anagrafici diretti, permettono di riconoscere una persona all’interno di un dataset. Questi algoritmi generano nuove informazioni (es. “pazienti virtuali”) che condividono con i dati d’origine caratteristiche statistiche e distribuzioni, ma non conservano alcuna informazione direttamente riconducibile a persone reali.
Dati sintetici versus dati anonimizzati: differenze e vantaggi
La differenza rispetto ai dati anonimizzati è profonda. Con l’anonimizzazione, ogni dettaglio utile alla ricerca “a ritroso”, per re-identificare una persona, viene rimosso in modo che non sia più riconducibile ad essa (uscendo anche dall’ambito di applicazione del GDPR). Il dato sintetico, invece, mantiene il valore scientifico perché non si limita a cancellare dettagli, ma crea qualcosa di nuovo che mantiene il valore originale per la ricerca, senza comprometterla (cosa non scontata con il ricorso all’anonimizzazione tout court). Immaginiamo un laboratorio che debba confrontare l’efficacia di una terapia su cinquanta pazienti con capelli biondi, ma ne abbia soltanto venti in database. Con la semplice anonimizzazione, i dati disponibili restano venti “per sempre”. L’algoritmo di sintesi, invece, permette di generare gli altri trenta in modo statisticamente coerente con i dati raccolti, favorendo così la robustezza e l’affidabilità dell’analisi sperimentale.
Applicazioni concrete nei centri di ricerca internazionali
Negli ultimi anni sono state condotte numerose sperimentazioni con dati sintetici, soprattutto nei centri di ricerca più d’avanguardia, nazionali e internazionali, come l’IRCCS Humanitas di Milano, che ha reso la tecnologia dei dati sintetici uno degli assi strategici della propria attività in campo ematologico. Mentre al di là dell’Atlantico hanno adottato soluzioni innovative e a “prova di privacy” istituzioni come il Children’s Hospital of Eastern Ontario (Canada) e la WashU Medicine di St. Louis (Missouri, USA). Il vantaggio più evidente è la facilità con cui questi dataset possono essere condivisi tra centri diversi, in Italia e all’estero. In scenari come la ricerca sulle malattie rare, la possibilità di superare i vincoli legati alle normative privacy (che si applicherebbero, per esempio, nel caso della pseudonimizzazione) e alla scarsità di pazienti rappresenta una vera rivoluzione, aprendo la strada a progetti di collaborazione internazionale prima impensabili.
Validazione dei modelli predittivi e benefici per i pazienti
Un ulteriore aspetto di rilievo riguarda la validazione dei modelli predittivi. L’uso di dati sintetici consente infatti di simulare molteplici scenari clinici, verificando l’affidabilità degli algoritmi e dei test diagnostici prima del loro impiego sui pazienti reali. Questa sinergia tra medicina, statistica, Intelligenza Artificiale e tecnologia migliora la qualità dei risultati e, potenzialmente, la sicurezza per i pazienti stessi.
Le criticità: validazione scientifica e metodologie ibride
Nonostante le opportunità, la comunità scientifica non nasconde alcune criticità. Il tema della validazione, ossia la capacità dei dati sintetici di riprodurre fedelmente comportamenti, risultati ed eterogeneità dei dati reali, resta centrale e, in parte, ancora irrisolto. Molti esperti suggeriscono il ricorso a metodologie ibride, con studi che confrontano direttamente i risultati ottenuti su pazienti reali e gemelli sintetici generati dagli stessi dati. Solo attraverso un continuo confronto empirico si potranno, poi, consolidare criteri condivisi di qualità e validità.
Il rischio dei bias algoritmici
Un’altra sfida riguarda il rischio di trasposizione o amplificazione di bias (pregiudizi dell’Intelligenza Artificiale) preesistenti. Se i dati originali sono sbilanciati rispetto a età, genere, condizione socio-economica o altre variabili, il rischio che questi squilibri vengano “ereditati” anche dai dati sintetici non è trascurabile. Da qui la crescente attenzione degli enti regolatori e delle autorità indipendenti.
Il quadro normativo: GDPR e dato personale
Dal punto di vista giuridico il tema risulta particolarmente articolato. Il già accennato GDPR stabilisce regole rigorose per il trattamento dei dati personali, con particolare attenzione ai dati sanitari, classificati come “categorie particolari di dati”, meglio noti come “dati sensibili”. Tuttavia, come anticipato, la definizione di dato personale del GDPR esclude quelli che non risultano, in alcun modo, identificabili, compresi i dati che, anche tramite sintesi, siano resi anonimi.
A livello pratico, molti esperti e giuristi riconoscono che, laddove la sintesi sia realmente capace di azzerare ogni rischio di re-identificazione, i nuovi dataset generati possano essere sottratti alle regole stringenti del GDPR, con tutte le conseguenze in termini di semplificazione procedurale e di accesso alla ricerca scientifica.
Le garanzie richieste dalle autorità privacy
Tuttavia, diverse autorità privacy europee, tra le quali il nostro Garante, hanno più volte ribadito la necessità che le procedure siano trasparenti, verificabili e documentate. Anche la scelta degli algoritmi di generazione, la tracciabilità dei flussi di trattamento e la possibilità di audit indipendenti sono elementi considerati non negoziabili per poter dichiarare davvero “anonimi” i nuovi dati.
La posizione del Garante italiano sui dati sintetici
Sul punto è interessante una recente intervista a Guido Scorza, componente del collegio del Garante, che affronta il tema dei dati sintetici con una posizione chiara fin dall’inizio: anche quando si parla di dati creati dall’Intelligenza Artificiale, il riferimento principale resta il GDPR. Insomma, nessuna scorciatoia, sia in Italia che in Europa: la tutela della privacy resta una priorità, e anche strumenti come l’AI Act o l’European Health Data Space (progetto europeo per creare uno spazio digitale sicuro dove i dati sanitari siano accessibili e condivisibili fra i paesi dell’Unione Europea) non cambiano la sostanza, ma aggiungono ulteriori regole. Nell’intervista Scorza insiste anche sulla differenza tra due fasi: la generazione del dato sintetico, che di solito prende le mosse da dati reali (e quindi richiede tutte le cautele, dalle informative alla base giuridica), e l’impiego successivo, quando i dati sono davvero anonimizzati.
E allora, solo in quel caso, il GDPR smette di applicarsi. Ma il rischio di re-identificare una persona attraverso particolari combinazioni di dati, soprattutto nei dataset piccoli o relativi a patologie rare, resta reale. Allo stesso tempo, il potenziale dei dati sintetici non viene trascurato: se progettati con attenzione, possono addirittura correggere squilibri esistenti nei dati reali e contribuire alla rappresentatività nei campioni utilizzati per ricerca e analisi. Tuttavia, ammonisce Scorza, non sempre i pazienti vengono informati, durante la raccolta dei loro dati, che questi potrebbero essere riutilizzati per creare dati sintetici. Risultato: il consenso spesso non è del tutto informato. In chiusura, emerge una posizione costruttiva: i dati sintetici potranno rivelarsi un prezioso strumento per sanità e ricerca, a patto che il diritto alla protezione dei dati personali non venga mai considerato un ostacolo, ma una garanzia imprescindibile per tutti.
L’AI Act e la nuova stagione normativa europea
La svolta normativa più recente viene dall’approvazione del Regolamento (UE) 2024/1689, comunemente noto come “AI Act”, che inaugura una stagione di regole “comuni e comunitarie” per l’utilizzo dell’Intelligenza Artificiale anche in ambiti delicati (come la sanità). Il testo di legge classifica le applicazioni secondo diversi livelli di rischio, imponendo vincoli severi a quelle ad alto impatto sulla sicurezza e i diritti delle persone (nel Regolamento si parla di “sistemi di Intelligenza Artificiale ad alto rischio”).
Un dato interessante è che l’AI Act riconosce i dati sintetici come risorsa strategica proprio per consentire la conformità alle regole europee in tema di privacy e governance. Ma al tempo stesso richiede nuovi standard di trasparenza, auditabilità, spiegabilità (quindi comprensibilità), e la convalida costante da parte di esperti umani.
Trasparenza, audit e responsabilità democratica
Anche la gestione delle possibili discriminazioni (pregiudizi) nei dataset e negli algoritmi sarà vigilata da autorità esterne. La crescente importanza degli audit indipendenti, inoltre, risponde a una esigenza non solo tecnica, ma anche democratica: la società civile reclama maggiore trasparenza e accountability, e spetta sia agli enti regolatori sia ai promotori della ricerca fornire garanzie effettive.
Formazione degli operatori e comunicazione al pubblico
In ambito sanitario, il salto tecnologico obbliga anche un ripensamento profondo della formazione degli operatori sanitari, dei ricercatori e degli stessi decisori pubblici. Non basta più saper leggere dati strutturati; occorre capire come sono stati prodotti, quali sono i rischi nascosti e le opportunità, e quali strumenti di verifica sono oggi a disposizione. Alcuni centri di eccellenza stanno inserendo moduli dedicati all’Intelligenza Artificiale, alla governance e all’etica dei dati sintetici nei programmi di formazione per medici e ricercatori. È essenziale che questa evoluzione venga comunicata con chiarezza anche al grande pubblico. La trasparenza sulla provenienza dei dati, la possibilità di accesso e di verifica, il coinvolgimento dei pazienti nei processi di validazione sono tutti elementi indispensabili per mantenere viva la fiducia nelle istituzioni sanitarie e scientifiche.
Equità nei dataset e coinvolgimento della società civile
L’ultima frontiera riguarda la tutela dell’equità nei dataset: ogni nuova tecnologia porta con sé il pericolo di amplificare errori o discriminazioni preesistenti. Se i dati originali lasciano fuori categorie marginali (come minoranze etniche, pazienti anziani, donne in gravidanza e persone con disabilità), anche i dati sintetici correranno il rischio di renderle invisibili al progresso medico. Per questo motivo, la governance dei dati sintetici richiede non solo competenza tecnica, ma anche sensibilità etica, attenzione a contesti e diversità, e il coinvolgimento diretto delle associazioni dei pazienti e della società civile.
Prospettive future per i dati sintetici in sanità
In conclusione, possiamo affermare che i dati sintetici stanno ridefinendo gli orizzonti della ricerca medica e della gestione della salute pubblica. Le possibilità in termini di accelerazione scientifica, innovazione terapeutica, riservatezza e collaborazione internazionale sono enormi; tuttavia, vi sono anche responsabilità non di poco conto. Occorre una convergenza tra tecnica, diritto, cultura e democrazia che non lasci indietro nessuno, per garantire che questa straordinaria rivoluzione sia davvero al servizio della collettività e dei diritti fondamentali.
La strada da percorrere è ancora lunga: sarà essenziale continuare a monitorare, discutere, interrogarsi e adattare regole e prassi alla luce delle nuove evidenze. Il futuro della sanità (e della protezione dei dati personali dei cittadini) si giocherà, come raramente è accaduto prima, nella partita del dialogo fra scienza, diritto e società.












