La ricerca biomedica affronta da tempo un problema strutturale: a fronte di una crescita esponenziale dei dati sanitari prodotti, la loro effettiva utilizzabilità per fini di ricerca si è progressivamente ridotta.
Le strutture sanitarie generano quotidianamente volumi significativi di informazioni cliniche — cartelle digitali, referti diagnostici, imaging biomedico, dati genomici — ma una quota rilevante rimane inutilizzata per l’interazione di molteplici fattori: vincoli normativi sulla protezione dei dati personali, frammentazione organizzativa tra strutture, eterogeneità degli standard di codifica, assenza di infrastrutture condivise, complessità delle governance multi-stakeholder.
Indice degli argomenti
Oncologia e malattie rare, due facce dello stesso problema
Questo problema assume caratteristiche differenti in oncologia e nelle malattie rare. In oncologia, il limite non è la scarsità assoluta di dati — registri tumorali, biobanche e sistemi informativi generano informazioni in volumi significativi — ma ostacoli operativi e istituzionali. La ricerca richiede dataset che integrino dati genomici, istologici, radiologici e di outcome clinico da più centri, ma costruirli richiede armonizzazione di classificazioni diverse, allineamento di criteri diagnostici e negoziazione di accordi tra istituzioni con governance autonome. Anche quando i dati esistono, la loro aggregazione resta un collo di bottiglia che rallenta lo sviluppo di modelli predittivi.
Malattie rare: il circolo vizioso della scarsità campionaria
Nelle malattie rare, il problema è opposto: la numerosità campionaria è limitata dalla bassa prevalenza, i pazienti sono dispersi geograficamente, e anche centri di eccellenza raccolgono casistiche ridotte. Questa scarsità limita l’applicazione di tecniche statistiche che richiedono numerosità adeguate, generando un circolo vizioso: senza dati sufficienti non si sviluppano modelli diagnostici, senza modelli validati è difficile ottimizzare percorsi terapeutici.
Anonimizzazione: i limiti di un approccio consolidato
L’approccio tradizionale si è concentrato sull’anonimizzazione: tecniche di de-identificazione che rimuovono informazioni identificative per consentire il trattamento senza consenso esplicito, ai sensi dell’articolo 9 del GDPR. Tuttavia, presenta limiti rilevanti. Dal punto di vista tecnico, il problema principale non è tanto il rischio di re-identificazione quanto la degradazione di utilità: quanto più si anonimizza un dataset sanitario per ridurre il rischio privacy, tanto più si compromette la sua qualità scientifica, riducendo granularità, eliminando correlazioni cliniche rilevanti e introducendo rumore statistico che rende i dati meno affidabili per analisi complesse.
L’approccio tradizionale si è concentrato sull’anonimizzazione: tecniche di de-identificazione che rimuovono informazioni identificative per consentire il trattamento senza consenso esplicito, ai sensi dell’articolo 9 del GDPR. Tuttavia, presenta limiti rilevanti. Dal punto di vista tecnico, il problema principale non è tanto il rischio di re-identificazione quanto la degradazione di utilità: quanto più si anonimizza un dataset sanitario per ridurre il rischio privacy, tanto più si compromette la sua qualità scientifica, riducendo granularità, eliminando correlazioni cliniche rilevanti e introducendo rumore statistico che rende i dati meno affidabili per analisi complesse.
Pseudonimizzazione e sentenza Deloitte: verso un dato personale “relativo”
Di fronte a questi limiti, parte della dottrina giuridica ha individuato nella pseudonimizzazione una sorta di “viatico nuovo” per la ricerca scientifica, suggerendo che mascherare le identità senza eliminare le informazioni possa preservare al contempo utilità e conformità normativa. Questa narrazione ha trovato recente sostegno giuridico nella sentenza “Deloitte” della Corte di Giustizia europea (settembre 2025, causa C-413/23 P), che ha introdotto un criterio relativistico: i dati pseudonimizzati sono “personali” solo se il destinatario dispone di mezzi ragionevoli per re-identificare gli interessati. Il c.d. Digital Omnibus, proposto dalla Commissione europea nel novembre 2025, tenta di codificare questo principio modificando la definizione di “dato personale” nell’art. 4 del GDPR: un’informazione sarebbe “personale” solo per chi può identificare il soggetto, non in assoluto. Come analizzato dal Prof. Giuseppe D’Acquisto proprio su questa rubrica, questo segna una transizione verso un concetto relativo di dato personale, in cui la natura giuridica dell’informazione dipende dal soggetto che la tratta.
Perché la pseudonimizzazione non basta per la ricerca collaborativa
Se questo approccio presenta una sua razionalità giuridica, le sue implicazioni operative per la ricerca sanitaria sono tuttavia problematiche. In contesti multi-stakeholder — dove i dati circolano tra ospedali, centri di ricerca, industria farmaceutica, ciascuno con capacità tecniche eterogenee — la relatività della qualificazione giuridica potrebbe generare incertezza interpretativa: un dataset pseudonimizzato potrebbe essere considerato “anonimo” per un destinatario privo di mezzi di re-identificazione, ma “personale” per un altro soggetto dotato di database incrociabili o capacità computazionali avanzate. Questa potenziale instabilità renderebbe la pseudonimizzazione una soluzione solo limitatamente adatta alla ricerca collaborativa: ciò che è lecito in un contesto può non esserlo in un altro, e la valutazione di liceità diventa un esercizio interpretativo caso per caso, incompatibile con la necessità di framework scalabili e riproducibili che la ricerca biomedica richiede.
Dati sintetici e AI generativa: una terza via per la privacy nella ricerca
L’intelligenza artificiale generativa ha introdotto un approccio metodologicamente differente attraverso i dati sintetici. I modelli generativi apprendono la struttura statistica di un dataset reale e generano nuove osservazioni che preservano correlazioni tra variabili, distribuzioni e pattern temporali, senza contenere informazioni riferibili a individui reali. Dal punto di vista della privacy, questi dati possono essere considerati anonimi se il processo generativo garantisce che la probabilità di re-identificazione sia trascurabile, attraverso tecniche di privacy-preserving machine learning che introducono perturbazioni controllate.
Oncologia e malattie rare: applicazioni concrete dei dati sintetici
In oncologia, questa metodologia consente di superare la frammentazione senza centralizzazione fisica. Ogni centro può addestrare localmente un modello generativo, generare dati sintetici validati e condividerli per sviluppare modelli predittivi. Questo approccio è coerente con i principi di data minimization e privacy by design del GDPR, limitando il trasferimento di dati personali pur mantenendo l’utilità scientifica.
Nelle malattie rare, i dati sintetici permettono di aumentare la numerosità campionaria: partendo da un dataset limitato, si genera un dataset più ampio che rispetta le distribuzioni osservate introducendo variabilità plausibile, migliorando l’addestramento di modelli statistici.
Synthetic external control arms: i dati sintetici entrano nei trial clinici
L’applicazione più avanzata riguarda i trial clinici. Le synthetic external control arms (SECA) costruiscono braccia di controllo virtuali utilizzando dati storici trasformati in pazienti sintetici, permettendo confronti quando la randomizzazione è impraticabile o eticamente problematica. La validità dipende dal controllo di fattori confondenti attraverso propensity score matching e analisi di sensibilità. L’EMA ha avviato nel 2024 un reflection paper sull’uso di external controls, con pubblicazione prevista per il 2026, mentre la guideline ICH M15, adottata a febbraio 2026, ha formalizzato i criteri per valutare evidenza generata da modelli computazionali in contesti regolatori.
EHDS e legge 132/2025: il quadro normativo europeo e il ritardo italiano
A livello europeo, l’European Health Data Space (EHDS), regolato dal Regolamento (UE) 2025/327, introduce un framework armonizzato per l’accesso ai dati sanitari. L’applicazione generale inizierà dal marzo 2027, mentre le disposizioni sul riutilizzo per ricerca diventeranno applicabili dal marzo 2029. I dati sintetici offrono un’alternativa complementare quando dataset validati forniscono utilità scientifica equivalente senza accesso diretto a informazioni personali.
In Italia, la Legge 132/2025 ha previsto all’articolo 9 che il Ministero della Salute adotti entro 120 giorni dall’entrata in vigore (10 ottobre 2025) un decreto per la costituzione di sandbox regolatorie dedicate all’AI in sanità. La scadenza era il 7 febbraio 2026; ad oggi il decreto non è stato pubblicato.
Sandbox regolatorie: un’occasione mancata per l’Italia
Il ritardo ha implicazioni che eccedono l’aspetto amministrativo. Le sandbox regolatorie rappresentano ambienti dove testare metodologie di generazione di dati sintetici, validare modelli di governance e costruire best practice condivise. La loro assenza genera incertezza giuridica che rallenta investimenti e impedisce all’Italia di accumulare l’esperienza necessaria per partecipare alla definizione degli standard europei in fase di consolidamento. Non si configura automaticamente una violazione dell’EHDS, le cui scadenze sono graduate tra 2027 e 2029, ma il ritardo, soprattutto se persistente, potrebbe rappresentare un’occasione mancata: la sandbox non è solo strumento di compliance, ma volano di sperimentazione nazionale che traduce rapidamente risultati di ricerca in capacità operativa diffusa.
Dal dato da proteggere al dato da progettare: la sfida della sanità digitale europea
Il tema evidenzia una transizione metodologica: dal paradigma basato sull’accesso a dati esistenti a quello basato sulla generazione controllata di nuovi dati progettati per scopi specifici. Per molto tempo, il dibattito si è concentrato sull’equilibrio tra protezione della privacy e innovazione. L’intelligenza artificiale generativa suggerisce una terza via: generare dati sintetici progettati per essere condivisibili senza esporre informazioni personali, aumentando la necessità di governance rigorosa, validazione statistica e tracciabilità metodologica.
La capacità di ripensare il dato non solo come risorsa da proteggere ma come infrastruttura da progettare potrebbe rappresentare uno dei passaggi chiave per il futuro della sanità digitale europea.













