Machine learning

Dati sintetici, la giusta sintesi tra innovazione e privacy: stato dell’arte e scenari

I dati sintetici possono contribuire alla definizione di un nuovo punto di sintesi tra progresso tecnologico e tutela dei dati personali, lasciando intravedere uno spiraglio per il superamento dell’impasse operativo che troppo spesso, negli ultimi anni, ha rallentato il mercato. Facciamo il punto

Pubblicato il 26 Lug 2021

Lorenzo Cristofaro

Partner, Panetta Studio Legale

Gabriele Franco

Junior Associate di Panetta Studio Legale

Intelligenza artificiale, una task force a supporto della crisi pandemica

La scienza e l’innovazione necessitano per definizione di grandi moli di informazioni che, quando riferite ad una persona fisica, costituiscono dati personali, con conseguente necessità di procedere al relativo trattamento secondo regole determinate e rigorose a tutela della libertà e della dignità umana.

In quest’ottica, una via frequentemente percorsa per accompagnare il progresso della tecnica nel rispetto del diritto alla protezione dei dati personali è quella di far leva su dati anonimi, esclusi dall’ambito di applicazione della relativa normativa.

Come si avrà modo di vedere, tuttavia, tale impostazione ha raramente portato i frutti sperati, principalmente in ragione del «divario concettuale tra il pensiero legale e matematico sulla privacy dei dati» (come efficacemente evidenziato da Aloni Cohen e Kobbi Nissim)^[1].

Nei tempi più recenti, tuttavia, si sta assistendo alla rapida affermazione di una nuova applicazione del machine learning in grado di porsi validamente al servizio tanto del diritto alla privacy quanto dell’innovazione: i dati sintetici.

I dati sintetici nuova frontiera dell’intelligenza artificiale: opportunità e limiti

Indice degli argomenti

I limiti dell’anonimizzazione alla luce dell’attuale cornice normativa

Per comprendere quale sia l’effettiva portata dei synthetic data, occorre dare brevemente conto del contesto tecnologico e regolamentare nell’ambito del quale tale innovazione ha iniziato a diffondersi.

Come detto, sulla distinzione tra dato anonimo e dato personale si regge il delicato discrimen tra applicazione o meno della normativa in materia. Il relativo perimetro è stato tracciato, fin dai tempi dalla Direttiva 95/46/CE, con il noto Considerando 26, il cui contenuto è stato quasi pedissequamente riproposto dal Regolamento Generale sulla Protezione dei Dati Personali (GDPR), significativamente sempre nel Recital 26.

Considerando 26

Direttiva 95/46/CE

Considerando 26

Regolamento (UE) 2016/679

[C]onsiderando che i principi della tutela si devono applicare ad ogni informazione concernente una persona identificata o identificabile; che, per determinare se una persona è identificabile, è opportuno prendere in considerazione l’insieme dei mezzi che possono essere ragionevolmente utilizzati dal responsabile del trattamento o da altri per identificare detta persona; che i principi della tutela non si applicano a dati resi anonimi in modo tale che la persona interessata non è più identificabile […].

[…] Per stabilire l’identificabilità di una persona è opportuno considerare tutti i mezzi, come l’individuazione, di cui il titolare del trattamento o un terzo può ragionevolmente avvalersi per identificare detta persona fisica direttamente o indirettamente. Per accertare la ragionevole probabilità di utilizzo dei mezzi per identificare la persona fisica, si dovrebbe prendere in considerazione l’insieme dei fattori obiettivi, tra cui i costi e il tempo necessario per l’identificazione, tenendo conto sia delle tecnologie disponibili al momento del trattamento, sia degli sviluppi tecnologici. I principi di protezione dei dati non dovrebbero pertanto applicarsi a informazioni anonime, vale a dire informazioni che non si riferiscono a una persona fisica identificata o identificabile o a dati personali resi sufficientemente anonimi da impedire o da non consentire più l’identificazione dell’interessato. Il presente regolamento non si applica pertanto al trattamento di tali informazioni anonime, anche per finalità statistiche o di ricerca.

Alla lettera della legge, che ancorava (e tuttora àncora) la nozione di anonimizzazione ad un criterio di ragionevolezza, con ciò sposando – soprattutto nell’ottica del GDPR – un approccio ai dati anonimi dinamico e basato sul rischio in chiave di responsabilizzazione, si è tuttavia e fin da subito affiancata una diversa e più rigida interpretazione avanzata dall’allora Gruppo di lavoro Articolo 29 (WP29, ossia l’attuale European Data Protection Board) con l’ormai celebre Parere 05/2014 sulle tecniche di anonimizzazione (WP 216) del 10 aprile 2014.

Parere 05/2014 sulle tecniche di anonimizzazione (WP 216)

Il fondamento logico è che il risultato dell’anonimizzazione quale tecnica applicata ai dati personali dovrebbe essere, allo stato attuale della tecnologia, permanente come una cancellazione, vale a dire dovrebbe rendere impossibile il trattamento dei dati personali. […]

L’analisi della formulazione del testo relativo all’anonimizzazione negli strumenti più significativi dell’UE in materia di protezione dei dati consente di porre in evidenza quattro caratteristiche chiave: (-) l’anonimizzazione può essere il risultato del trattamento di dati personali allo scopo di impedire irreversibilmente l’identificazione della persona interessata […].

In primo luogo, l’anonimizzazione è una tecnica che si applica ai dati personali al fine di ottenere una deidentificazione irreversibile […]

Il Gruppo di lavoro ha pertanto già chiarito che la direttiva suggerisce l’esame dei “mezzi … che possono essere ragionevolmente utilizzati” quale criterio da applicare per valutare se il processo di anonimizzazione sia sufficientemente affidabile, vale a dire se l’identificazione sia diventata “ragionevolmente” impossibile.

È essenziale comprendere che quando un responsabile del trattamento non cancella i dati originali (identificabili) a livello di evento, e trasmette poi parte di questo insieme di dati (ad esempio, dopo l’eliminazione o il mascheramento dei dati identificabili), l’insieme di dati risultante contiene ancora dati personali.

L’esegesi offerta dall’ex Gruppo di lavoro appare infatti molto più rigorosa e statica di quanto non parrebbe desumersi da una lettura testuale della norma.

Come evidenziato da alcuni autori, «[r]ispetto all’approccio basato sul rischio del GDPR, il Working Party sembra quindi ritenere che nessuna percentuale di rischio possa essere tollerata. Difatti, i concetti di irreversibilità, permanenza e impossibilità depongono verso un approccio molto più rigoroso rispetto a quello formulato dallo stesso testo legislativo. Mentre il considerando 26 riconosce che l’anonimizzazione non può mai essere assoluta (come nel caso in cui la tecnologia cambia nel tempo), la posizione assolutista del Gruppo di lavoro indica che l’anonimizzazione dovrebbe essere permanente» (il riferimento è al lavoro di Michèle Finck e Frank Pallas)^[2].

Il risultato di tale disallineamento, come evidenziato dagli stessi autori, è stato dal 2014 in poi un’evidente incertezza su quale sia l’approccio corretto da seguire in concreto.

Tanto basta per spiegare come mai, ad oggi, la leva dell’anonimizzazione, soprattutto in funzione della valorizzazione e dell’uso secondario dei dati, non ha incontrato la diffusione auspicata.

L’instabilità del quadro interpretativo, infatti, non ha consentito agli operatori del mercato di riporre sufficiente fiducia nell’archetipo del dato anonimo. Senza contare che la nuova cornice sanzionatoria introdotta dal GDPR ha di certo ulteriormente ridimensionato le marginalità di rischio per titolari e responsabili.

A tutto ciò possono poi aggiungersi altre due ragioni, strettamente interconnesse.

La prima ha natura squisitamente tecnica. Il progresso nel campo delle capacità computazionali ha di fatto reso sempre più difficoltoso garantire l’irreversibilità della de-identificazione richiesta dal WP29.

Il secondo motivo è invece riassumibile in una funzione: al crescere dello sforzo di anonimizzazione decresce, nella quasi totalità dei casi, il valore intrinseco dei dati. In altri termini, la sottrazione progressiva di ogni elemento identificativo afferente al dato ha quale inevitabile conseguenza la perdita delle componenti che ne determinano anche la maggiore utilità in chiave statistica o scientifica.

Senza contare che tali problematiche emergono in tutta la propria portata limitante soprattutto in quei contesti ove si presenta con più urgenza e forza la necessità – o anche solo la possibilità – di ottenere i maggiori benefici dal trattamento di dati non identificativi. Si pensi, banalmente, al fabbisogno informativo richiesto per istruire adeguatamente un algoritmo di machine learning o, in particolare, all’ambito della ricerca scientifica, in cui la frammentazione delle regole nazionali sul riuso dei dati – anche in ragione del differente rigore con cui le autorità di controllo identificano la soglia, assai sottile, che differenzia la pseudonimizzazione dall’anonimizzazione – continua in qualche modo a svilire la fondamentale apertura legata alla ‘presunzione di compatibilità’ offerta dall’Art. 5.1, b) del GDPR^[3].

La possibile ‘rivoluzione’ dei dati sintetici

I dati sintetici intercettano le problematiche appena descritte e rispondono alle esigenze che ne derivano, lasciando intravedere ben più di uno spiraglio per il superamento dell’impasse operativo che troppo frequentemente, negli ultimi anni, ha rallentato il mercato.

Per comprendere il funzionamento di un algoritmo di sintetizzazione possiamo (iper)semplificare facendo un esempio.

Immaginiamo di prendere un annuario scolastico, uno di quelli tipici della tradizione statunitense. Avremmo davanti un album con le fotografie di tutti gli studenti dell’ultimo anno di liceo, i rispettivi dati identificativi e, perché no, anche le classiche citazioni sulle ambizioni future. Ipotizziamo che di ogni alunno siano indicati anche la media voti, le attività extrascolastiche e l’eventuale iscrizione al college per l’anno successivo. Ora, non c’è dubbio che sulla base dei dati contenuti nell’annuario sarebbe possibile ricavare tutta una serie di informazioni statisticamente rilevanti. Interrogando l’album, al pari di un database, si potrebbero ad esempio conoscere la percentuale di abbandono scolastico prima del college o l’incidenza dell’impegno extracurriculare sul merito accademico, il tutto magari filtrato secondo il genere o la componente etnica.

Assumiamo ora di poter dare questo album ‘in pasto’ ad un algoritmo di data synthetization. Ci ritroveremmo in mano qualcosa che sembrerebbe a tutti gli effetti l’annuario di un’altra scuola, mai esistita. Sfogliandone le pagine, non troveremmo né lo stesso numero di studenti, né le medesime foto, né alcuna corrispondenza di nomi e cognomi. Anche tutte le altre informazioni sarebbero diverse, senza alcuna connessione con l’album originario. Mettendoli uno accanto all’altro, non sarebbe nemmeno possibile individuare una formula per collegare gli alunni del primo annuario a quelli, ‘sintetici’, del secondo. Ciò nonostante, ponendo a questo database artificiale le stesse domande formulate a quello originale, otterremmo risposte identiche. Tramite il processo di sintetizzazione, infatti, viene generato ex novo, a partire da un database reale, un set di dati (di qualsiasi genere, ivi incluse immagini) totalmente fittizio, ma in grado di mantenere la stessa distribuzione statistica di quello originario, senza che per raggiungere tale risultato sia necessario rivelare alcun dato personale iniziale.

I dati sintetici sono quindi informazioni riprodotte in maniera artificiale, mediante algoritmi di machine learning di tipo generativo, sulla base di dati riferiti a persone fisiche reali. Il profilo di maggior interesse in ottica di compliance è che per ottenere le medesime caratteristiche e relazioni statistiche del dataset originario, non è necessario mantenere alcuna informazione ‘primaria’ riferita (o riferibile) ad uno specifico interessato.

Il processo di sintetizzazione si sostanzia infatti nell’apprendimento, da parte di un algoritmo, delle correlazioni e delle metriche statistiche di una grande mole di dati, replicate in maniera più o meno granulare (anche in dipendenza del ‘grado di sintetizzazione’ voluto) in un nuovo database artificiale, senza alcuna riproduzione o collegamento diretto con gli elementi identificativi propri dei dati di partenza.

Non è questa la sede per considerare nel dettaglio le differenti tecniche di sintetizzazione fino ad oggi sviluppate. Analogamente, sarebbe estremamente complesso dar conto dei numerosi campi applicativi in cui tale tecnologia sta trovando sempre più diffusa sperimentazione.

Ciò che vale la pena evidenziare, piuttosto, sono gli enormi e rivoluzionari impatti che tale “privacy-enhancing technology” è in grado di produrre, consentendo l’ottenimento di un database statisticamente rilevante – anche nell’ottica di strumenti avanzati di data analytics – da poter impiegare per qualsiasi fine legittimo, ivi inclusa la condivisione con terze parti (assolutamente centrale in moltissimi campi, a partire dalla ricerca medica), potendosi ragionevolmente sostenere che i ‘fake data’ che lo compongono non rientrano nella nozione di dato personale.

Se da un lato, quindi, si possono creare dataset per il training di algoritmi di machine learning, così consentendo a qualsiasi modello di apprendere su una base informativa più ampia e rappresentativa (evitando quindi anche i rischi di overfitting) e simulando situazioni nuove o complesse raramente riscontrabili (o impossibili da riscontrare), dall’altra si garantisce la piena tutela della riservatezza degli interessati cui sono riferiti i dati iniziali, nel rispetto del principio di minimizzazione.

Riprendendo alcuni degli esempi sopra formulati, vorrebbe dire che un sistema di intelligenza artificiale potrebbe essere allenato su una base dati estremamente realistica, più facilmente reperibile e al tempo stesso suscettibile di essere integrata o modificata, anche per eliminare alla fonte eventuali bias. Allo stesso modo, la circolazione e lo scambio di dati sanitari a fini di ricerca scientifica potrebbero avvenire in maniera più semplice, immediata e sicuramente produttiva (si pensi all’attuale contesto emergenziale e all’esigenza di repentina interscambiabilità di dati a fini, ad esempio, di sperimentazione vaccinale). In entrambi i casi si potrebbe contare su database qualitativamente identici a quelli originali, con la fondamentale differenza di poter al tempo stesso tutelare a monte, by design e by default, la privacy delle persone coinvolte (qualsiasi sia il loro numero).

Come detto, la rigida lettura del WP29 ha decisamente condizionato, nel tempo, i margini di affidamento rispetto alle tecniche di ‘anonimizzazione’, motivo per cui si tende frequentemente ad abbinare la sintetizzazione dei dati ad un’altra fondamentale tecnica algoritmica, la differential privacy, così da rafforzare ulteriormente il coefficiente di non re-identificabilità dei dati artificiali di secondo livello.

Si tratta, in breve, di una soluzione che offre una garanzia misurabile della privacy dei dati utilizzati negli algoritmi di big data, che consente di quantificare matematicamente – e quindi con esattezza – il rischio residuo di single-out relativo ad uno specifico set di informazioni. Una delle tecniche più utilizzate in connessione alla privacy differenziale è l’inserimento di rumore controllato (noise injection), ‘sporcando’ quindi il dataset iniziale in maniera tale da non pregiudicare i risultati, ma impedendo di risalire dall’esterno ai dati individuali utilizzati nel modello di base.

In breve, in aggiunta alla generazione di dati sintetici, tale tecnica mira anche ad impedire la possibilità di comprendere se un determinato individuo faceva o meno parte del database di partenza^[4].

Un case study: il progetto ‘My Health My Data’

Per comprendere le modalità concrete di applicazione e la profonda utilità delle tecniche di sintetizzazione, vale la pena fare un rapidissimo cenno ai risultati raggiunti dal progetto My Health My Data (MHMD)^[5].

L’obiettivo era delineare più soluzioni che consentissero la messa a fattor comune, all’interno dello Spazio Economico Europeo, di dati clinici longitudinali precedentemente raccolti da ospedali e strutture sanitarie, al servizio della ricerca scientifica. Al netto delle – spesso ampie (ed ingiustificabili) – differenze esistenti tra Stati membri in termini di obblighi da adempiere ai fini del riuso e della condivisione di dati per tale fondamentale esigenza di interesse pubblico, il Consorzio preposto aveva identificato la compliance in materia di protezione dei dati come uno dei principali tasks del progetto.

In parallelo ad una prima soluzione di local computation basata sul paradigma del “Bringing the algorithms to the data”^[6], si è ipotizzata – ormai nel 2015 – e poi sviluppata la via della sintetizzazione dei dati e delle immagini cliniche, dimostrando a più riprese come gli output di dettaglio, a livello statistico ed analitico, non subissero alcuna variazione rispetto a quelli collegati ai dataset originari.

In aggiunta a tali misure, l’applicazione della privacy differenziale ha permesso di consolidare ab initio il livello di sicurezza in termini di de-identificabilità dei dati, soprattutto in quei casi in cui, a valle della generazione di risultati anonimi da condividere con terze parti, era necessario mantenere nei repositories dei titolari coinvolti una copia dei dati originari, ad esempio in adempimento del duty of care.

La sensazione che se ne ricavava era quella di un profondo scollamento tra le mosse che i progressi della scienza informatica rendono possibili sulla scacchiera e la strategia invece seguita dalle autorità di settore, indistintamente difensiva e ancora eccessivamente ancorata – soprattutto in alcuni Stati membri – all’interpretazione statica adottata dal WP29 nel menzionato Parere 05/2014.

Si era quindi evidenziata l’urgenza e la profonda necessità di un cambio di rotta che riducesse quel divario identificato da Aloni Cohen e Kobbi Nissim e sopra citato, mediante l’accoglimento da parte delle Supervisory Authorities – oltre che dell’EDPB e dell’EDPS – o almeno la concertazione riguardo alle modalità di implementazione, di ‘vie preferenziali ad accesso ristretto’ riservate agli operatori di alcuni specifici settori di interesse pubblico (ricerca scientifica in primis). E i dati sintetici si sono rivelati essere la miglior chiave d’ingresso a tali snodi.

Quale futuro per i synthetic data?

L’interesse per questa nuova tecnica sta prendendo definitivamente piede sia in dottrina che sui più diffusi canali di informazione. A ciò si deve aggiungere la crescente attrattiva verso il possibile impiego di algoritmi di sintetizzazione da parte di tutte quelle aziende interessate ad un uso secondario dei dati.

La conferma che si tratta di un tema destinato ad assumere sempre più rilevanza nel dibattito europeo arriva dall’attenzione che ai dati sintetici stanno riservando anche le istituzioni comunitarie. A partire dall’European Data Protection Supervisor (EDPS), che appena qualche settimana fa ha dedicato un workshop proprio ai synthetic data. Ma vi è di più.

Nelle pagine dell’Artificial Intelligence Act, la proposta di regolamento presentata lo scorso aprile e che mira ad introdurre in UE regole armonizzate sull’intelligenza artificiale, la Commissione Europea fa espressa menzione di tale tecnologia, di fatto ponendola sullo stesso piano dell’anonimizzazione, ma conferendole una posizione ed un rilievo quasi del tutto autonomi (il riferimento è all’articolo 54, rubricato “Ulteriore trattamento dei dati personali per lo sviluppo nello spazio di sperimentazione normativa per l’IA di determinati sistemi di IA nell’interesse pubblico”, ove si prevede che «[n]ello spazio di sperimentazione normativa per l’IA i dati personali legalmente raccolti per altre finalità sono trattati ai fini dello sviluppo e delle prove nello spazio di sperimentazione di determinati sistemi di IA innovativi alle seguenti condizioni: […] b. i dati trattati sono necessari per il rispetto di uno o più dei requisiti di cui al titolo III, capo 2, qualora tali requisiti non possano essere efficacemente soddisfatti mediante il trattamento anonimizzato, sintetico o di altri dati non personali»).

Entrambi i riferimenti appena riportati dimostrano che siamo solo all’inizio di un percorso, all’alba di una tecnologia che troverà sempre più diffusa sperimentazione e che con tutta probabilità fungerà da banco di prova per la tenuta dell’attuale interpretazione su cosa possa essere considerato anonimo o meno, anche con nuances differenziate in dipendenza del settore di riferimento.

Ma soprattutto, i dati sintetici potrebbero davvero contribuire alla definizione di un nuovo punto di feconda sintesi tra progresso tecnologico e tutela del diritto alla protezione dei dati personali.

Cohen, A., & Nissim, K., (14 aprile 2020). Towards formalizing the GDPR’s notion of singling out, Proceedings of the National Academy of Sciences of the United States of America, 117 (15). 8344-8352. ↑
Finck, M., & Pallas, F., (2020). They who must not be identified – distinguishing personal from non-personal data under the GDPR, International Data Privacy Law, Vol. 10, No. 1. ↑
Estremamente interessanti, a questo proposito, sono i risultati del report intitolato Assessment of the EU Member States’ rules on health data in the light of GDPR, pubblicato dalla Commissione Europea (DG Health and Food Safety) il 12 febbraio 2021. ↑
Punto di riferimento su tale specifica tematica resta l’opera di Dwork, C. & Aaron, R. (2014). I fondamenti algoritmici della privacy differenziale. Fondamenti e tendenze nell’informatica teorica, Vol. 9, nn. 3-4. 211–407. ↑
http://www.myhealthmydata.eu. ↑
Hanbury, A., Müller, H., Langs, G., Weber, M. (2012) Bringing the Algorithms to the Data: Cloud-based Benchmarking for Medical Image Analysis, Information Access Evaluation. Multilinguality, Multimodality, and Visual Analytics. ↑