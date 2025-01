La condivisione dei dati è una condizione essenziale per stimolare la crescita economica, estrarre nuovo valore dalle informazioni e promuovere l’innovazione. Su queste premesse si fonda la strategia europea dei dati lanciata dalla Commissione Europea nel 2020 e rinvigorita dai nuovi Regolamenti[1] approvati negli ultimi anni.

Pseudonimizzazione: un ponte tra protezione dei dati e innovazione

Da una più ampia circolazione dei dati sono attesi benefici nella ricerca scientifica, in particolare in ambito sanitario, un uso delle risorse maggiormente in linea con i principi di sostenibilità ambientale ed efficienza energetica, un generale miglioramento dei servizi a costi via via decrescenti, un incremento della sicurezza individuale e collettiva, giusto per limitarsi agli obiettivi più evidenti e immediati. Tuttavia, quando questa condivisione riguarda dati personali, è bene rimarcare che essa non può avvenire a spese di una incondizionata esposizione della persona e che vi sono diritti consolidati in materia di protezione dei dati personali da preservare.

In questo contesto, la pseudonimizzazione assume il ruolo di strumento cruciale per garantire un equilibrio tra la crescita economica e la conformità dei trattamenti al quadro giuridico in materia di protezione dei dati. Al riguardo, l’EDPB ha di recente pubblicato le proprie linee guida sulla pseudonimizzazione che possono aiutare i titolari a conciliare queste esigenze di innovazione e tutela[2].

Cosa si intende per pseudonimizzazione

Il concetto di pseudonimizzazione è definito all’art. 4.5 del GDPR come una misura di salvaguardia che consiste nel trattamento dei dati personali in modo tale che essi non possano più essere attribuiti a un interessato specifico senza l’uso di ulteriori informazioni. Queste informazioni aggiuntive devono essere conservate separatamente e protette da misure tecniche e organizzative adeguate a scongiurare l’attribuzione. La pseudonimizzazione non è una prassi nuova, ma in passato ci si limitava a sostituire alcuni identificatori della persona con codici costituiti da sequenze di caratteri alfanumerici non immediatamente intellegibili e a lasciare il resto del dato invariato. Il GDPR, che è una norma orientata alla mitigazione dei rischi, ne ha esteso la portata, definendo meglio il tipo di tutela, proprio in ragione dei rischi a cui gli interessati possono essere esposti. Oggi possiamo dire che la pseudonimizzazione è un articolato processo, che richiede un accresciuto livello di consapevolezza da parte dei titolari rispetto alle prime implementazioni e un vero e proprio impianto concettuale, in assenza del quale si rischia di muoversi senza bussola e di non raggiungere gli obiettivi di tutela individuati dal Regolamento.

Vantaggi della pseudonimizzazione

Uno dei principali vantaggi della pseudonimizzazione è infatti la riduzione del rischio di attribuzione di informazioni a individui specifici, garantendo che chi tratta un dato pseudonimizzato non abbia accesso a dettagli identificativi non necessari per i propri scopi. A tal fine, la tradizionale sostituzione di identificatori con pseudonimi non intellegibili è condizione necessaria ma non ancora sufficiente. Occorre un quid pluris che va ben compreso.

Esso emerge in prima battuta proprio dalla lettura della definizione di pseudonimizzazione che troviamo nel Regolamento. Qui entra in gioco l’impianto concettuale proposto dall’EDPB, che ci deve portare a considerare un dato come la concatenazione di molti attributi nel loro complesso riferibili a un interessato, ciascuno con un proprio potere identificativo. Tra questi attributi, alcuni possono in effetti essere oggetto di trasformazione: ad esempio, un nome, o un altro identificatore possono essere sostituiti da uno pseudonimo “non parlante” (per semplicità, xyz). Ma, nel nuovo quadro, assume un rilievo significativo anche la parte residua del dato stesso, ossia quella tradizionalmente non sottoposta ad alcuna trasformazione, il cui potere identificativo deve essere ponderato prima che il dato possa essere condiviso. Perché sia scongiurata l’attribuzione del dato pseudonimizzato a un interessato da parte del soggetto destinatario della condivisione bisogna infatti considerare anche tale porzione di dato, in modo da intervenire per rimuovere eventuali singolarità o attributi rari che potrebbero da soli consentire l’attribuzione del dato alla persona senza la conoscenza dell’identificatore nascosto dallo pseudonimo. Infine, vi è una ulteriore porzione di dato, la più preziosa in una condivisione, che indica uno “stato” della persona che il destinatario potrebbe trattare nell’interesse generale (ad esempio per finalità di ricerca), o per estrarre quel valore economico secondario di cui parla la Commisione Europea nella sua strategia digitale.

I due passaggi della pseudonimizzazione

La pseudonimizzazione ha dunque due passaggi: uno tradizionale di sostituzione di identificatori, l’altro di rimozione degli elementi identificativi nella porzione residua del dato. Il primo passaggio richiede l’impiego di strumenti di ingegneria della sicurezza, con l’obiettivo di non consentire di risalire all’identificatore, noto lo pseudonimo, il secondo richiede l’impiego di strumenti di data protection engineering che hanno l’obiettivo di ridurre la probabilità di inferenze corrette sull’attribuzione di un certo “stato” a uno specifico interessato. Gli attributi del dato su cui si interviene con questi strumenti di data protection engineering per ridurne il potere identificativo vengono chiamati quasi-identificatori.

Un esempio (iperbolico) può aiutare a chiarire il concetto e a riconoscere gli “oggetti”. Immaginiamo di voler pseudonimizzare il dato di Leonardo da Vinci, così composto

Nome Luogo di nascita Data di nascita Professione Leonardo da Vinci Anchiano 15 aprile 1452 Scienziato e artista

Una pseudonimizzazione naïve di tipo tradizionale che si limiti unicamente a sostituire il nome con uno pseudonimo, del tipo

Pseudonimo Luogo di nascita Data di nascita Professione xyz Anchiano 15 aprile 1452 Scienziato e artista

non è certamente idonea allo scopo indicato dall’art 4 del GDPR di impedire che il dato pseudonimizzato sia isolatamente attribuibile a un interessato specifico senza disporre della corrispondenza nome-pseudonimo.

Le novità indicate dall’EDPB

Ecco, dunque, che intervengono le novità indicate dall’EDPB, che implicano l’impiego di strumenti di data protection engineering sui quasi-identificatori (luogo e data di nascita) per ridurne l’intrinseco potere identificativo.

Un esempio d’uso dei quasi-identificatori

Attraverso tali interventi si può, per esempio, giungere a questa versione meno naïve di dato pseudonimizzato

Pseudonimo Luogo di nascita Data di nascita Professione xyz Toscana 1400-1500 Scienziato e artista

nella quale, sebbene ancora in controluce appaia Leonardo, si introduce però un margine di incertezza nell’attribuzione del dato: così rappresentato, infatti, questo dato pseudonimizzato (senza la corrispondenza nome-pseudonimo) è attribuibile anche a Piero della Francesca e a Francesco di Giorgio Martini, entrambi artisti e scienziati contemporanei e corregionali di Leonardo. Nell’esempio, la sostituzione effettuata tra nome e pseudonimo è immediatamente individuabile e comprensibile, luogo e data di nascita sono i quasi-identificatori, e la professione è lo “stato” della persona che può essere impiegato per analisi statistiche ulteriori (ad esempio, relative alla frequenza di artisti e scienziati toscani nel Rinascimento rispetto ad altre regioni). Impedire, o rendere difficile la ricongiunzione tra nome e pseudonimo richiede la realizzazione di misure di sicurezza, limitare il potere identificativo dei quasi-identificatori richiede competenze statistiche e di calcolo delle probabilità, nonché una conoscenza del contesto d’uso del dato. Tutte queste componenti concorrono alla efficace realizzazione di una pseudonimizzazione.

Il concetto di dominio di pseudonimizzazione

Per innestare compiutamente la pseudonimizzazione nei casi d’uso concreti, l’EDPB introduce un secondo concetto, quello di “dominio di pseudonimizzazione”. Questo termine descrive l’insieme dei soggetti destinatari della condivisone, nella cerchia dei quali i dati pseudonimizzati, tramite l’impiego degli strumenti a tali soggetti disponibili e delle informazioni a cui essi hanno accesso, non possono essere attribuiti a specifici interessati senza ricorrere alla corrispondenza nome-pseudonimo. I titolari possono definire di volta in volta il dominio di pseudonimizzazione sulla base di un’analisi del rischio che consideri l’informazione disponibile, il potere identificativo del dato condiviso nello specifico contesto d’uso, e che preveda misure tecniche e organizzative adeguate a mantenere separate le corrispondenze nomi-pseudonimi che consentirebbero l’attribuzione del dato. La fuoriuscita del dato dal dominio di pseudonimizzazione deriva da un comportamento attivo del destinatario del dato, che può implicare l’insorgere di responsabilità. Occorre infatti verificare se il soggetto che compie tale azione dia in effetti luogo a un trattamento non previsto negli accordi di condivisione, e se questa integri una possibile attribuzione di titolarità.

A tale riguardo, l’EDPB raccomanda di rafforzare gli accordi di condivisione con strumenti vincolanti (ad esempio, attraverso dei contratti) che incentivino un comportamento virtuoso da parte dei destinatari dei dati e che costituiscano un deterrente nei confronti di condotte che potrebbero determinare rischi o esposizioni per gli interessati, in modo che l’impiego del dato pseudonimizzato rimanga confinato quanto più è possibile all’interno del dominio di pseudonimizzazione individuato dal titolare.

Aspetti implementativi

L’ingegneria della pseudonimizzazione si concentra dunque su due passaggi: il controllo dell’accesso all’informazione aggiuntiva di cui alla definizione presente nel GDPR, ossia alla corrispondenza nome-pseudonimo, e la riduzione del potere identificativo dei quasi-identificatori. Oggi disponiamo di molte tecniche e di una consolidata esperienza che consente di conseguire ottimi risultati per entrambi gli obiettivi.

Per la scelta dello pseudonimo costituiscono fattori di tutela per gli interessati la unidirezionalità della trasformazione nome-pseudonimo, ad esempio ottenuta mediante l’impiego di funzioni di hash, la perdita nello pseudonimo di ogni sequenzialità, riferimento temporale o ordinamento presente nel dato di partenza, la varietà o entropia dello spazio degli pseudonimi impiegati, la possibilità di operare con funzioni logico-matematiche direttamente sugli pseudonimi, che può essere già oggi ottenuta efficacemente attraverso l’impiego di tecniche di secure set intersection o di secret sharing/computing, e prospetticamente con strumenti di crittografia omomorfa, l’introduzione di una struttura gerarchica nella corrispondenza nomi-pseudonimi in modo da disaccoppiare, dove necessario, i contesti d’uso dello stesso dato di partenza, la rotazione nel tempo della stessa corrispondenza[3].

Per l’ingegneria dei quasi-identificatori, al fine di ridurne il potere identificativo, si può invece ricorrere a tecniche di randomizzazione e generalizzazione degli attributi[4]. Le prime possono essere impiegate per alterare i dati cosicché essi non siano riconducibili a persone specifiche. La randomizzazione implica l’introduzione di variabilità casuale nei dati attraverso l’aggiunta di rumore statistico, in modo che le informazioni originali vengano modificate, ma senza compromettere l’uso complessivo dei dati per analisi statistiche o studi aggregati. Le seconde invece non incidono sulla veridicità del dato, che resta impregiudicata, ma consistono nel ridurre il livello di dettaglio (come nel nostro esempio sul dato di Leonardo da Vinci), sostituendo a valori puntuali le categorie o gli intervalli a cui quei valori appartengono, permettendo analisi che si basano su gruppi piuttosto che su informazioni specifiche riferibili a singoli individui. Queste stesse tecniche di randomizzazione e generalizzazione, in assenza della corrispondenza nome-pseudonimo e quando il livello di incertezza introdotto sui quasi-identificatori rende praticamente randomica (ossia frutto del caso) l’attribuzione del dato a uno specifico interessato, diventano tecniche di anonimizzazione[5].

Riduzione dei rischi e opportunità della pseudonimizzazione

Questo impianto e questa interpretazione dei concetti di pseudonimizzazione e di dominio di pseudonimizzazione e l’ampia disponibilità di misure tecniche consentono oggi di ridurre significativamente i rischi per gli interessati, in particolare in uno scenario di diffusa condivisione dei dati. L’EDPB si sofferma su alcuni ambiti in cui la mitigazione di rischi è più evidente, così come lo sono le opportunità offerte ai titolari.

Ad esempio, nei trattamenti basati sul legittimo interesse (art. 6.1(f) GDPR), la riduzione del rischio per i diritti e le libertà degli interessati conseguita attraverso l’impiego della pseudonimizzazione può essere considerata nel test di bilanciamento per determinare se l’interesse legittimo del titolare del trattamento prevalga sui diritti degli interessati, richiedendo, se ciò accade, l’applicazione di più stringenti misure di mitigazione. Oppure, e con ratio del tutto simile, la pseudonimizzazione è una misura di salvaguardia da valutare quando si indaga la compatibilità di un trattamento per una finalità diversa da quella per la quale i dati personali sono stati raccolti in origine (art. 6.4 GDPR). Essa può agire anche come misura supplementare per proteggere i dati personali durante i trasferimenti verso un paese terzo, quando le salvaguardie previste (ad esempio, l’applicazione di clausole contrattuali standard o norme vincolanti d’impresa) potrebbero non essere sufficienti a causa della legislazione o delle pratiche del paese destinatario[6].

Pseudonimizzazione e whistleblowing

La pseudonimizzazione svolge inoltre un ruolo fondamentale nell’applicazione dell’art. 89 del GDPR, riducendo i rischi di identificazione nell’ambito di trattamenti di dati personali per finalità di ricerca scientifica, storica o statistica, e abilitando la condivisione di dati personali tra organizzazioni in una forma che riduca al minimo l’impatto sui diritti degli interessati, senza ostacolare la possibilità di utilizzare i dati per scopi di interesse collettivo. Se opportunamente congegnata, cogliendo le indicazioni delle linee guida dell’EDPB, la pseudonimizzazione può giocare un ruolo nel contesto del whistleblowing[7], consentendo di bilanciare le esigenze di riservatezza sull’origine di una segnalazione con la necessità di garantire trasparenza sulla gestione di aziende e pubbliche amministrazioni, favorendo l’emersione di condotte illecite e riducendo il rischio di uso improprio di tali segnalazioni, in particolare come strumento di delazione o di ritorsione verso il segnalante.

Pseudonimizzazione e identificazione ai sensi dell’art. 11 del GDPR

Un’altra interessante applicazione della pseudonimizzazione riguarda il caso di trattamenti che non implicano l’identificazione, ai sensi dell’art. 11 del GDPR. Questo articolo riconosce che in alcune circostanze il titolare del trattamento potrebbe non essere in grado di identificare un interessato, “sospendendo” l’esercizio dei diritti di cui egli gode (ad esempio, di accesso, rettifica o cancellazione dei dati). Tuttavia, qualora l’interessato, in una fase diversa, fornisca elementi identificativi riconoscibili dal titolare, allora i suoi diritti potranno essere pienamente ripristinati. L’elemento identificativo, dicono le linee guida dell’EDPB, può essere proprio uno pseudonimo, la cui modalità di generazione è concordata preliminarmente tra titolare e interessato, che resta nella disponibilità di quest’ultimo fino al momento dell’esercizio dei diritti. Anche in questo caso, si tratta di uno schema nuovo, che richiede coordinamento tra titolare e interessato e che può abilitare l’esercizio dei diritti in contesti complessi come i trattamenti online, o quelli effettuati nell’ambito d’uso di algoritmi di intelligenza artificiale, nei quali l’identità con cui l’interessato si manifesta al fornitore di un servizio non coincide di norma con l’identità anagrafica.

Prospettive future

In conclusione, la pseudonimizzazione non è solo una misura tecnica di sostituzione di un identificatore con un altro “non parlante”, ma un approccio integrato che richiede l’assimilazione di un complesso impianto concettuale e uno sforzo progettuale da parte dei titolari, che consente di conciliare la necessità di innovazione con la salvaguardia dei diritti fondamentali.

Sarà interessante osservare come queste linee guida saranno interpretate ed implementate attraverso la giurisprudenza delle Corti, che sempre più frequentemente sono chiamate a dirimere situazioni nella quali l’aspetto di rilievo è la capacità identificativa del dato. Il più emblematico di questi casi è quello ancora aperto davanti alla Corte di Giustizia Europea e che vede contrapposti l’EDPS e il Single Resolution Board, ossia l’organismo responsabile della gestione delle risoluzioni bancarie nell’area dell’Unione Europea[8]. Il caso, in termini estremamente sintetici, riguarda la trasmissione, da parte di SRB a un soggetto terzo, di un dato costituito da alcuni commenti espressi da specifici interessati a cui veniva apposto un codice alfanumerico prima della trasmissione. Il punto cruciale del giudizio è la determinazione della natura personale o anonima di questo dato, in assenza di ogni elemento che possa consentire al destinatario del dato di accertare la corrispondenza tra il codice alfanumerico e l’identità di un interessato.

Alla luce del concetto di pseudonimizzazione, come emerge dalle linee guida dell’EDPB, la Corte dovrà decidere su una questione molto rilevante: ossia se in un processo di identificazione rilevi la disponibilità della corrispondenza nome-pseudonimo, e dunque solo chi ha la chiave o regola di decodifica può identificare un interessato (approccio all’identificazione indicato come relativo, in quanto si riferisce al solo soggetto che detiene la chiave o regola di decodifica), oppure se conti in misura rilevante, o addirittura prevalente, la conoscenza del contesto e il potere identificativo dei quasi-identificatori (approccio all’identificazione indicato come assoluto, in quanto si riferisce a qualsiasi soggetto che detenga informazioni contestuali utili all’identificazione).

Per ricondurre il caso al nostro semplice esempio (iperbolico), la sentenza dovrà decidere se per identificare Leonardo da Vinci sia necessario disporre della corrispondenza tra lo pseudonimo xyz e il nome (riservata a pochi soggetti) oppure se possa bastare la conoscenza dei quasi-identificatori luogo e data di nascita e di nozioni di storia dell’arte (disponibili a tutti). Sarà una decisione molto importante per la definizione stessa di dato personale e l’applicazione del GDPR, ma anche per valutare la concreta tutela che è lecito attendersi dall’impiego delle tecniche di pseudonimizzazione.

Le linee guida dell’EDPB resteranno in consultazione pubblica fino al 28 febbraio 2025.

