unbundling dei dati

Il DMA vuole aprire i dati, ma l’anonimizzazione resta il nodo centrale

L’anonimizzazione dei dati assume un ruolo centrale nell’attuazione del Digital Markets Act, soprattutto per la condivisione delle query di ricerca prevista dall’art. 6(11). Il punto critico riguarda lo standard tecnico-giuridico necessario a ridurre il rischio di re-identificazione

Pubblicato il 15 giu 2026

Aggiungi tra i preferiti su Google

Giuseppe D'Acquisto

Funzionario del Garante per la protezione dei dati personali, Titolare dell’insegnamento di intelligenza artificiale presso il Dipartimento di Giurisprudenza dell’Università LUISS Guido Carli

AI zero day — A futuristic glowing padlock built from illuminated circuitry, placed on a dark motherboard surface. The padlock radiates vibrant electric blue light, symbolizing cybersecurity, data protection, and d

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

L’anonimizzazione è destinata a diventare un tema centrale della compliance in materia di protezione dei dati personali. Se il quadro normativo in evoluzione confermerà una interpretazione sempre più relativa del concetto di dato personale, in cui la qualificazione giuridica del dato dipende dal contesto e, in particolare, dal costo che il soggetto che tratta il dato dovrebbe sostenere per l’identificazione degli interessati – quantificabile, ad esempio, in termini di tempo di ricerca di informazioni o di utilizzo di risorse di calcolo – la prima e più radicale opzione di compliance (e di semplificazione) per i soggetti che trattano dati tenderà a consistere nella dimostrazione che lo scopo da essi perseguito possa essere raggiunto senza alcun trattamento di dati personali, in quanto i dati trattati risultano anonimizzati all’origine contro ogni ragionevole tentativo di re-identificazione.

Riforma GDPR: cosa cambia se il dato personale diventa un concetto relativo

Indice degli argomenti

La relativizzazione del concetto di dato personale

Questa relativizzazione del concetto di dato personale non è soltanto una novità nel quadro giuridico in materia di protezione dei dati, ma si colloca all’interno di una più ampia trasformazione della regolazione europea dei mercati digitali, esplicitamente orientata a incrementarne il livello di apertura e contestability.

In questa prospettiva, il Digital Markets Act (DMA) è il “luogo” nel quale questa architettura regolatoria inizia a prendere forma. Esso infatti introduce un insieme di obblighi rivolti ai c.d. gatekeeper (ossia, motori di ricerca, app store o servizi di messaggistica) per facilitare l’accesso ai dati generati dai loro clienti da parte di soggetti terzi. La condivisione di tali dati, opportunamente anonimizzati, diviene così uno degli strumenti principali attraverso cui il legislatore europeo mira a rafforzare l’apertura e la contestabilità dei mercati digitali.

Dall’unbundling infrastrutturale all’unbundling dei dati

Letta sistematicamente, questa evoluzione segna un passaggio storico di grande rilievo nella regolamentazione dei settori dell’economia digitale: da forme di unbundling infrastrutturale che si sono sviluppate negli ultimi trent’anni per promuovere l’ingresso di nuovi attori nei mercati digitali, a un progressivo unbundling non infrastrutturale basato sulla condivisione di un asset immateriale come i dati.

In questa traiettoria è possibile leggere una continuità evolutiva del concetto di unbundling nella regolamentazione dei mercati digitali. La regolazione ha infatti progressivamente spostato il proprio focus dall’infrastruttura fisica (il doppino telefonico, la fibra ottica, i circuiti trasmissivi, fino alle risorse di calcolo e memorizzazione del cloud) alla componente logica e funzionale del sistema e infine ai dati, seguendo lo spostamento del valore economico lungo la catena tecnologica.

Oggi l’estensione del concetto di unbundling ai dati implica nuove considerazioni tecnico-normative e in primo luogo presuppone che attraverso la condivisione dei dati non siano lesi altri diritti, in primo luogo la protezione dei dati personali degli utenti. L’anonimizzazione opera proprio come strumento tecnico che consente tale compatibilità. Essa cessa così di essere soltanto una tecnica di protezione dei dati personali a tutela della loro riservatezza e tende a divenire una condizione di funzionamento dei meccanismi di apertura e contestabilità dei mercati digitali.

Ciò comporta uno spostamento massivo dello sforzo di compliance privacy verso le fasi preliminari del trattamento, in cui l’opzione dell’uso di dati personali è controbilanciata dalla loro sostituibilità con dati effettivamente (anche se magari soltanto relativamente) anonimizzati.

Il primo esempio significativo di tale modello è l’art. 6(11) del DMA, che impone a Google la condivisione a soggetti terzi di dati relativi alle query di ricerca, inclusi ranking, click e visualizzazioni, subordinandola alla previa anonimizzazione dei dati personali degli utenti in esse contenuti.

La disposizione non si limita a prevedere un obbligo di accesso, ma condiziona tale accesso alla trasformazione giuridica del dato. L’art. 6(11) integra così due operazioni non scindibili: apertura del mercato e neutralizzazione della natura personale del dato. L’anonimizzazione non è quindi accessoria, ma diventa condizione costitutiva della circolazione concorrenziale dei dati.

Sotto questo profilo, l’art. 6(11) assume un significato che va oltre la disciplina dei motori di ricerca. Esso rappresenta uno dei primi tentativi di costruire un meccanismo di apertura del mercato fondato non più sulla condivisione di infrastrutture fisiche o logiche, ma sulla circolazione di dati resi disponibili per finalità ulteriori rispetto a quelle originarie. In questa prospettiva, l’anonimizzazione tende ad assumere, per l’economia dei dati, una funzione analoga a quella che l’unbundling infrastrutturale ha svolto negli ultimi decenni: rendere accessibile una risorsa essenziale senza compromettere i vincoli giuridici che ne limitano la circolazione.

La razionalizzazione anticipata della compliance

Questo modello regolatorio implica uno spostamento concettuale rilevante. La compliance in materia di protezione dei dati si radicalizza e diviene un criterio progettuale ex ante. La valutazione sulla sussistenza di trattamenti di dati personali ha luogo nella fase iniziale di condivisione e l’uso di dati personali può essere reso sostituibile da dataset anonimizzati ogniqualvolta ciò sia tecnicamente possibile e idoneo al raggiungimento di uno scopo.

Tale dinamica, non è difficile prevederlo, si estenderà oltre l’applicazione dell’art. 6(11) del DMA, investendo il training degli algoritmi di intelligenza artificiale, la generazione di dati sintetici, la ricerca scientifica e l’advertising, ossia un ampio spettro di casi, da quelli di interesse più generale a quelli più commerciali. L’anonimizzazione, anche intesa nella sua più ristretta accezione relativa, diviene condizione preliminare per una più estesa circolazione dei dati.

Il problema della re-identificazione e la dimensione istituzionale

Tuttavia, proprio questa centralità introduce un problema: la definizione dello standard di anonimizzazione. Ossia, occorre stabilire quale livello di rischio di re-identificazione sia accettabile.

Il concetto di anonimizzazione è purtroppo spesso malinteso e ricondotto a un problema di sicurezza, cioè a un problema di trasformazione di un dato singolo attraverso l’uso di tecniche crittografiche. In realtà, non si anonimizza un singolo dato, ma un insieme di dati. Non si re-identifica un dato se si scopre il nome della persona a cui quel dato si riferisce, ma se disponendo di una conoscenza parziale del dato si è in grado, attraverso l’accesso a un insieme di dati anonimizzati, di estendere la conoscenza ad altri attributi della persona non noti in partenza.

Ogni tecnica di anonimizzazione lascia una probabilità residua di re-identificazione su un dataset anonimizzato che è ineliminabile e che non è un fallimento della tecnica. Cioè, questa estensione di conoscenza resta sempre possibile per una certa percentuale di dati di un dataset. La percentuale di dati rispetto ai quali tale estensione di conoscenza risulta possibile può essere progressivamente ridotta attraverso interventi di randomizzazione e generalizzazione, a spese dell’utilità del dato.

Finché questo assetto concettuale non sarà chiaro, si correrà il rischio concreto che ogni obiettivo mal congegnato di tutela dei diritti e di contestabilità del mercato (ma anche, in diversi contesti, di ricerca scientifica) diventi oggetto di contenzioso. Ne deriva un possibile inatteso irrigidimento delle dinamiche dei mercati digitali, con l’effetto che la circolazione dei dati, anziché essere guidata da criteri di anonimizzazione ex ante, venga limitata ex post attraverso decisioni giudiziarie. In tal caso, l’obiettivo di contestabilità potrebbe risultare indebolito proprio dal meccanismo che dovrebbe realizzarlo.

La definizione dello standard di anonimizzazione assume pertanto una funzione centrale: esso determina non soltanto il livello di tutela degli interessati, ma anche l’effettiva possibilità di condividere i dati in condizioni di certezza giuridica. In altri termini, essa opera simultaneamente come tecnica e come criterio giuridico di accesso ai dati.

Le misure di anonimizzazione delle query di ricerca di Google

In tale contesto, le misure di anonimizzazione predisposte dalla Commissione per l’attuazione dell’art. 6(11) del DMA si sviluppano secondo un insieme strutturato di operazioni di trasformazione preliminare dei dati, finalizzate a ridurre il rischio di re-identificazione.

In estrema sintesi, esse includono, in primo luogo, interventi di attribute suppression, mediante i quali vengono rimossi o generalizzati identificatori quali ID utente, indirizzi IP, device identifiers, timestamp. Quindi, viene introdotto un meccanismo di allowlist basato sulla frequenza degli elementi (entity) presenti nelle query, volto a individuare le entità più ricorrenti e a consentire la condivisione delle query solo al superamento di soglie minime di occorrenza. Infine, sono introdotte soglie dimensionali che scartano query particolarmente lunghe.

La logica sottostante appare chiara: eliminare identificatori diretti, escludere entità statisticamente rare e limitare la condivisione alle sole query che presentano un sufficiente grado di diffusione nella popolazione degli utenti. Lo standard proposto privilegia dunque criteri semplici, verificabili e idonei a una applicazione automatizzata su larga scala. Inoltre, molto correttamente, esso non introduce alcuna fuorviante commistione tra misure di sicurezza e misure di protezione dei dati.

Tuttavia si tratta di misure perfettibili, che non affrontano adeguatamente il rischio che la re-identificazione non derivi da singole entità, ma dalla loro combinazione. Il punto centrale è che la re-identificazione non dipende necessariamente dalla presenza di entità altamente identificanti considerate singolarmente, ma può derivare dalla loro combinazione. Possono infatti esistere entità non particolarmente rare se considerate separatamente che lo diventano quando sono presenti congiuntamente in una query.

Una combinazione di attributi professionali, geografici o biografici può risultare altamente identificativa pur essendo composta da elementi che, considerati separatamente, compaiono con elevata frequenza. Il problema non è meramente teorico e può essere affrontato attraverso tecniche di anonimizzazione che operano sulle combinazioni di attributi anziché sui singoli attributi considerati isolatamente.

È il paradosso degli eventi rari: non soltanto caratteri non rari possono dare luogo a singolarità, ma anche quando la probabilità di re-identificazione associata a una combinazione di entità è estremamente bassa, la larga scala delle query di ricerca rende tale rischio tutt’altro che trascurabile in termini assoluti. In un ecosistema caratterizzato da miliardi di query giornaliere, anche eventi probabilisticamente marginali possono tradursi in migliaia di casi di potenziale re-identificazione al giorno e in milioni su base annuale.

Conclusioni

L’analisi svolta consente di tornare al punto di partenza: il ruolo dell’anonimizzazione come presupposto giuridico e funzionale dell’unbundling dei dati nei mercati digitali. L’idea che la circolazione dei dati possa essere resa possibile solo a condizione che essa non implichi la riconducibilità delle informazioni a soggetti identificabili costituisce, infatti, la premessa implicita dell’intero impianto regolatorio qui esaminato.

In questo quadro, e nel caso specifico dell’applicazione dell’art. 6(11) del DMA, ciò che è messo a rischio non è solo la riservatezza delle query di ricerca degli utenti europei, ma la tenuta complessiva dell’impianto regolatorio. Laddove lo standard di anonimizzazione che sarà stabilito a breve dalla Commissione Europea non tenesse adeguatamente conto delle dinamiche di re-identificazione derivanti dalla combinazione di entity e dalla scala dei trattamenti, è plausibile che la sua applicazione diventi oggetto di un contenzioso che potrebbe spingersi fino all’interpretazione del diritto dell’Unione da parte della Corte di giustizia.

In scenari di questo tipo, il problema dell’anonimizzazione tenderebbe a spostarsi dal piano tecnico a quello giurisdizionale, con il rischio che la sua definizione effettiva si consolidi ex post attraverso decisioni giudiziarie piuttosto che mediante criteri tecnici definiti ex ante.

Si impone pertanto una particolare cautela da parte della Commissione Europea nella definizione degli standard applicabili ex ante, al fine di ridurre il rischio che l’incertezza venga trasferita sul piano giudiziale e che, proprio nei settori nei quali il legislatore europeo intende rafforzare la contestabilità dei mercati, si producano effetti di rallentamento della circolazione dei dati.

@RIPRODUZIONE RISERVATA