Si scopre l’esistenza di un mega database di dati personali, volti, documenti d’identità, certificati di nascita eccetera, usato per allenare l’intelligenza artificiale. La questione emerge grazie al paper accademico “A Common Pool of Privacy Problems”[1] (Hong et al., giugno 2025) che però ci fa capire anche la dimensione più vasta del problema.
Ossia: tutto ciò che è stato pubblicato online rischia di essere divorato dall’AI. Con buona pace della privacy e delle norme europee.
Il paper infatti offre un’analisi approfondita su uno dei temi più critici e meno discussi dell’intelligenza artificiale generativa: la natura dei dati su cui i modelli vengono addestrati.
Indice degli argomenti
Il mega database DataComp CommonPool con dati personali usati per l’AI
Utilizzando come caso di studio il dataset DataComp CommonPool (12,8 miliardi di coppie immagine-testo raccolte da internet tra il 2014 e il 2022), gli autori conducono un’audit tecnico-legale senza precedenti. L’evidenza che ne emerge è netta, anche i dataset teoricamente “open” e “anonimizzati” possono contenere informazioni personali sensibili, inclusi volti, indirizzi, documenti d’identità, certificati di nascita, email, numeri di carte di credito, CV e persino dati sui minori.
Metodologia dell’audit
Il team di ricerca ha scaricato un sottoinsieme casuale pari allo 0,1% del dataset totale, equivalente a 12,8 milioni di campioni, per condurre un’indagine rappresentativa sui contenuti di CommonPool. La metodologia ha previsto un’analisi multilivello che integra strumenti automatizzati e verifica umana. È stato utilizzato l’OCR per estrarre il testo contenuto nelle immagini, mentre l’algoritmo Presidio ha identificato le informazioni personali (Personally Identifiable Information) attraverso tecniche di riconoscimento di entità. I dati testuali sono stati incrociati con i metadati (inclusi tag EXIF) e con l’analisi delle URL da cui provenivano le immagini. L’intero processo è stato supportato da una fase di ispezione manuale che ha permesso di confermare la natura sensibile dei dati individuati. I risultati emersi da questo campione sono stati quindi proiettati sull’intero dataset da 12,8 miliardi di elementi, permettendo di stimare l’ampiezza del problema con un buon grado di confidenza.
Cosa c’è davvero dentro il data base CommonPool
L’audit condotto sullo 0,1% del dataset ha rivelato una presenza massiccia e sistemica di dati personali all’interno di CommonPool, confermando che la presunta natura “anonimizzata” del dataset non regge alla prova dei fatti. Tra i contenuti emersi ci sono oltre 102 milioni di volti umani non oscurati, a conferma che i filtri automatici sono risultati inefficaci o disattivati. Sono state identificate almeno 142.000 immagini contenenti curriculum vitae autentici, molti dei quali riportano informazioni altamente sensibili, come lo stato di disabilità, la presenza di figli, il luogo e la data di nascita, l’origine etnica, l’esito di controlli sui precedenti e altri dettagli privati. Numerosi documenti identificativi come passaporti, carte d’identità, patenti di guida e certificati di nascita sono stati trovati e validati. Una parte non trascurabile dei dati riguarda i minori, inclusi documenti ufficiali, fotografie e condizioni mediche, suggerendo che tali contenuti siano stati originariamente condivisi in contesti molto specifici, come forum familiari o blog personali.
Inoltre, i tag EXIF delle immagini (i metadati incorporati automaticamente all’interno dei file immagine) contengono frequentemente informazioni identificative come nomi reali e coordinate GPS, che permettono una ricostruzione dettagliata dell’identità e della localizzazione degli individui ritratti. L’insieme di questi elementi dimostra quanto sia concreta e diffusa la violazione della privacy nei dataset utilizzati per addestrare modelli generativi, e quanto sia necessaria una revisione profonda delle pratiche di raccolta e condivisione dei dati nel campo dell’intelligenza artificiale.
AI: il paradosso del consenso
Il dataset DataComp CommonPool è stato costruito a partire da dati raccolti sul web tra il 2014 e il 2022, in un periodo in cui i modelli generativi di intelligenza artificiale non erano ancora noti al grande pubblico. Molti dei contenuti presenti, come fotografie, curriculum, certificati e dati identificativi, sono stati pubblicati online in contesti che non prevedevano un loro utilizzo per addestrare modelli di AI su larga scala. Ne deriva che, anche qualora gli utenti avessero fornito un consenso implicito alla diffusione pubblica dei dati, ad esempio caricandoli su blog, social o siti professionali, tale consenso non può essere considerato valido o informato rispetto agli usi attuali.
Le implicazioni giuridiche e morali di questo disallineamento temporale sono profonde: non è possibile acconsentire retroattivamente a qualcosa che, all’epoca della pubblicazione, non esisteva nemmeno. Inoltre, anche laddove siano state predisposte misure di opt-out, come nel caso del sistema integrato di Hugging Face, queste presuppongono che l’utente sia a conoscenza del fatto che i suoi dati siano finiti nel dataset, un’ipotesi molto difficile da verificare, data la scala delle operazioni di scraping e la mancanza di trasparenza. Questo paradosso evidenzia un limite sistemico nella gestione del consenso: la responsabilità non può ricadere sul singolo cittadino, ma richiede un ripensamento strutturale delle regole alla base della raccolta e dell’impiego dei dati pubblici in ambito AI.
AI, ma quale privacy: i limiti della pulizia automatica
L’illusione che i dataset di addestramento possano essere efficacemente ripuliti da informazioni personali attraverso filtri automatici viene smontata dal caso CommonPool. I ricercatori hanno scoperto che il sistema di oscuramento dei volti implementato nel dataset è non solo disattivabile, ma anche largamente inefficace: ben 102 milioni di volti sono risultati visibili nonostante i tentativi di mascheramento. Questo dato dimostra quanto siano ancora immature le tecnologie di face blurring (oscuramento del volto), soprattutto quando applicate a dataset di ampiezza enorme e provenienza eterogenea.
Ma il problema va oltre l’identificazione visiva, anche in assenza di volti, i modelli di intelligenza artificiale sono oggi in grado di inferire caratteristiche sensibili come il genere, l’etnia o l’età di una persona a partire da contesti visivi minimi o da dettagli residuali. Un’altra area critica riguarda l’assenza di filtri efficaci su informazioni testuali come indirizzi email, numeri di previdenza sociale o codici identificativi. Questi elementi sono spesso presenti nei metadati delle immagini, nei contenuti OCRizzati o nei testi associati ai file. I sistemi di rimozione automatica oggi disponibili non riescono a garantire l’eliminazione sistematica di queste informazioni, né a distinguere con sufficiente accuratezza tra dati sensibili e contenuti neutri. Inoltre, anche quando una parte del dataset viene modificata, non è affatto scontato che i modelli già addestrati vengano aggiornati di conseguenza, lasciando la porta aperta a violazioni persistenti della privacy. In sintesi, la pulizia automatica, pur rappresentando una buona intenzione, si rivela insufficiente nel fronteggiare l’enorme complessità e varietà delle informazioni personali contenute nei dataset moderni. Serve un cambio di paradigma: dalla mitigazione tecnica ex post a una prevenzione giuridico-procedurale ex ante, in cui l’uso dei dati sia governato da principi più rigorosi e trasparenti.
Il mito del “dato pubblico” con l’AI
L’idea che tutto ciò che è online sia automaticamente considerabile “dato pubblico” rappresenta uno dei più grandi fraintendimenti nell’ambito della regolazione dell’intelligenza artificiale. Il paper lo affronta con nettezza, mostrando come la disponibilità pubblica non sia sinonimo di legittimità d’uso indiscriminato, soprattutto quando si parla di dati personali. La convinzione che l’accessibilità su internet comporti la perdita del diritto alla privacy è non solo fuorviante, ma in contrasto con il quadro normativo vigente, in particolare con il GDPR europeo.
Secondo il regolamento, la presenza online di un’informazione non ne azzera automaticamente la natura personale, né annulla l’obbligo di trattarla nel rispetto dei principi di liceità, trasparenza e minimizzazione. Il problema si acuisce nel momento in cui dataset come CommonPool aggregano miliardi di dati provenienti da fonti diverse.
L’effetto cumulativo di questa operazione è quello di distruggere quella che viene definita “obscurità pratica”[2]: un principio implicito per cui un’informazione, pur tecnicamente accessibile, rimane di fatto difficile da trovare o sfruttare su larga scala.
Ma quando milioni di immagini, documenti e testi vengono rastrellati, ordinati e messi a disposizione per l’addestramento di modelli generativi, quell’obscurità si dissolve e il dato assume una nuova valenza, diventando risorsa sfruttabile, monetizzabile, replicabile. Non è solo una questione tecnica, ma politica e culturale. L’assenza di un consenso esplicito e informato, la mancanza di trasparenza nel processo di raccolta, l’impossibilità per gli individui di opporsi o anche solo di essere consapevoli della presenza dei propri dati nei dataset sono segnali di una governance opaca. Il paper dimostra che occorre superare la falsa dicotomia tra “pubblico” e “privato” e abbracciare una concezione più sfumata e contestuale del dato: un contenuto può essere pubblicamente accessibile, ma non per questo liberamente riutilizzabile, soprattutto se entra in gioco la dimensione automatizzata e predittiva dell’intelligenza artificiale.
Dati per l’AI: una governance opaca e irresponsabile
La catena di responsabilità nella costruzione dei dataset di addestramento AI è oggi talmente spezzettata da rendere impossibile attribuire un controllo chiaro e unitario. I dati personali attraversano molteplici mani: chi appare nelle immagini è raramente la stessa persona che le carica online, né chi le carica è consapevole del fatto che i contenuti verranno raccolti da sistemi automatici per fini del tutto differenti rispetto a quelli originali.
A questi si aggiungono i curatori dei dataset, spesso ricercatori o organizzazioni che selezionano e aggregano i dati; gli sviluppatori di modelli, che utilizzano questi dataset per addestrare intelligenze artificiali; e infine gli utenti finali dei modelli, che beneficiano di strumenti generativi potenti ma opachi nella loro origine informativa. Questo ecosistema produce un effetto collaterale grave: una perdita sistemica di controllo e trasparenza.
Nessuno degli attori coinvolti possiede una visione d’insieme sul ciclo completo, né ha gli strumenti o l’obbligo giuridico di garantire che le informazioni personali non vengano abusate. La raccolta e l’utilizzo dei dati avvengono in un contesto normativo spesso inadeguato, dove la responsabilità è diluita e la governance appare più emergente che progettata. Il risultato è una filiera che normalizza l’appropriazione non autorizzata di contenuti personali, amplificando le asimmetrie tra chi genera i dati, spesso inconsapevolmente, chi li sfrutta per fini economici, sperimentali o strategici. Questa opacità sistemica impone una riflessione urgente su nuovi meccanismi di responsabilità distribuita, auditability dei processi e tracciabilità delle fonti, se si vuole preservare un minimo di fiducia e legittimità nell’uso dell’AI generativa.
Raccomandazioni privacy nell’era AI
Alla luce dei risultati emersi dall’analisi di CommonPool è evidente la necessità di un cambio di paradigma nella governance dei dati utilizzati per addestrare i modelli di intelligenza artificiale. Occorre innanzitutto rivedere il concetto giuridico di “disponibilità pubblica”, che oggi consente l’appropriazione sistematica di contenuti personali solo perché accessibili online.
Questo principio, così come viene attualmente interpretato, risulta anacronistico e inadeguato a fronte della capacità delle tecnologie moderne di aggregare, replicare e monetizzare dati sensibili su scala massiva.
Parallelamente, è fondamentale introdurre limiti stringenti allo scraping indiscriminato, promuovendo standard normativi e tecnici che distinguano tra contenuti effettivamente pubblici e contenuti pubblicamente accessibili ma soggetti a vincoli d’uso. La trasparenza nei processi di raccolta e l’obbligo di rendere noti i criteri di selezione e pulizia dei dataset devono diventare requisiti obbligatori in qualsiasi attività di sviluppo di modelli generativi. Un’altra misura imprescindibile riguarda l’implementazione sistematica di audit indipendenti sui dataset, accompagnata dall’utilizzo di filtri realmente efficaci per l’identificazione e la rimozione dei dati personali. Questo deve includere l’analisi delle immagini, dei testi associati, dei metadati e delle fonti d’origine. I risultati di tali audit dovrebbero essere pubblici, verificabili e accompagnati da piani di correzione. Infine, è necessario rafforzare il quadro regolatorio che governa i dataset downstream e i modelli che da essi derivano. Anche qualora i dati originali vengano rimossi, i modelli già addestrati possono continuare a contenere, replicare o inferire informazioni personali. Questo richiede un’estensione del concetto di responsabilità anche alla fase post-addestramento, con l’obbligo di aggiornare, mitigare o persino ritirare i modelli in presenza di violazioni documentate. La privacy e la giustizia informativa devono diventare criteri centrali nel ciclo di vita dell’AI, non semplici optional etici.
CommonPool: un caso emblematico
Il caso CommonPool dimostra con chiarezza che l’intelligenza artificiale generativa si fonda su basi tecniche e giuridiche ancora immature, spesso pericolosamente trascurate.
L’idea che il consenso implicito, la disponibilità pubblica dei dati o l’adozione di filtri automatici possano da soli garantire la tutela della privacy appare oggi del tutto illusoria. Ciò che è in gioco non è soltanto la liceità formale dei processi, ma una questione più ampia di giustizia informativa, trasparenza procedurale e riequilibrio delle asimmetrie di potere tra chi genera dati e chi li sfrutta.
La protezione della privacy non può essere una responsabilità individuale in un contesto digitale ipercomplesso, ma deve diventare un principio architettonico dei sistemi di AI. È tempo di ripensare radicalmente il modello di governance, passando da una logica estrattiva e opaca a una visione fondata su responsabilità condivise, auditability, limiti tecnici e garanzie legali coerenti con i rischi emergenti.
Note
[1] https://arxiv.org/pdf/2506.17185
[2] “practical obscurity”, introdotto nel dibattito sulla privacy prima dell’era digitale. Significa che un’informazione può essere tecnicamente pubblica ma di fatto difficile da reperire e quindi protetta da una forma implicita di anonimato. Ad esempio, un documento archiviato fisicamente in una biblioteca è accessibile, ma richiede tempo e sforzo per essere trovato; al contrario, una versione digitalizzata e indicizzata dello stesso documento elimina tale “obscurità” e ne amplifica l’esposizione e i rischi.










