L’Autoriteit Persoonsgegevens (AP), l’Autorità olandese per la protezione dei dati personali, ha pubblicato a maggio due documenti relativi all’IA generativa e ad alcuni aspetti importanti da tenere in considerazione nei casi in cui entri in gioco il trattamento di dati personali: “Moving Forward responsibly: GDPR preconditions for generative AI”, che definisce cinque presupposti per uno sviluppo conforme al GDPR e “The AP’s vision on generative AI”, un paper strategico di più ampio respiro che delinea scenari futuri, rischi sistemici, strumenti normativi e linee guida per una governance dell’IA generativa. Entrambi i documenti sono in consultazione fino al 27 giugno 2025.
Il presupposto da cui parte l’Autorità è che è plausibile che durante lo sviluppo dei modelli di IA per finalità generali i dati personali siano trattati in violazione della normativa.
Pertanto, il documento evidenzia i presupposti affinché:
- la raccolta dei dati;
- la data curation;
- l’addestramento e il fine-tuning del modello;
- la diffusione di applicazioni di IA generativa
siano svolti in modo conforme alla normativa sulla protezione dei dati personali.
Indice degli argomenti
I presupposti per la raccolta dei dati
La conformità normativa nell’ambito dell’IA generativa inizia molto prima dell’addestramento del modello, ossia nella fase di costruzione del dataset che riguarda principalmente chi sviluppa o fa sviluppare i modelli di IA. L’autorità olandese identifica questa come la fase dove si concentra la maggior parte delle violazioni; pertanto, il primo presupposto per avere un’IA conforme alla normativa sulla protezione dei dati personali è quello di valutare la presenza di un’idonea base giuridica per il trattamento di dati personali inclusi nel training set. In particolare, occorre tenere a mente che la base giuridica valida per la raccolta originaria potrebbe non coprire l’utilizzo dei dati per l’addestramento dei modelli generativi.
L’Autorità, richiamando anche il parere dell’EDPB n. 28/2024, [1]individua come possibile base giuridica in questa fase il legittimo interesse del titolare del trattamento. Tuttavia, la complessità aumenta quando tra i dati personali vi rientrano anche categorie particolari[2].
I presupposti per la data curation
Il secondo presupposto si concentra sulla data curation, un processo che consente di “pulire” i dati per eliminare i dati indesiderati come il linguaggio offensivo o i dati personali che non sono necessari ai fini dell’addestramento. Questa fase è importante per la protezione dei dati personali perché è l’ultima in cui è possibile controllare attivamente quali dati personali sono inclusi nel set di dati utilizzato per addestrare il modello.
Ma non solo, secondo l’Autorità, l’eliminazione di alcuni dati personali non necessari può essere un elemento da considerare nella valutazione relativa alla possibilità di usare l’interesse legittimo come base giuridica e può contribuire altresì al rispetto del principio di minimizzazione.
In ogni caso, l’Autorità evidenzia che la data curation è un trattamento e, pertanto, necessita di una base giuridica. Tuttavia, se il soggetto che effettua il trattamento di data curation è lo stesso che raccoglie i dati, secondo l’Autorità potrebbe far riferimento, dopo una valutazione caso per caso, alla stessa condizione di liceità per entrambi i trattamenti, fatto salvo però il rispetto dei requisiti di trasparenza previsti dalla normativa.
I presupposti per l’addestramento e il fine-tuning del modello
Il terzo presupposto riguarda la necessità di garantire, laddove siano trattati dati personali, la possibilità per gli interessati di esercitare i propri diritti, tra cui il diritto di accesso e rettifica. Poiché gli interessati possono esercitare i diritti in diverse fasi della catena dell’IA, tale aspetto deve essere considerato sia dai fornitori di modelli di IA che dai deployer che utilizzano sistemi che si basano su modelli di IA generativa.
L’Autorità afferma di essere consapevole delle difficoltà per i deployer di consentire l’esercizio dei diritti degli interessati in relazione a modelli già addestrati. Per soddisfare il diritto di accesso, un titolare del trattamento potrebbe fornire l’accesso (utilizzando una funzione di ricerca) all’insieme di dati utilizzati per l’addestramento o il fine-tuning di un modello. Gli interessati possono anche esercitare il diritto alla cancellazione e alla rettifica dei dati personali che li riguardano e che sono stati utilizzati per addestrare il modello. L’Autorità afferma che una soluzione potrebbe essere quella di eliminare rapidamente i vecchi modelli e sostituirli con un nuovo modello che dovrà poi essere addestrato su un set di dati senza dati personali. Resta da vedere se tecnicamente questa soluzione è percorribile.
Inoltre, i fornitori spesso mettono a disposizione dei deployer i modelli di base senza esplicitare tutti i dati usati nell’addestramento e, senza accesso al set di addestramento, i deployer non sono in grado di identificare gli interessati. In questo caso, i dati personali sono stati trattati nel modello generativo di IA del fornitore e il deployer non è in grado di accedervi; pertanto, il deployer potrebbe rientrare nella casistica dell’art. 11, paragrafo 2, del GDPR ovvero “Qualora, nei casi di cui al paragrafo 1 del presente articolo, il titolare del trattamento possa dimostrare di non essere in grado di identificare l’interessato, ne informa l’interessato, se possibile. In tali casi, gli articoli da 15 a 20 non si applicano tranne quando l’interessato, al fine di esercitare i diritti di cui ai suddetti articoli, fornisce ulteriori informazioni che ne consentano l’identificazione”.
Una soluzione proposta dall’Autorità per ovviare a tale situazione è quella di stabilire contrattualmente che i fornitori consentano ai deployer l’accesso ai dati di addestramento recenti, se e quando richiesto, e che forniscano un nuovo modello senza i dati personali in questione, in caso di una richiesta di rettifica o cancellazione.
Un ulteriore presupposto nell’ambito dell’addestramento e del fine-tuning riguarda la trasparenza. In particolare, le finalità del trattamento devono essere indicate in modo sufficientemente specifico in riferimento anche al contesto d’uso del modello; ad esempio, ad esempio descrivendo le funzionalità del modello o specificando se il modello è stato sviluppato per scopi interni o se è destinato a una successiva distribuzione o vendita.
I presupposti per la diffusione di applicazioni di IA generativa
Il quinto presupposto riguarda la generazione di dati personali da parte della soluzione di IA. In particolare, l’Autorità evidenzia che i deployers di applicazioni di IA generativa, devono adottare tutte le misure ragionevoli per evitare la riproduzione di dati personali errati o indesiderati.
Inoltre, un altro punto importante riguarda la necessità di informare gli interessati in modo chiaro e comprensibile della possibilità di risultati errati e indesiderati nelle applicazioni di IA generativa. In questo modo, secondo l’Autorità, il titolare del trattamento contribuisce altresì all’aumento dell'”alfabetizzazione all’IA” nella società.
L’utilità del documento dell’Autorità olandese
Il documento dell’Autorità olandese è uno strumento che si può rivelare molto utile in quanto fornisce delle indicazioni operative e propone delle soluzioni che i diversi attori devono tenere in considerazione nello sviluppo e nell’utilizzo di soluzioni basate su modelli di IA generativa.
Un aspetto che si ritrova in più di uno dei presupposti indicati dall’Autorità è la disciplina contrattuale dei rapporti lungo la catena del valore dell’IA. Questo è un aspetto fondamentale da tenere in considerazione soprattutto nella scelta di un fornitore. In questo senso è utile verificare, laddove possibile, che il fornitore fornisca un modello addestrato in modo conforme alla normativa e, successivamente, disciplinare contrattualmente un eventuale supporto dello stesso fornitore nel caso in cui il modello sia addestrato con dati personali e gli interessati esercitino i propri diritti.
Note
[1] EDPB, Parere 28/2024 su taluni aspetti relativi alla protezione dei dati ai fini del trattamento dei dati personali nel contesto dei modelli di IA
[2] Sul punto è interessante il parallelismo che l’Autorità fa con i motori di ricerca. In ogni caso, evidenzia una differenza sostanziale tra motori di ricerca e modelli di IA, ossia la capacità dei motori di ricerca di soddisfare una richiesta di un interessato di cancellare i propri dati. Tale differenza potrebbe essere appianata quando sarà tecnicamente disponibile la possibilità di “machine unlearning”.