DATI E PRIVACY

Anonimizzazione dei dati, le innovazioni degli standard ISO

La norma ISO/IEC 27559:2022 introduce un nuovo standard di anonimizzazione dei dati, con l’obiettivo di attenuare i rischi durante il ciclo di trattamento dei dati. Le tecniche di anonimizzazione, per quanto evolute, presentano però ancora delle criticità e gli scenari dei big data pongono temi non del tutto esplorati

Pubblicato il 06 Apr 2023

Davide Agnello

Analyst, Hermes Bay

Claudia Domenica Bertuca

linee guida sviluppo sicuro intelligenza artificiale

Nel 2022, l’Organizzazione Internazionale per la Normazione (ISO) ha pubblicato la norma ISO/IEC 27559:2022, la quale introduce un nuovo standard di anonimizzazione dei dati, perseguendo un ruolo sempre più centrale per gli esperti di privacy. Il fulcro di questa norma risiede nella definizione delle migliori pratiche per il riutilizzo e la condivisione dei dati degli utenti.

Nell’ambito del percorso avviato, sono stati coinvolti esperti di livello globale, i quali valutano il panorama di interesse e sviluppano standard per risolvere le esigenze. Uno standard garantisce alle parti interessate la certezza che un processo o un prodotto implementato siano sicuri, affidabili e di buona qualità.

Sicurezza delle informazioni, la nuova ISO/IEC 27001:2022: ecco cosa cambia

In tal senso, i dati sensibili possono essere riutilizzati in diverse modalità, come per identificare i servizi e attuare approfondimenti in grado di distinguere un’organizzazione, mediante la creazione di dati per soddisfare le richieste della società. Tuttavia, ci sono molte dimensioni nel riutilizzo dei dati, come le esigenze legate alla sicurezza, le quali richiedono controlli amministrativi e tecnici per proteggere i dati da accessi non autorizzati o impropri.

Indice degli argomenti

Il nuovo standard ISO

L’obiettivo del nuovo standard di “de-identification” ISO/IEC 27559 è incentrato all’attenuazione dei rischi durante il ciclo di trattamento dei dati. Alcuni aspetti dello standard definiscono una serie di tecniche di “de-identification”, come la governance dei dati per garantire che i rischi siano monitorati e affrontati in caso di necessità.

Gli esperti, una volta che gli organismi nazionali di normazione avranno adottato il nuovo quadro, verificheranno che la loro conformità sia appropriata allo standard. Un processo che dovrebbe favorire una valutazione dei controlli necessari per la gestione del rischio.

Questo standard disegna vari scenari in base alle modalità in cui un’organizzazione responsabile del trattamento può rendere disponibili i dati anonimizzati sulla rete.

Di fatto, l’evoluzione in tema di “de-identification” dei dati svolge un ruolo rilevante in termini di standardizzazione delle tecniche in grado di comprovare la sicurezza. L’elenco dettagliato dei controlli fornito dalla norma ha lo scopo di facilitare la valutazione dei rischi relativi ai dati non identificati. Attraverso l’attuazione di questi controlli dovrebbe essere possibile attuare correttamente le tecniche di “de-identification”, garantendo una governance efficace dei dati non identificati.

Con la condivisione e lo scambio di dati sempre più comuni, l’anonimizzazione rappresenterebbe un metodo per ridurre il rischio di fughe di dati, la re-identificazione degli utenti o il verificarsi di incidenti legati al mancato rispetto delle normative sulla privacy.

In base ad un rapporto redatto nel 2022 da Database Trends and Applications (DBTA) sulle sfide alla salvaguardia e alla governance dei dati, i casi di compromissione dei dati sono aumentati di quasi il 70% dal 2020 al 2021, con un costo medio di ogni violazione dei dati pari a 4,24 milioni di dollari. Le multe per le sole violazioni legate al GDPR sono aumentate di sette volte nel 2021, per un totale di oltre un miliardo di dollari. Tuttavia, le sanzioni pecuniarie non basterebbero a coprire il danno reputazionale e la perdita di fiducia che le organizzazioni potrebbero subire per aver protetto in modo errato i dati sensibili.

Secondo Heather Devane, Direttore Marketing del Marchio e dei Contenuti di Immuta, azienda statunitense sviluppatrice di piattaforme cloud, l’anonimizzazione dei dati, identificata come una tattica per conformarsi al GDPR e all’Health Insurance Portability and Accountability Act (HIPAA) degli Stati Uniti, continuerà a crescere d’importanza con la definizione di nuove leggi sulla privacy.

Le tecniche di anonimizzazione

Tra le tecniche principali figurano:

il mascheramento. Tale metodo di controllo degli accessi nasconde i valori in un insieme di dati in modo da consentire l’accesso, impedendo che i valori originali vengano riprodotti. Le tecniche più comuni di mascheramento includono la k-anonimizzazione, che consiste nell’assicurare che ogni valore relativo a un soggetto interessato sia condiviso da un numero minimo k di altre persone all’interno di un gruppo; la crittografia e la privacy differenziale, metodologia in cui viene iniettato un rumore randomizzato nel processo di analisi dei dati;
la pseudonimizzazione. Questa tecnica fa riferimento al processo di mascheramento degli identificatori diretti in una serie di dati, sostituendoli con identificatori artificiali. Ad esempio, i dati possono essere considerati pseudonimi se gli indirizzi e-mail delle persone vengono sostituiti con numeri; le informazioni originali, direttamente identificabili, vengono rimosse, ma ogni numero è specifico e può quindi essere ricomposto da chiunque abbia le conoscenze. La differenza fondamentale con l’anonimizzazione è il trattamento degli identificatori indiretti: la pseudonimizzazione non considera questi attributi ed è destinata a essere reversibile, al contrario dell’anonimizzazione.

Sebbene il GDPR incoraggi la pseudonimizzazione come mezzo per ridurre il rischio, i dati pseudonimizzati non sono esenti dalla sua giurisdizione come i dati anonimizzati. Infatti, il Motivo 26 del GDPR sancisce che, “per stabilire l’identificabilità di una persona è opportuno considerare tutti i mezzi, come l’individuazione, di cui il titolare del trattamento o un terzo può ragionevolmente avvalersi per identificare detta persona fisica direttamente o indirettamente.” Poiché la pseudonimizzazione non tiene conto degli identificatori indiretti, questa non è considerata un metodo sufficiente per anonimizzare i dati;

la generalizzazione. Questa funzionalità avviene quando le misure di protezione mappano molti valori diversi su uno solo. Un esempio di generalizzazione dei dati è il raggruppamento di età specifiche in fasce d’età o in categorie lavorative correlate sotto un termine generico adeguato; un altro esempio di generalizzazione è l’arrotondamento numerico. In genere, questo processo sarebbe maggiormente efficace quando si introduce un’ambiguità sufficiente a raggiungere gli obiettivi di privacy, garantendo al contempo che i dati mantengano una sufficiente affidabilità per il loro scopo;
la perturbazione. Questa funzionalità randomizza alcuni elementi per aggiungere vaghezza a un set di dati in modo ripristinabile, senza influire sull’accuratezza delle analisi. Ciò può avvenire introducendo rumore nei valori numerici sensibili o alterando in modo casuale le variabili categoriali. La perturbazione è spesso utilizzata per proteggere i dati elettronici sensibili come le cartelle cliniche elettroniche (EHR).
lo scambio. Si tratta della riorganizzazione dei dati in un set, in modo che i valori degli attributi non corrispondano più ai dati originali. Questo strumento risulta utile nell’apprendimento automatico (ML) poiché aiuta ad addestrare i modelli utilizzando lotti di test rappresentativi dell’insieme dei dati;
i dati sintetici. Questi sono generati dalla macchina, ma rispecchiano i dati sensibili reali. Gli algoritmi sono spesso utilizzati per creare questi dati artificiali, che vengono impiegati per la convalida dei modelli di ML e AI. Poiché la modellazione richiede serie di dati considerevoli, i dati sintetici permettono di non dover raccogliere grandi volumi di informazioni personali potenzialmente sensibili.

L’anonimizzazione presenta vari vantaggi, tra cui la riduzione dell’esposizione involontaria dei dati sensibili e la diminuzione del rischio di compromissione degli stessi; inoltre, vengono utilizzati algoritmi semplici per scambiare, generalizzare, pseudonimizzare o mascherare i dati, rendendo il processo veloce.

Allo stesso tempo, le tecniche di anonimizzazione presentano ancora delle criticità come la minore accuratezza delle analisi e la perdita di relazioni fra i dati. Inoltre, l’anonimizzazione è accurata solo con dati aggregati e non può essere utilizzata per analizzare dati individuali o per collegarli tra più database. Infine, permangono i rischi per la privacy riguardo alla pseudonimizzazione e al trasferimento dei dati alle terze parti.

Secondo una ricerca di Gradiant, società statunitense specializzata in sicurezza informatica, la progettazione di soluzioni di anonimizzazione efficaci diventerebbe particolarmente complessa nell’epoca dei Big Data.

L’anonimizzazione negli scenari dei Big Data

Innanzitutto, per scegliere l’approccio più adatto, è importante analizzare a fondo i dati per identificare le informazioni sensibili. Inoltre, i dati anonimi devono garantire che un soggetto non possa essere individuato quando si collega il set di dati con altre informazioni disponibili. È stato dimostrato che la rimozione degli identificatori diretti da un set di dati non è sufficiente a preservare la riservatezza.

La crescita dei Big Data ha aumentato le informazioni accessibili che potrebbero essere utilizzate per incrociare i dati e identificare nuovamente gli utenti. Un esempio è il caso di Netflix: Arvind Narayanan e Vitaly Shmatikov dell’Università del Texas avrebbero re-identificato gli utenti di un database di recensioni cinematografiche di Netflix, rilasciato in modo presumibilmente anonimo, incrociando i dati con IMDb.

Determinare il rischio di re-identificazione risulta perciò fondamentale per verificare se un set di dati sia correttamente anonimizzato. Negli scenari dei Big Data, la valutazione di questo rischio è complessa dal punto di vista computazionale; lo stesso problema si presenta quando si calcola l’utilità del set di dati. La maggior parte delle soluzioni di anonimizzazione sono state infatti realizzate per dati omogenei, ma la varietà dei Big Data implica che i dati siano eterogenei.

Infine, la velocità a cui sono elaborati i dati renderebbe ancora più difficile eseguire un’analisi per selezionare la migliore strategia di anonimizzazione o per calcolare metriche di privacy e utilità, poiché i dati potrebbero essere incompleti al momento dell’elaborazione. Per queste ragioni, Gradiant suggerisce la definizione di nuovi algoritmi e soluzioni di più efficienti e scalabili.