gdpr e privacy

Decisioni automatizzate, quale difesa da chi ci discrimina via algoritmi

L’attuale dibattito sul diritto di chiedere spiegazioni sulle correlazioni effettuate dagli algoritmi nei processi decisionali automatizzati non coglie il quadro più ampio della questione, relativo all’etica digitale e alla fiducia. Perché non è mai l’algoritmo che è sbagliato ma sono gli uomini a fare delle discriminazioni

Pubblicato il 19 Dic 2018

Massimo Valeri

Senior Consultant in ambito Data Protection & Security

Nella comunità accademica, il regolamento generale sulla protezione dei dati dell’UE (Gdpr) ha innescato un vivace dibattito sulla questione che ruota attorno al diritto, da parte degli interessati, di chiedere spiegazioni in merito agli algoritmi alla base delle decisioni automatizzate che gravano su di loro.

Da una parte, molti sposano la tesi secondo la quale non esisterebbe un tale diritto, quanto piuttosto un “limitato diritto all’informazione”.

Al contrario, altri hanno sostenuto che questa posizione si basa su una lettura molto ristretta delle disposizioni pertinenti del GDPR e che un’interpretazione contestuale autorizzerebbe invece a ritenere che il Regolamento fornisca effettivamente un diritto di spiegazione rispetto alle decisioni automatizzate.

Ma il dibattito è fuori fuoco per tutta una serie di motivi che cercheremo di esaminare.

Indice degli argomenti

Accountability e discriminazione nei processi decisionali automatizzati

In realtà, fornire agli interessati informazioni iniziali sul processo decisionale automatizzato e sulla sua logica soggiacente, nonché una spiegazione delle decisioni automatiche dopo che queste sono state compiute, appare una necessità inderogabile; il concetto di accountability (articoli 5 paragrafo 2) richiede che i titolari, nell’ambito del trattamento dei dati personali, dimostrino la conformità del proprio operato e delle proprie scelte ad obblighi essenziali del GDPR quali, in particolare, i requisiti di liceità, equità e trasparenza.

Proprio il requisito di trasparenza nei confronti delle persone fisiche e il diritto dei singoli di accedere ai propri dati consentono loro di esercitare altri diritti:

quali l’opposizione alla profilazione (articolo 21),
la richiesta di cancellazione e di rettifica del profilo (articolo 17),
fino a concedere loro di contestare decisioni automatizzate ad essi relative (articolo 22, paragrafo 3).

Tutto ciò richiede che i titolari del trattamento siano in grado di dimostrare che le regole decisionali applicate nell’algoritmo siano significative ed imparziali (non discriminatorie) e possano quindi costituire una legittima giustificazione per le decisioni automatiche prese sugli individui. Dunque, in virtù del principio stesso di accountability, il dibattito sul fatto che il GDPR fornisca o meno agli individui il diritto ad una spiegazione in merito ai processi decisionali automatizzati risulta allo scrivente secondario rispetto all’obbligo che, alla fine, ricade comunque su ogni titolare, di dimostrare che le logiche nell’algoritmo possano essere legittimamente usate come base per le decisioni automatizzate.

Tramite i media, veniamo spesso a conoscenza di casi in cui l’implementazione di certi algoritmi di machine learning porta a risultati discriminatori. Una possibile spiegazione che potrebbe essere fornita dal titolare alla logica sottostante una decisione automatizzata ritenuta “discriminatoria” sugli interessati è che certi individui provengono da uno specifico sottoinsieme dell’universo statistico di riferimento di cui l’algoritmo ha tenuto conto e che questa differente provenienza agisce in modo significativo nell’attribuzione delle decisioni automatizzate.

Esempi di discriminazioni

Negli Stati Uniti, ad esempio, gli “strumenti di previsione del crimine” hanno dimostrato di discriminare alcune minoranze di individui. Sulla base di eventi passati, l’algoritmo utilizzato ha assegnato un punteggio di rischio più elevato a determinate minoranze etniche e ciò ha fatto che sì la polizia si soffermasse maggiormente su questo gruppo di individui nelle sue ricerche.

Un altro esempio di come gli algoritmi alla base di decisioni automatizzate possano produrre esiti discriminatori è il processo di selezione. Ad esempio, generalmente, la maggior parte degli insegnanti della scuola primaria è di genere femminile. Ebbene, un algoritmo sviluppato per selezionare i migliori candidati per questo lavoro sarebbe alimentato con i curriculum ricevuti in passato. Dato che le scuole primarie impiegano molte più donne che uomini, l’algoritmo svilupperà rapidamente una preferenza per le candidate donne, e, se anche si rendessero i curricula neutrali dal punto di vista del genere, ciò non risolverebbe il problema. L’algoritmo individuerebbe infatti rapidamente altri modi per spiegare perché i curriculum femminili vengono selezionati più spesso, magari prediligendo determinati hobby femminili e assegnando meno punti ai curriculum che elencano passatempi tradizionalmente maschili.

Dunque, generalizzando, se si utilizzano certi requisiti per impostare un algoritmo, quest’ultimo assegnerà un punteggio più elevato ad un determinato gruppo di individui piuttosto che ad un altro. La discriminazione mediante algoritmi è, quindi, un riflesso della discriminazione già in atto “sul campo”. Poiché gli algoritmi sono sempre costruiti su dati storici, è praticamente impossibile trovare un set di dati “pulito” su cui un algoritmo possa essere implementato senza essere “privo di pregiudizi”. Per risolvere questo problema, alcuni indicatori di gruppo come razza, genere e religione vengono spesso rimossi dai dati di sviluppo. L’idea è che se l’algoritmo non può “vedere” questi elementi, il risultato non sarà discriminatorio.

In realtà, l’esperienza ha portato a concludere che anche rimuovere gli indicatori di gruppo non aiuta, se i dati sottostanti sono comunque unilaterali. L’algoritmo, infatti, troverebbe presto degli indicatori derivati – delle proxy – per reindirizzare la rimozione compiuta. L’unica soluzione consiste nel rendere i bias trasparenti prima ancora dello sviluppo dell’algoritmo, cioè nei requisiti di implementazione. Ciò richiede che gli indicatori di gruppo siano raccolti in primo luogo per valutare se i gruppi di minoranza sono trattati in modo non equo. Quindi l’algoritmo deve essere implementato contro la selezione di questi fattori, mediante uno “sviluppo al contrario”. Questo è l’unico modo per evitare che i pregiudizi passati influenzino anche i risultati futuri.

Sono gli uomini a discriminare, non gli algoritmi

Ancora una volta, non è l’algoritmo che è sbagliato, piuttosto sono gli uomini a fare delle discriminazioni e l’algoritmo non fa altro che rilevare questo errore.

D’altra parte, questa situazione offre opportunità per ridurre la disuguaglianza proprio attraverso gli algoritmi. Per far ciò è imperativo che il titolare sia a conoscenza di chi appartiene ad alcuni gruppi minoritari.

Il tabù contro la raccolta di queste categorie di dati deve quindi essere rotto. Ma anche le aziende che implementano l’intelligenza artificiale dovrebbero essere consapevoli del fatto che il principio di equità ai sensi del GDPR non può essere raggiunto attraverso la mancata conoscenza del contesto o della logica sottostante un processo decisionale automatizzato da parte del titolare. Come sottolineato dal Considerando 78 (“Al fine di poter dimostrare la conformità con il presente regolamento, il titolare del trattamento dovrebbe adottare politiche interne e attuare misure che soddisfino in particolare i principi della protezione dei dati fin dalla progettazione e della protezione dei dati di default”), il titolare, per non venire meno agli obblighi posti dal GDPR in merito al processo decisionale automatizzato, dovrà quindi progettare, sviluppare e applicare algoritmi in modo trasparente, prevedibile e verificabile.

“Lo ha fatto l’algoritmo” non è più una scusa accettabile

Il titolare del trattamento, infatti, dovrà dimostrare che l’utilizzo di queste “regole” per la decisione sia in realtà pertinente rispetto alla finalità del trattamento e non produca una discriminazione illecita alla prosecuzione del trattamento stesso. Se la persona non è soddisfatta, presenterà una denuncia e le autorità di vigilanza dell’UE indagheranno.

La responsabilità algoritmica implica l’obbligo di riferire e giustificare il processo decisionale dell’algoritmo e di mitigare eventuali impatti sociali negativi generati.

Queste preoccupazioni non sono limitate alle sole leggi dell’Unione Europea. Anche la Federal Trade Commission statunitense ha tenuto a promuovere simili principi di liceità e correttezza nell’applicazione di algoritmi al processo decisionale. Alcuni studiosi statunitensi stanno affrontando il problema relativo ai disparati impatti che il processo decisionale automatizzato può produrre nel contesto lavorativo nei confronti delle classi protette, a violazione delle leggi anti-discriminatorie degli Stati Uniti.

Un’organizzazione deve essere in grado di spiegare e documentare come vengono elaborati i dati personali in conformità con le leggi e il Regolamento. Se l’autorità di Data Protection sospetta che l’account fornito da un’organizzazione sia errato o contenga informazioni errate, può chiedere all’organizzazione di verificare i dettagli delle sue operazioni tipiche e delle sue valutazioni. Ciò può essere necessario quando, ad esempio, si sospetta che un algoritmo stia mettendo in correlazione dati che porteranno a un risultato discriminatorio.

Diritto all’informazione vs diritto alla spiegazione

Per quanto riguarda il diritto all’informazione, il GDPR, agli articoli 13-2-f e 14-2-g (“nel momento in cui i dati personali sono ottenuti, il titolare del trattamento fornisce all’interessato le seguenti ulteriori informazioni necessarie per garantire un trattamento corretto e trasparente…l’esistenza di un processo decisionale automatizzato, compresa la profilazione di cui all’articolo 22, paragrafi 1 e 4, e, almeno in tali casi, informazioni significative sulla logica utilizzata, nonché l’importanza e le conseguenze previste di tale trattamento per l’interessato”), richiede esplicitamente che i titolari del trattamento utilizzino dati personali per prendere decisioni automatizzate, informando gli individui a proposito delle attività decisionali automatizzate e fornendo loro informazioni significative sulla logica utilizzata, sul significato del processo decisionale e sulle conseguenze previste per tali individui.

All’interno del documento “Opinion on Automated Decision-Making and Profiling”, il Gruppo Working Party 29 ha riconosciuto che “la crescita e la complessità del machine learning (apprendimento automatico) possono rendere difficile comprendere come funziona un processo decisionale o una profilazione automatizzata“, ma che, nonostante questo, “l’azienda dovrebbe trovare modi semplici per dire all’individuo quale sia la logica alla base dell’algoritmo o i criteri su cui si basa per raggiungere la decisione, senza necessariamente optare per una spiegazione complessa degli algoritmi usati o per una divulgazione dell’algoritmo completo”.

Chiaramente, affinché il titolare possa spiegare questi criteri, dovrà prima di tutto conoscerli, cioè l’algoritmo non dovrebbe costituire per lui una “black box”.

Quanto al diritto di una spiegazione, l’articolo 22, paragrafo 3, del GDPR impone al titolare del trattamento di attuare misure di salvaguardia adeguate nel progettare decisioni automatizzate, che dovrebbero includere almeno il diritto dell’individuo di esprimere il proprio punto di vista e contestare la decisione.

Il considerando 71 menziona una tutela ulteriore: il diritto alla spiegazione di una decisione automatizzata specifica (“In ogni caso, tale trattamento dovrebbe essere subordinato a garanzie adeguate, che dovrebbero comprendere la specifica informazione all’interessato e il diritto di ottenere l’intervento umano, di esprimere la propria opinione, di ottenere una spiegazione della decisione conseguita dopo tale valutazione e di contestare la decisione”).

Gli autori che sostengono che l’articolo 22 non fornisca il diritto ad una spiegazione sottolineano che tale diritto è incluso solo nella parte introduttiva del Regolamento e che questa non ha forza vincolante, come confermato dalla Corte di Giustizia dell’Unione europea. Tuttavia, sempre la Corte di Giustizia dell’Unione Europea ha spiegato altresì che la parte introduttiva non è priva di ogni significato, semplicemente ne ha vietato l’utilizzo per interpretare una disposizione in modo del tutto contrario alla sua formulazione.

L’articolo 22, paragrafo 3, specifica che almeno le garanzie nella progettazione delle decisioni automatizzate devono essere incluse. Questa formulazione lascia spazio a sufficienza per richiedere altre garanzie, come il diritto alla spiegazione di una decisione automatizzata specifica menzionata nel considerando 71. Ancora una volta, affinché il titolare possa spiegare la decisione in modo tale che l’individuo possa comprenderla, deve prima di tutto conoscere le regole alla base della decisione automatizzata.

La responsabilità algoritmica come riflesso della privacy by design

Anche se ben lungi dall’instaurare ciò che richiederebbe lo sviluppo di una “scatola bianca”, ci sono alcune linee guida da tenere in considerazione nello sviluppo di algoritmi per il processo decisionale automatizzato. Documentando queste fasi e valutazioni, il titolare del trattamento sarà in grado di rispettare anche l’obbligo di eseguire una valutazione dell’impatto sulla protezione dei dati.

I titolari devono effettuare frequenti valutazioni sui set di dati che elaborano, per verificare eventuali pregiudizi e sviluppare modalità per affrontare eventuali elementi pregiudizievoli, incluso l’eccessivo ricorso alle correlazioni.

Un’altra misura utile è affidarsi a sistemi che controllano gli algoritmi o a revisioni periodiche dell’accuratezza e della rilevanza del processo decisionale automatizzato, inclusa la profilazione. I titolari dovrebbero introdurre procedure e misure appropriate per prevenire errori, inesattezze o discriminazioni sulla base di dati di categorie speciali. Queste misure dovrebbero essere utilizzate su base ciclica; non solo in fase di progettazione, ma anche in modo continuo, poiché la profilazione viene applicata agli individui.

L’esito di tali test dovrebbe rientrare nella progettazione del sistema.

Questione di fiducia, etica e integrazione tecnologica

Le principali motivazioni alla base delle leggi sulla protezione dei dati dell’UE intendono impedire disparità e ingiustizie nell’uso e diffusione delle informazioni. Questi principi possono essere garantiti solo se i titolari non nascondono le proprie responsabilità dietro algoritmi utilizzati in decisioni automatizzate che coinvolgono gli interessati. I titolari restano infatti responsabili dei risultati di data protection.

Peraltro, come evidenziato nell’articolo, se gli algoritmi di autoapprendimento generano delle discriminazioni, spesso ciò non è dovuto ad un errore insito nell’algoritmo, ma al fatto che i dati utilizzati per sviluppare l’algoritmo sono “distorti”. Solo quando si conoscono bene i dati appartenenti a gruppi vulnerabili, è possibile rendere trasparenti i pregiudizi nei dati e sviluppare adeguatamente gli algoritmi. Il tabù contro la raccolta di tali dati dovrebbe, pertanto, essere rotto, in quanto questo è l’unico modo per eliminare la discriminazione futura.

In definitiva, l’attuale dibattito accademico circa i diritti degli individui nel chiedere spiegazioni in relazione alle correlazioni effettuate dagli algoritmi nei processi decisionali automatizzati che vertono su di essi, non coglie il quadro più ampio della questione, relativo piuttosto alla necessità di riconquistare la fiducia degli interessati e di trovare strade nuove per fornire adeguate garanzie di equità nei processi decisionali (scandagliando evidentemente il legame fra GDPR, Artificial Intelligence e apprendimento automatico), con il rischio che le aziende facciano lo stesso.

Le notizie pressoché costanti di scandali sulla privacy, in cui non solo le informazioni personali sono state perse, ma anche utilizzate in modo inaspettato, costituiscono un forte richiamo all’importanza della protezione e della responsabilità dei dati nell’era digitale, ma al tempo stesso corrodono la fiducia dei consumatori.

E la fiducia è fondamentale affinché le organizzazioni possano sfruttare i vantaggi dell’analisi dei dati mantenendo al contempo relazioni positive con chi affida ad esse tali informazioni.

Dunque, la vera questione centrale oggi riguarda l’etica digitale, compresi argomenti che eccedono il tradizionale mandato dei professionisti della privacy. Ad esempio, come possiamo garantire un processo giusto ed equo in un’epoca in cui l’apprendimento automatico e l’intelligenza artificiale prendono decisioni in materia di sicurezza stradale, assistenza sanitaria e istruzione? In che modo le organizzazioni possono garantire l’accesso ai dati delle persone per scopi socialmente vantaggiosi senza sacrificare la privacy e i diritti individuali? In che modo le società possono proteggersi dalla minaccia di ingerenze malevoli nelle elezioni democratiche attraverso la manomissione dei social media?

Di fronte a questi problemi e sfide, i regolatori della privacy si stanno rendendo conto che le risposte si trovano al di là delle normative e dei quadri di protezione dei dati regionali e nazionali e richiedono l’apertura a tecnologie che determineranno il modo in cui noi e le generazioni future comunicheremo, da sviluppare in modo tale che il rispetto dei diritti fondamentali non venga indebolito.

In questo scenario, i Big Data, l’Intelligenza Artificiale e le tecnologie di machine learning, che permettono di esaminare una grande mole di dati in tempo praticamente reale e di rilevare modelli specifici di comportamento, anomalie e tendenze generali, riducendo al minimo l’attenzione e la supervisione degli esseri umani ai dati, potrebbero, se usate correttamente, adeguarsi facilmente al GDPR e potrebbero tornare utili nel rafforzamento delle difese della privacy e nel rafforzamento della fiducia degli interessati.

Ecco che la privacy by design, una delle rivoluzioni portate in dote dal GDPR, costituisce la vera sfida in ambito data protection per far fronte alle questioni ancora irrisolte poste in essere dall’utilizzo di queste tecnologie e dalla necessità della loro integrazione coi dettami del GDPR.