intelligenza artificiale

IA e discriminazione algoritmica: i limiti del GDPR davanti ai proxy

La proxy discrimination mostra come sistemi di IA formalmente neutrali possano escludere gruppi protetti usando variabili surrogate. Il fenomeno mette in crisi le categorie classiche del diritto antidiscriminatorio europeo e spinge verso un controllo ex ante più rigoroso, oggi rafforzato dall’AI Act

Pubblicato il 15 apr 2026

Aggiungi tra i preferiti su Google

Salvatore Migneco

Esse Ci Centro Studi

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

La promessa di neutralità degli algoritmi decisionali si scontra con la realtà tecnica dell’ottimizzazione statistica, che spesso riproduce e amplifica le disuguaglianze sociali preesistenti.

Esploriamo di seguito il fenomeno della proxy discrimination, una forma di discriminazione indiretta in cui l’IA, pur non trattando esplicitamente categorie protette (come etnia o genere), utilizza variabili surrogate apparentemente neutre (CAP di residenza, abitudini di consumo, dati biometrici) per segregare ed escludere specifici gruppi demografici.

Governance algoritmica: il potere invisibile dei dati

Indice degli argomenti

La crisi del diritto antidiscriminatorio nell’era delle decisioni automatizzate

Quello che vogliamo evidenziare è come tale dinamica metta in crisi la grammatica giuridica europea del diritto antidiscriminatorio, rendendo inefficace la tradizionale distinzione tra discriminazione diretta e indiretta e rendendo impossibile l’individuazione di un “soggetto comparatore” valido. Il contributo si propone di fornire al giurista pratico gli strumenti per riconoscere queste nuove forme di esclusione automatizzata, che sfuggono alle maglie del GDPR e richiedono un ripensamento delle garanzie di accountability nelle decisioni automatizzate.

La transizione verso modelli decisionali automatizzati è stata accompagnata dalla promessa di una maggiore oggettività processuale, fondata sull’assunto che il calcolo algoritmico potesse neutralizzare i pregiudizi cognitivi tipici del decisore umano. Tuttavia, l’implementazione su larga scala di sistemi di intelligenza artificiale ha rapidamente disvelato la natura illusoria della neutralità tecnologica. I modelli di ottimizzazione statistica alla base dell’apprendimento automatico non operano in un vuoto assiologico, bensì si nutrono di vasti set di dati storici che riflettono, cristallizzano e frequentemente amplificano le stratificazioni sociali e le disuguaglianze preesistenti. In tale contesto, l’algoritmo non crea necessariamente nuovi pregiudizi ex nihilo, ma apprende a replicare i pattern discriminatori latenti nei dati di addestramento, operando una sussunzione tecnica di dinamiche di esclusione strutturale già presenti nella società.

Come nasce la proxy discrimination nei sistemi di IA

Il tentativo primario di arginare tali derive ha spesso coinciso con la rimozione intenzionale degli attributi demografici sensibili (quali etnia, genere, orientamento sessuale o credo religioso) dalle variabili di input del sistema predittivo. Questo approccio, noto in letteratura come “fairness through unawareness” o cecità al dato sensibile, si rivela tuttavia un accorgimento tecnico del tutto inidoneo a prevenire esiti lesivi del principio di uguaglianza. È esattamente in questa faglia che si insedia e prolifera il fenomeno della proxy discrimination (discriminazione per procura o tramite variabili surrogate), una dinamica in cui il sistema algoritmico, pur essendo formalmente cieco rispetto a dati appartenenti alle categorie protette, individua e sfrutta complesse correlazioni statistiche occulte tra tali categorie e altre variabili apparentemente neutre.

Di conseguenza, dati in apparenza innocui e privi di connotazioni discriminatorie, come il codice di avviamento postale (CAP) di residenza, la cronologia di navigazione web, le abitudini di consumo o determinati percorsi educativi, divengono “proxy“, ossia elementi sostitutivi o variabili surrogate che permettono al modello di inferire, con un grado di confidenza estremamente elevato, l’appartenenza di un individuo a un determinato gruppo protetto. In questo scenario silente, il processo di ottimizzazione matematica utilizza i proxy per classificare ed escludere specifici gruppi demografici dall’accesso a risorse, servizi e opportunità essenziali (quali credito, occupazione o welfare), operando una discriminazione che si manifesta pienamente nei suoi effetti pur risultando formalmente epurata dai marcatori tradizionali.

L’algoritmo, infatti, non agisce con un intento discriminatorio conscio. Il suo unico scopo è massimizzare l’accuratezza delle proprie previsioni. Per farlo, seleziona i proxy semplicemente perché si rivelano statisticamente utili per centrare l’obiettivo, ignorando del tutto il contesto reale. In altre parole, la macchina non si interroga sul perché due dati siano collegati (rinunciando a comprendere le cause sociali di un fenomeno), ma si limita ad associarli meccanicamente, applicando una statistica cieca che finisce per automatizzare l’esclusione sociale. Alla luce di quanto esposto, la proxy discrimination intacca le fondamenta concettuali su cui poggia l’architettura legale europea di contrasto alle discriminazioni. Configurando nuove forme di esclusione automatizzata, opache e frammentate, questo fenomeno si dimostra profondamente refrattario agli strumenti di tutela tradizionali, rendendo urgente un’indagine critica sull’effettiva tenuta del quadro normativo vigente di fronte a un ecosistema in cui le logiche computazionali si intrecciano indissolubilmente con le dinamiche sociali.

I limiti del diritto antidiscriminatorio europeo

La pervasività della proxy discrimination evidenzia l’inadeguatezza dell’attuale impianto dogmatico del diritto antidiscriminatorio europeo, tradizionalmente ancorato a categorie rigide che faticano a decodificare le logiche computazionali. Il diritto antidiscriminatorio necessita di prove sulla causalità lineare tra una determinata misura e il trattamento discriminante; l’algoritmo, viceversa, si limita a processare cieche correlazioni statistiche. Il primo ostacolo concettuale risiede pertanto nella dicotomia tra discriminazione diretta e indiretta. Mentre la prima sanziona un trattamento differenziato basato esplicitamente su un fattore protetto, la seconda colpisce l’impiego di criteri apparentemente neutri che producono un impatto sproporzionato su un gruppo tutelato. L’impiego di una variabile surrogata elude questa classificazione, poiché il parametro neutro (il proxy) agisce di fatto come un marcatore diretto.

La crisi si acuisce nell’applicazione del paradigma del “soggetto comparatore“. Il diritto dell’Unione Europea richiede un confronto tra il trattamento riservato alla vittima e quello ricevuto da un soggetto in situazione analoga non appartenente al gruppo vulnerabile. Tuttavia, la profilazione algoritmica non discrimina macrocategorie (es. “le donne” o “le minoranze” in senso lato), ma intercetta micro-gruppi intersezionali definiti da innumerevoli variabili, rendendo empiricamente impossibile l’individuazione di un comparatore valido.

A fronte di tale rigidità, la Corte di Giustizia dell’Unione Europea (CGUE) ha tentato di elaborare un percorso ermeneutico estensivo. In particolare, l’approccio “non essenzialista” scinde il legame tra l’identità della vittima e il motivo di discriminazione, introducendo il concetto di “discriminazione per ascrizione” o per assunzione. Tale dottrina permette di estendere la tutela della discriminazione diretta ai casi di errore nella profilazione algoritmica: se un sistema classifica erroneamente un utente come appartenente a una minoranza etnica sulla base di un proxy, il trattamento sfavorevole che ne deriva rileva giuridicamente a prescindere dalla reale appartenenza del soggetto a quella categoria. Come dimostrato nei casi Accept e Chez, non è necessario che la vittima si identifichi con il gruppo protetto; è sufficiente che sia percepita o trattata come tale affinché scatti la protezione.

Eppure, a livello normativo, il Regolamento UE 2016/679 (GDPR) manifesta limiti intrinseci. L’Articolo 9 del GDPR, vietando il trattamento delle categorie particolari di dati, fallisce il suo obiettivo: la proxy discrimination prospera proprio perché i proxy non rientrano formalmente in tali categorie, seppur ne replichino la valenza semantica. L’Articolo 22, parimenti, limitando le tutele alle decisioni basate “unicamente” sul trattamento automatizzato, risulta facilmente eludibile tramite l’interposizione di una blanda e spesso inefficace supervisione umana (human-in-the-loop). Ciò determina il rischio gravissimo di generare “nuove figure soggettive di discriminazione“: classi di svantaggio inedite che, pur subendo una compressione dei diritti fondamentali, rimangono formalmente invisibili e prive di copertura normativa.

Il cambio di paradigma introdotto dall’AI Act

Constatata l’inidoneità della tutela ex post e focalizzata sul singolo individuo propria del GDPR, il legislatore europeo ha operato un mutamento di paradigma con il Regolamento UE 2024/1689 (AI Act). Riconoscendo che la discriminazione automatizzata rischia di trasformarsi da anomalia a regola operativa sistemica, l’AI Act adotta un approccio preventivo, basato sulla gestione del rischio e sulla conformità strutturale dei sistemi fin dalla loro progettazione (by design).

L’impalcatura del Regolamento si concentra sui sistemi di intelligenza artificiale classificati come “ad alto rischio” (elencati nell’Allegato III), tra cui figurano ambiti nevralgici per l’esclusione sociale: occupazione, istruzione, accesso a servizi privati essenziali e previdenza sociale, attività di contrasto, gestione della migrazione e dell’asilo, e amministrazione della giustizia. Per tali sistemi, il contrasto alla proxy discrimination viene traslato dal piano della sanzione giuridica della condotta al piano dell’architettura ingegneristica e statistica, attraverso rigidi requisiti di governance dei dati.

Il ruolo dell’articolo 10 nella governance dei dati

L’Articolo 10 dell’AI Act rappresenta in questo senso lo snodo cruciale. Esso impone che i set di dati di addestramento, convalida e prova siano soggetti a pratiche di governance adeguate, richiedendo esplicitamente “un esame atto a valutare le possibili distorsioni suscettibili di incidere sulla salute e sulla sicurezza delle persone, di avere un impatto negativo sui diritti fondamentali o di comportare discriminazioni vietate dal diritto dell’Unione“.

La deroga sui dati sensibili per rilevare i bias

La vera innovazione dogmatica, che tenta di sanare l’aporia generata dall’Articolo 9 del GDPR, è contenuta nel paragrafo 5 dell’Articolo 10 dell’AI Act. Il legislatore riconosce che per debellare la proxy discrimination è paradossalmente necessario conoscere il dato protetto. Di conseguenza, nella misura in cui sia strettamente necessario per rilevare e correggere le distorsioni, quindi i bias, i fornitori di sistemi ad alto rischio sono eccezionalmente autorizzati a trattare categorie particolari di dati personali (come l’etnia o l’orientamento sessuale). Tale deroga, vincolata a stringenti misure di pseudonimizzazione e sicurezza, supera l’inefficace approccio della “fairness through unawareness”. Riconoscendo le categorie protette, i data scientist possono mappare le correlazioni occulte e disinnescare l’efficacia dei proxy prima che il sistema venga immesso sul mercato, spostando il baricentro dell’ordinamento dalla tutela del dato come presidio di riservatezza alla tutela del dato come strumento di giustizia algoritmica.

Il ruolo del giurista davanti alla proxy discrimination

Alla luce di questo mutamento di paradigma, il ruolo del giurista pratico subisce una profonda evoluzione. L’inadeguatezza della tradizionale tutela riparatoria e individualistica impone agli operatori del diritto di presidiare il momento genetico della decisione algoritmica, spostando l’asse dell’azione legale dalla mera reazione giudiziale ex post alla verifica della conformità strutturale ex ante. In questo scenario, esigere di comprendere come la macchina abbia preso una determinata decisione diventa la strategia processuale fondamentale. L’opacità dell’algoritmo non deve più rappresentare uno scudo dietro cui chi sviluppa o utilizza l’IA può nascondersi, ma deve diventare il bersaglio principale dell’indagine. Occorre ribaltare la prospettiva: un sistema decisionale automatizzato è giuridicamente accettabile solo se la sua logica interna può essere spiegata e verificata.

Metriche, correlazioni e qualità della supervisione umana

Per smascherare l’operatività silente di una proxy discrimination, non è più sufficiente limitarsi a eccepire l’opacità del modello informatico; occorre esigere metodicamente l’ostensione delle metriche di ottimizzazione e delle logiche di correlazione che legano le variabili surrogate all’output decisionale. Tale necessità ermeneutica si riverbera direttamente sulla configurazione dell’intervento umano. L’analisi empirica dimostra infatti che l’efficacia della supervisione umana – prevista sia dall’Articolo 22 del GDPR che dall’Articolo 14 dell’AI Act – dipende intrinsecamente dalla qualità delle spiegazioni fornite dal sistema predittivo. Un’interposizione umana puramente formale, priva di una comprensione causale delle variabili impiegate dalla macchina, non solo non argina il rischio discriminatorio, ma rischia di legittimarlo attraverso il fenomeno della “distorsione dell’automazione“, un bias cognitivo che induce l’operatore ad assecondare acriticamente le risultanze del sistema in virtù di un’ingiustificata deferenza verso la sua presunta oggettività matematica, un rischio che lo stesso legislatore europeo ha esplicitamente codificato all’art. 14, par. 4, lett. b) dell’AI Act. Abbandonando il proprio ruolo di vaglio critico, l’essere umano riduce il proprio intervento a un mero avallo passivo, cristallizzando un’ingiustizia strutturale sotto l’egida di una fittizia validazione antropocentrica.

È per queste ragioni che l’azione giuridica deve mirare a destrutturare l’affidamento acritico nell’algoritmo, imponendo oneri probatori stringenti a carico del titolare e del fornitore del sistema. L’operatore del diritto è oggi chiamato a verificare se l’architettura tecnica consenta effettivamente al decisore ultimo di comprendere quali feature statistiche abbiano determinato l’esito avverso e, soprattutto, se tali feature non celino, sotto una patina di neutralità, variabili surrogate per categorie protette.

In conclusione, la resilienza del diritto antidiscriminatorio nell’era computazionale non può essere affidata a meri interventi marginali sulle norme esistenti. Essa esige una rifondazione del concetto stesso di accountability, che deve necessariamente emanciparsi dalla logica del “soggetto comparatore” per abbracciare una dimensione sistemica e collettiva. Il giurista contemporaneo, confrontandosi con le sfide poste dalla proxy discrimination, è chiamato a dismettere le vesti del mero esegeta per assumere quelle di un revisore critico dell’interazione tra algoritmi e dinamiche sociali. Soltanto attraverso una rigorosa integrazione tra le insopprimibili tutele dei diritti fondamentali e l’analisi tecnica dei modelli predittivi sarà possibile garantire che l’ottimizzazione statistica non si traduca, subdolamente, in una metodica erosione del principio di uguaglianza sostanziale.

@RIPRODUZIONE RISERVATA

Salvatore Migneco

Esse Ci Centro Studi

Sono Salvatore Migneco, consulente legale specializzato in data protection presso lo studio ESSE-CI AVVOCATI di Modena. Nel mio ruolo operativo, supporto le aziende e affianco il Data Protection Officer (DPO) nella gestione degli adempimenti previsti dal GDPR e nella redazione tecnica della documentazione necessaria a garantire la conformità normativa.

Seguimi su