I sistemi di intelligenza artificiale sono presentati spesso come strumenti oggettivi, liberi dai condizionamenti soggettivi che affliggono il giudizio umano. Questa narrativa è profondamente fuorviante. Un sistema di apprendimento automatico non produce verità: produce inferenze statistiche apprese da dati storici, attraverso architetture che incorporano scelte progettuali cariche di assunzioni implicite. Errore e pregiudizio non sono anomalie correggibili a margine — sono proprietà strutturali di qualsiasi sistema che apprende dal mondo così com’è, non come dovrebbe essere.
La distinzione concettuale fondamentale è tra errore e pregiudizio (bias). L’errore è uno scostamento dal valore corretto, e può essere casuale o sistematico. Il pregiudizio è un errore sistematico con direzione: tende a colpire certi gruppi, certi contesti, certe query in modo non uniforme. Un sistema può avere alta accuratezza media nascondendo al suo interno pregiudizi gravi su sottopopolazioni minoritarie. È questo il paradosso dell’equità algoritmica: le metriche aggregate mentono.
Indice degli argomenti
Tassonomia del pregiudizio: tre livelli di propagazione
Il pregiudizio nei sistemi di intelligenza artificiale non emerge da un’unica sorgente ma si propaga lungo un’intera catena causale, amplificandosi a ogni passaggio.
I bias nei dati
Il primo livello è quello dei dati di addestramento, che raramente sono uno specchio neutro della realtà.
- Il Pregiudizio di Selezione (Selection Bias) si manifesta quando la popolazione campionata non rappresenta la popolazione target. Un modello addestrato su radiografie provenienti da ospedali universitari nordamericani apprenderà distribuzioni di patologie, qualità delle immagini e caratteristiche demografiche che non generalizzano a contesti rurali o a popolazioni di diversa provenienza genetica. La disparità non è nel modello in sé — è nella distanza tra i due mondi.
- Il Pregiudizio Storico (Historical Bias) è forse il più insidioso perché i dati riflettono accuratamente il passato, ma quel passato è strutturalmente iniquo. Un sistema di valutazione del merito creditizio addestrato su decisioni storiche di concessione del credito imparerà che certi quartieri, certe professioni, certi cognomi sono correlati con l’insolvenza — non perché ci sia una causalità reale, ma perché il sistema bancario del passato ha negato credito a quelle categorie, impedendo loro di costruire storia creditizia. Il modello impara la discriminazione storica e la riproduce con la patina dell’obiettività statistica.
- Il Pregiudizio di Misurazione (Measurement Bias) emerge quando la variabile osservata diverge dal costrutto reale di interesse. Il numero di arresti è un indicatore imperfetto della criminalità — è anche una misura delle pratiche di sorveglianza e controllo del territorio. I sistemi di previsione della recidiva come COMPAS utilizzano variabili predittive che incorporano questa distorsione, producendo punteggi di rischio sistematicamente più alti per individui afroamericani non per ragioni intrinseche, ma perché i dati di addestramento riflettono disuguaglianze nel sistema giudiziario.
Il bias algoritmico
Il secondo livello riguarda le scelte architetturali e di ottimizzazione, che non sono mai neutrali.
- Il Pregiudizio Induttivo (Inductive Bias) è l’insieme delle assunzioni incorporate nell’architettura stessa del modello su come funziona il mondo. Una rete neurale convoluzionale assume che le variabili spazialmente vicine siano correlate — assunzione ragionevole per le immagini, problematica se applicata acriticamente ad altri domini. Un modello lineare assume separabilità lineare dei fenomeni. Queste assunzioni privilegiano certi pattern su altri.
- Il Pregiudizio di Aggregazione (Aggregation bias) emerge quando si usa un unico modello per popolazioni eterogenee. Un modello di diagnosi del diabete addestrato su una popolazione mista che non stratifica per etnia apprenderà relazioni medie tra HbA1c e diagnosi che possono essere sistematicamente sbagliate per specifici gruppi demografici, nei quali la relazione tra biomarcatore e patologia ha caratteristiche diverse.
- Il Pregiudizio di Valutazione (Evaluation bias) si produce quando le metriche di valutazione privilegiano le prestazioni medie su quelle disaggregate. Un classificatore con 95% di accuratezza complessiva può avere 60% di accuratezza sulla classe minoritaria — un risultato disastroso nascosto dall’aggregazione. La scelta di ottimizzare la funzione di loss su tutto l’insieme di dati senza vincoli di equità garantisce questo risultato.
I bias in fase di implementazione
Il terzo livello è quello del contesto d’uso, dove sistemi tecnicamente validi producono effetti discriminatori per dinamiche sistemiche.
- Lo Scostamento Demografico (Population shift) descrive il degrado che avviene quando la distribuzione della popolazione reale diverge da quella di addestramento. Modelli di assegnazione del punteggio creditizio addestrati in periodi di crescita economica falliscono durante le recessioni. Modelli di triage medico addestrati su popolazioni urbane falliscono su popolazioni rurali. Il degrado non è uniforme: colpisce prima le sottopopolazioni già sottorappresentate nell’addestramento.
- I Cicli di Retroazione (Feedback loops) sono meccanismi di amplificazione particolarmente perversi. Un sistema di sorveglianza predittiva del territorio alloca risorse di sorveglianza in base a previsioni di criminalità: più sorveglianza produce più arresti in quelle aree, che alimentano i dati di addestramento confermando le previsioni originali. Il sistema converge verso un equilibrio in cui le sue stesse predizioni diventano auto-avveranti, indipendentemente da qualsiasi correlazione con la criminalità reale sottostante.
- La Distorsione da Automazione (Automation bias) degli operatori umani è il fenomeno per cui il risultato di un sistema automatizzato viene accettato acriticamente, erodendo il giudizio indipendente che dovrebbe costituire il controllo umano nella catena di controllo. Medici che si fidano ciecamente delle raccomandazioni di un sistema di supporto decisionale, giudici che adottano passivamente i punteggi di rischio algoritmici — in questi casi il sistema di intelligenza artificiale non sostituisce il giudizio umano: ne assorbe la responsabilità senza averne la riflessività.
Manifestazioni del pregiudizio nell’intelligenza artificiale per tipologia di sistema
Nei sistemi di classificazione binaria applicati a decisioni ad alto impatto, il pregiudizio si manifesta attraverso distribuzioni asimmetriche dei tassi di errore tra gruppi demografici. La metrica chiave non è l’accuratezza aggregata ma la parità tra tasso di falsi positivi e tasso di falsi negativi tra i gruppi.
I sistemi predittivi: l’asimmetria dei falsi
In un sistema di selezione del personale, un alto tasso di falsi negativi su candidati di un determinato gruppo significa che candidati qualificati vengono sistematicamente esclusi. In un sistema di diagnosi oncologica, un alto tasso di falsi negativi su certi fenotipi significa che pazienti malati vengono dimessi come sani. Le conseguenze sono asimmetriche nel mondo reale, anche quando i tassi di errore complessivi sembrano accettabili.
Il teorema di impossibilità di Chouldechova (2017) ha dimostrato formalmente che alcune definizioni di equità sono matematicamente incompatibili in presenza di distribuzione diseguale dei risultati reali tra i gruppi. Non è possibile soddisfare simultaneamente calibrazione, equilibrio sulla classe positiva ed equilibrio sulla classe negativa se i tassi di base dei risultati differiscono tra gruppi. Questo risultato non è un limite tecnologico superabile: è un vincolo matematico che impone scelte esplicite di valore su quali forme di equità prioritizzare.
I modelli generativi: stereotipi come compressione statistica
Nei modelli linguistici LLM (Large Language Models) e nei sistemi di generazione di immagini, il pregiudizio si manifesta con modalità qualitativamente diverse. Il modello ha appreso la distribuzione statistica di un corpus — e quella distribuzione riflette i pregiudizi culturali del corpus stesso.
Quando GPT-3 associa sistematicamente professioni di alto status a pronomi maschili e professioni di cura a pronomi femminili, non sta esprimendo un’opinione: sta riproducendo la distribuzione osservata nel testo di addestramento. Quando DALL-E genera CEO come uomini bianchi in giacca, sta producendo l’immagine più probabile secondo la distribuzione appresa. Il modello è uno specchio statistico della cultura umana documentata — con il problema aggiuntivo che questo specchio viene presentato come produzione neutrale e oggettiva.
La computer vision: il problema dei dati facciali
I sistemi di riconoscimento facciale presentano divari di prestazione documentati e misurabili tra fenotipi. Lo studio Gender Shades di Buolamwini e Gebru (2018) ha misurato differenze di errore fino al 34% tra individui con pelle chiara e individui con pelle scura nei sistemi commerciali di Microsoft, IBM e Face++. Questi sistemi, potenzialmente utilizzati in contesti di applicazione della legge, controllo degli accessi o verifica dell’identità, producono un rischio operativo sistematicamente più alto per specifici gruppi demografici.
I sistemi di raccomandazione: filter bubbles e polarizzazione
I sistemi di raccomandazione ottimizzano tipicamente per il coinvolgimento dell’utente — tempo di visualizzazione, tasso di interazione, interazioni. Questa funzione obiettivo, in assenza di vincoli, converge verso la selezione di contenuti che massimizzano la risposta emotiva: indignazione, paura, identità di gruppo, conferma delle credenze esistenti.
Il risultato strutturale è la bolla informativa (filter bubble): l’utente riceve un flusso informativo progressivamente più omogeneo e congruente con le sue posizioni esistenti, riducendo l’esposizione a prospettive alternative. In contesti politici, questo meccanismo contribuisce alla polarizzazione. In contesti informativi, produce vulnerabilità alla disinformazione.
La distinzione epistemico/aleatorio
Una delle confusioni più dannose nel dibattito pubblico sull’intelligenza artificiale è l’aspettativa che sistemi sufficientemente avanzati raggiungano la perfezione predittiva. Questa aspettativa ignora una distinzione fondamentale in teoria statistica e filosofia della scienza.
L’errore epistemico deriva da ignoranza riducibile: abbiamo dati insufficienti, architetture inadeguate, variabili incomplete. Con più dati, architetture migliori, ingegnerizzazione delle variabili più sofisticata, questo errore si riduce. È il bersaglio legittimo dell’ottimizzazione tecnologica.
L’errore aleatorio è irriducibile: deriva dall’incertezza intrinseca del dominio. I fenomeni umani — comportamento, salute, preferenze — sono genuinamente stocastici. Un sistema di previsione della recidiva che predice con alta confidenza se un individuo commetterà un reato nei prossimi due anni non sta misurando una proprietà dell’individuo: sta stimando una distribuzione di probabilità che, per definizione, non collassa in certezza.
La calibrazione — la corrispondenza tra confidenza espressa e frequenza empirica degli outcome — è quindi una proprietà critica che i sistemi ad alto impatto devono esibire. Un sistema mal calibrato che esprime 90% di confidenza su predizioni corrette solo il 60% delle volte è pericoloso non malgrado la sua confidenza, ma proprio a causa di essa.
Le allucinazioni nei modelli linguistici
Le allucinazioni nei modelli linguistici di grandi dimensioni rappresentano una forma di errore qualitativamente nuova che richiede analisi separata. Non si tratta di errori nella distribuzione di probabilità appresa — si tratta di risultati che combinano fluenza linguistica, confidenza sintattica e falsità fattuale in modo indistinguibile dal risultato corretto.
Il meccanismo generativo
Un LLM genera testo predicendo l’elemento lessicale più probabile dato il contesto precedente, in base a sequenze apprese dal corpus di addestramento. Il modello non ha un meccanismo interno per distinguere tra “questo fatto è presente nei miei dati di addestramento” e “questo fatto è vero nel mondo”. Quando il modello genera una citazione bibliografica inesistente, non sta mentendo: sta producendo la sequenza di elementi lessicali più probabile nel contesto di una risposta accademica, e quella sequenza ha la forma di una citazione reale.
Le allucinazioni non sono uniformemente distribuite: tendono a concentrarsi in domini dove i dati di addestramento sono scarsi (fatti locali, eventi recenti, personalità minori), dove il modello è sotto pressione per completare sequenze attese (liste, bibliografie, CV), e dove non esistono segnali di feedback immediato.
Le implicazioni deontologiche nei settori critici
In medicina, un LLM che cita studi inesistenti a supporto di una raccomandazione terapeutica produce un danno di tipo specifico: il medico che si affida a quella raccomandazione non può verificare facilmente l’inesistenza del fondamento probatorio. La fluenza del testo segnala implicitamente affidabilità.
In giurisprudenza, le allucinazioni di precedenti legali inesistenti hanno già prodotto conseguenze concrete. Esistono casi famosi che hanno documentato avvocati che citano in atti giudiziari casi mai decisi, generati da assistenti AI, con conseguenze disciplinari per i legali coinvolti. Nel giornalismo il problema erode i processi di verifica abbassando la soglia critica del lettore di fronte a testo plausibile e fluente.
Strategie di mitigazione specifiche
Le tecniche di Generazione con Recupero Aumentato (RAG) mitigano le allucinazioni ancorando la generazione a documenti recuperati da corpus verificati, permettendo citazioni verificabili. Tuttavia non eliminano il problema: il modello può ancora generare inferenze errate dai documenti recuperati.
Le tecniche di ragionamento a catena (Chain-of-Thought prompting), che inducono il modello a esplicitare passaggi intermedi del ragionamento, riducono le allucinazioni su problemi strutturati ma aumentano il rischio di propagazione degli errori lungo la catena logica.
Strategie di mitigazione del pregiudizio e dell’errore
La mitigazione del pregiudizio e dell’errore richiede interventi a tutti e tre i livelli identificati nella tassonomia.
Livello dati
Il potenziamento dei dati (data augmentation) bilanciato aumenta la rappresentazione delle classi sottorappresentate attraverso campionamento sintetico (incluse tecniche come SMOTE e generazione sintetica) o sovra/sottocampionamento strategico. La verifica sistematica degli insiemi di dati (dataset auditing) — analisi della distribuzione demografica, della qualità dell’annotazione per sottogruppi, delle correlazioni spurie — dovrebbe precedere qualsiasi processo di addestramento in domini ad alto impatto. Strumenti come What-If Tool, Aequitas e FairLearn supportano questo tipo di analisi.
La data documentation, attraverso schede descrittive degli insiemi di dati (Datasheets for Datasets e Data Cards), formalizza le caratteristiche degli insiemi di dati, le loro limitazioni e i contesti d’uso appropriati, creando responsabilità nel processo di sviluppo.
Livello algoritmico
I vincoli di equità possono essere incorporati direttamente nella funzione obiettivo: vincoli di probabilità equalizzate, parità demografica o equità individuale guidano l’ottimizzazione verso soluzioni che rispettino specifiche definizioni di equità. La scelta della definizione è una scelta di valore — il teorema di impossibilità implica che non tutte le definizioni sono simultaneamente soddisfacibili.
Le tecniche di adversarial debiasing addestrano il modello principale in competizione con un agente avversario che cerca di inferire attributi protetti dalle predizioni: il modello impara a produrre risultati che non permettono l’inferenza di questi attributi, riducendo il pregiudizio legato a variabili demografiche.
Livello di implementazione
Le schede descrittive del modello documentano in modo standardizzato le prestazioni del modello per sottogruppi, i contesti d’uso appropriati e quelli controindicati, le limitazioni note. Il monitoraggio continuo delle metriche di equità in produzione è essenziale per rilevare scostamento demografico e ciclo di retroazione prima che producano danni accumulati.
La human oversight significativa — non la distorsione da automazione che riduce l’umano a validatore passivo ma il genuino giudizio critico — richiede che gli operatori umani abbiano accesso alle incertezze del sistema, alle sue limitazioni documentate, e siano addestrati a dissentire dal suo risultato quando il contesto lo richiede.
Governance del pregiudizio algoritmico
La questione tecnica del pregiudizio algoritmico è inscindibile da una questione politica: chi decide quale definizione di equità adottare quando le definizioni sono incompatibili? Chi stabilisce le soglie di accettabilità? Chi ha voce in capitolo quando i sistemi impattano comunità specifiche?
Le soluzioni puramente tecniche sono insufficienti perché traslano scelte di valore in scelte tecniche, rendendole meno visibili e meno contestabili. Un sistema che ottimizza per probabilità equalizzate invece che per parità demografica non è più neutro del sistema che fa la scelta opposta: ha incorporato una teoria implicita della giustizia distributiva.
Il movimento per la responsabilità nell’intelligenza artificiale e le emergenti cornici regolamentari — EU AI Act, NIST AI Risk Management Framework — riconoscono questa dimensione e richiedono processi di valutazione d’impatto, trasparenza sulle metriche di equità, e meccanismi di ricorso per gli individui impattati da decisioni algoritmiche. Questi meccanismi non sono sufficienti senza la partecipazione delle comunità interessate nella definizione stessa di cosa conta come errore e cosa conta come equità.
Conclusioni sul pregiudizio nell’intelligenza artificiale
L’errore e il pregiudizio nei sistemi di intelligenza artificiale non sono difetti accidentali destinati a scomparire con il progresso tecnologico. Sono proprietà strutturali che emergono dall’interazione tra dati storicamente contingenti, scelte architetturali cariche di assunzioni, e contesti di implementazione che amplificano le disparità esistenti. Comprenderli richiede una tassonomia rigorosa che distingua le diverse sorgenti e i diversi meccanismi di propagazione.
Le strategie di mitigazione esistono e producono miglioramenti reali, ma operano sotto vincoli matematici — come il teorema di impossibilità di Chouldechova — che impongono compromessi tra definizioni di equità. Non esiste un sistema di intelligenza artificiale equo in senso assoluto: esistono sistemi che hanno fatto scelte esplicite e difendibili su quale tipo di equità prioritizzare, in quale contesto, per quale popolazione.
La distinzione tra errore epistemico ed errore aleatorio è critica per calibrare le aspettative su questi sistemi e per prevenire l’uso di predizioni intrinsecamente incerte come se fossero determinazioni affidabili — particolarmente grave in domini dove le conseguenze per l’individuo sono irreversibili. Le allucinazioni dei grandi modelli linguistici rappresentano infine una forma di errore epistemologicamente nuova, che richiede meccanismi di verifica specifici nei domini dove l’accuratezza fattuale è prerequisito deontologico.
Il giudizio finale su questi sistemi non è tecnico ma etico e politico: non soltanto funzionano?, ma per chi funzionano, a spese di chi, e chi ha deciso che fosse accettabile.
Riferimenti bibliografici
Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Apprendimento Automatico: Limitations and Opportunities. fairmlbook.org.
Buolamwini, J., & Gebru, T. (2018). Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification. Proceedings of the 1st Conference on Fairness, Accountability and Transparency.
Chouldechova, A. (2017). Fair Prediction with Disparate Impact: A Study of Bias in Recidivism Prediction Instruments. Big Data, 5(2), 153–163.
Gebru, T., et al. (2018). Schede Descrittive degli Insiemi di Dati. Communications of the ACM, 64(12), 86–92.
Mitchell, M., et al. (2018). Model Cards for Model Reporting. Proceedings of the Conference on Fairness, Accountability, and Transparency.
O’Neil, C. (2016). Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy. Crown Publishers.
Obermeyer, Z., et al. (2019). Dissecting racial bias in an algorithm used to manage the health of populations. Science, 366(6464), 447–453.











