La storia della scienza e della medicina ha spesso escluso le donne non solo dai laboratori, ma anche dai dati.
Già Aristotele, nella sua opera Generazione degli animali, scriveva che la donna è un “maschio dal corpo mutilato”, o un uomo al rovescio: le ovaie venivano considerate i testicoli femminili. Con simili premesse culturali, non sorprende che per secoli i corpi femminili siano stati sottorappresentati nei libri di testo di medicina, nelle sperimentazioni cliniche e persino nei modelli teorici.
Questo tipo di esclusione non è solo simbolica. Quando si lavora con l’intelligenza artificiale, e in particolare con sistemi che apprendono da grandi moli di dati, l’assenza di rappresentazioni equilibrate tra generi rischia di amplificare errori, discriminazioni e inefficienze. In un mondo che si affida sempre più agli algoritmi per prendere decisioni in ambito sanitario, giuridico, sociale ed economico, comprendere e correggere questi squilibri è più urgente che mai.
Secondo il Global Gender Gap Report 2023 del World Economic Forum, il divario di genere nell’accesso e nell’uso delle tecnologie digitali persiste a livello globale, limitando anche la rappresentatività femminile nei dati da cui l’IA apprende. Questo rende il problema non solo tecnico, ma anche sociale e culturale.
Proviamo allora ad analizzare le origini storiche del gender gap nei dati, i suoi effetti pratici, l’impatto sull’intelligenza artificiale e le strategie per costruire dataset più equi e rappresentativi, con l’obiettivo di promuovere una scienza e una tecnologia davvero inclusive.
Indice degli argomenti
Origini storiche del bias di genere nei dataset medici
Per millenni, la medicina ha preso il corpo maschile come modello unico di riferimento. Nei libri di testo per gli studenti, le immagini anatomiche sono quasi esclusivamente maschili. Le donne venivano incluse nei test clinici solo in misura marginale e spesso venivano escluse per ignoranza adducendo motivi di sicurezza riproduttiva, dinamica ormonale o per evitare complicazioni etiche legate alla gravidanza.
Queste scelte, sebbene motivate da precauzioni inizialmente legittime, hanno finito per consolidare una sistematica invisibilizzazione del corpo femminile nei dati clinici. I pregiudizi più sono antichi e radicati, più diventano difficili da scardinare. La loro presenza silenziosa in dataset, manuali e linee guida ha prodotto effetti di lunga durata. L’esclusione sistemica delle donne si è trasferita nei database medici, negli studi epidemiologici, e ora nei dataset digitali che alimentano le tecnologie emergenti. Questi dati impari generano modelli impari.
Intersezionalità e complessità delle disuguaglianze di genere
Il fenomeno delle disuguaglianze di genere non è monolitico, ma si interseca con altre dimensioni dell’identità, come la razza, l’etnia, la classe sociale, l’orientamento sessuale e la disabilità creando esperienze uniche di discriminazione e svantaggio. Negli Stati Uniti, ad esempio, le donne afroamericane hanno maggiori probabilità di morire per complicazioni legate alla gravidanza rispetto alle donne caucasiche, un fenomeno attribuito a una combinazione di fattori socioeconomici e razziali[1].
Tipologie di bias nei sistemi di intelligenza artificiale
Come suggerito in “A Survey on Bias and Fairness in Machine Learning” e “Bias recognition and mitigation strategies in artificial intelligence healthcare applications” esistono una serie di tipi di bias più comuni.
- Bias nei dati che influenzano gli algoritmi: il bias nei dati può generare decisioni distorte. Questo accade quando le variabili utilizzate per l’analisi rappresentano in modo inaccurato o fuorviante i fenomeni studiati. Un esempio emblematico è rappresentato da COMPAS[2] (Correctional Offender Management Profiling for Alternative Sanctions), un algoritmo utilizzato nel sistema giudiziario statunitense per predire la recidività criminale. Essendo alcune minoranze etniche maggiormente sorvegliate, il tasso di arresti risulta più elevato, influenzando negativamente le previsioni dell’algoritmo. Inoltre, se un dataset non è rappresentativo dell’intera popolazione, i modelli predittivi faticano a generalizzare correttamente i risultati. Un altro aspetto critico è il bias da aggregazione, che emerge quando gruppi eterogenei vengono trattati come omogenei. Un esempio sono i pazienti affetti da diabete, che possono presentare morbilità diverse, influenzate da fattori etnici e di genere.
- Bias algoritmici: in questo caso è proprio l’algoritmo a introdurre bias, non i dati. Questo può dipendere dalla scelta di alcune funzioni di ottimizzazione, di regolarizzazione. Anche la scelta di suddividere i dati in sottogruppi piuttosto che considerarli nella loro interezza può impattare aspetti statistici legati al funzionamento del modello. Infine è di fondamentale importanza che la validazione preveda insiemi di test e metriche robusti, affinché si riesca a misurare la qualità dei sistemi.
- Bias degli utenti che si riflettono nei dati: molte sorgenti dati sono generate dagli utenti, ne consegue che se l’utente ha dei bias, dei pregiudizi, questi si rifletteranno nei dati prodotti. Gli utenti possono avere bias poiché hanno caratteristiche demografiche specifiche, interagendo con altri individui possono essere condizionati.
Impatti pratici delle disuguaglianze di genere nei dataset
Le conseguenze di questa parzialità sono tutt’altro che teoriche. Differenze ormonali tra uomoni e donne, immunologiche e metaboliche influenzano la manifestazione delle malattie, la risposta ai farmaci, la sintomatologia e i rischi associati a diverse patologie. Quando i test clinici si basano su campioni prevalentemente maschili, o i dati sono analizzati senza disaggregazione per genere, le conclusioni che se ne traggono rischiano di essere valide solo per una parte della popolazione. Ad esempio, diversi studi hanno dimostrato che le donne sono più esposte agli effetti collaterali di alcuni farmaci, semplicemente perché i dosaggi sono stati tarati su corpi maschili.
Le conseguenze possono essere drammatiche. Nel 2013, la FDA ha dovuto dimezzare la dose consigliata di zolpidem per le donne, dopo aver scoperto che la metabolizzazione del farmaco era significativamente più lenta rispetto agli uomini, aumentando il rischio di incidenti stradali al risveglio.
Questa asimmetria si estende anche al mondo dell’intelligenza artificiale. Se i modelli predittivi o i sistemi di diagnosi automatica sono addestrati su dati distorti, riprodurranno quelle stesse distorsioni, offrendo raccomandazioni meno accurate o addirittura pericolose per il genere sottorappresentato.
Impatti economici e sociali del bias di genere
Le disuguaglianze di genere nei dataset hanno ripercussioni significative anche sull’economia. La scarsa presenza delle donne nei settori STEM e nello sviluppo tecnologico comporta il rischio che prodotti e servizi siano progettati principalmente secondo una prospettiva maschile, con conseguenti bias e soluzioni meno inclusive e meno efficaci per le donne. Questa esclusione può tradursi in una minore partecipazione delle donne sia come utenti sia come lavoratrici e imprenditrici nei settori innovativi, limitando così il loro potere d’acquisto e la loro presenza nel mercato del lavoro, come evidenziato anche dal divario di genere nei ruoli STEM e nelle posizioni di leadership. Queste dinamiche sono profondamente intrecciate con le specificità culturali e geografiche di ogni contesto. Le norme sociali, le tradizioni e le aspettative di ruolo influenzano non solo la disponibilità e l’accessibilità dei dati, ma anche il modo in cui vengono raccolti, interpretati e utilizzati. Ad esempio, in molte società, le donne hanno un accesso limitato all’istruzione e alla tecnologia, il che si traduce in una loro minore rappresentanza nella società civile e di conseguenza nei dataset digitali. Inoltre, le differenze culturali nel modo in cui le donne esprimono i sintomi di una malattia possono portare a diagnosi errate o ritardate. È cruciale considerare queste variabili contestuali per evitare di perpetuare o esacerbare le disuguaglianze esistenti attraverso la tecnologia.
Il software COMPAS, usato negli Stati Uniti per valutare il rischio di recidiva criminale, ha mostrato un bias significativo verso le persone afroamericane. Questi pregiudizi nei dati possono portare a discriminazioni sistemiche che influenzano l’accesso a opportunità e diritti, con impatti economici indiretti sulle donne e minoranze.
Un ulteriore esempio lo possiamo mutuare dal sistema fiscale, soprattutto quando prevede la tassazione del reddito familiare complessivo, può disincentivare la partecipazione delle donne al mercato del lavoro, poiché il “secondo percettore di reddito” (spesso la donna) subisce un carico fiscale più elevato o una minore convenienza economica. Questo bias implicito contribuisce a mantenere le disuguaglianze di genere nell’occupazione e nel potere d’acquisto.
L’intelligenza artificiale come amplificatore delle disuguaglianze
L’avvento dei modelli di intelligenza artificiale generativa e degli LLM (Large Language Models) in ambito sanitario, ha reso ancora più evidente quanto la qualità dei dati sia cruciale. Questi modelli apprendono da enormi corpus di testi, immagini e dati numerici; la loro “intelligenza” è interamente derivata da ciò che leggono e analizzano. Se l’universo da cui apprendono è parziale, anche le loro predizioni, raccomandazioni o creazioni di nuovi insight rispecchieranno quelle parzialità. L’intelligenza artificiale, infatti, non ha coscienza dei pregiudizi: li eredita e li perpetua.
Nel contesto farmaceutico, ad esempio, l’uso di modelli LLM per identificare nuove molecole, predire interazioni farmacologiche o simulare sperimentazioni cliniche potrebbe portare a risultati meno idonei per le donne, se i dati di addestramento non riflettono correttamente la diversità biologica e demografica della popolazione. Inoltre, anche quando le risposte dell’IA sembrano corrette, possono in realtà essere fuorvianti o basate su dati distorti, come sottolineato da recenti contributi su AI e decisioni complesse in ambito sanitario.
Ciò che un tempo era un problema di rappresentazione in un manuale ora diventa una questione di accesso equo a cure mediche personalizzate, rese possibili (o negate) dalla tecnologia.
Il ruolo del settore privato nella creazione di dataset inclusivi
Il settore privato ha un ruolo cruciale da svolgere nell’affrontare le disuguaglianze di genere nei dataset. Le aziende tecnologiche, le case farmaceutiche e altre organizzazioni che raccolgono e utilizzano grandi quantità di dati devono impegnarsi attivamente per garantire che i loro dataset siano equi e rappresentativi. Ciò include l’implementazione di politiche di raccolta dati inclusive, la formazione dei dipendenti sulla sensibilità rispetto alle tematiche di genere e l’adozione di pratiche di auditing algoritmico per identificare e correggere i bias. Ad esempio, alcune aziende stanno iniziando a utilizzare tecniche di “data augmentation” per bilanciare i dataset e migliorare la rappresentazione delle donne.
La creazione di dati sintetici ci fornisce ulteriore supporto. Infatti i dati sintetici possono essere una risorsa preziosa per ridurre i rischi di bias nei modelli di Intelligenza Artificiale, bilanciando i dataset sbilanciati, aggiungendo esempi di categorie sottorappresentate e creando scenari ipotetici che non sono presenti nei dati reali.
Strategie per costruire dataset più equi e inclusivi
Affrontare il problema richiede un approccio multidimensionale. In primo luogo, serve una raccolta sistematica di dati disaggregati per genere, età, etnia e altri fattori socio-demografici. Le linee guida cliniche dovrebbero prevedere obbligatoriamente la valutazione dell’efficacia e della sicurezza dei trattamenti su sottogruppi diversificati. In secondo luogo, i dataset destinati all’addestramento di modelli AI devono essere analizzati per verificare la loro rappresentatività. Esistono già framework di auditing algoritmico che consentono di identificare squilibri e suggerire correzioni.
Le organizzazioni che sviluppano IA devono assumere un ruolo etico attivo, integrando team interdisciplinari (inclusi esperti di genere e bioeticisti) e inclusivi (ossia formati da un numero equo di rappresentanti dei diversi generi) nelle fasi di progettazione e validazione dei modelli. La presenza di donne nei team di IA garantisce che le diverse prospettive e esigenze siano considerate. Questo porta a prodotti e servizi che rispondono meglio ai bisogni di tutta la popolazione.Inoltre la diversità di pensiero e di esperienze favorisce l’innovazione. Team inclusivi tendono a generare idee più creative e soluzioni più efficaci, migliorando la qualità complessiva dei progetti di IA.
L’importanza della diversità nei team e nella cultura dei dati
Un aspetto spesso sottovalutato è il ruolo cruciale della diversità nei team che progettano e sviluppano sistemi di intelligenza artificiale. La presenza di donne, di esperti di genere e di bioeticisti nei gruppi di lavoro aiuta a identificare e mitigare i bias nascosti nei dati e negli algoritmi. Team diversificati producono modelli più equi e innovativi, capaci di contemplare prospettive e bisogni differenti. In Italia, tuttavia, la rappresentanza femminile nel settore tech e AI rimane bassa, soprattutto nel Sud, dove persistono maggiori disparità di accesso alle opportunità digitali e formative. Affrontare queste disuguaglianze interne è quindi parte integrante della lotta contro il gender gap nei dataset e nelle tecnologie.
Serve una cultura dei dati più consapevole. Le istituzioni accademiche e sanitarie devono formare i futuri professionisti affinché comprendano l’importanza della diversità nei dati e le implicazioni di una sua mancanza. Non basta addestrare modelli intelligenti: occorre formare anche una società intelligente. Solo una società informata e critica potrà chiedere e sostenere tecnologie più eque.
Misurare l’impatto delle disuguaglianze nei dataset
Per garantire che gli sforzi per affrontare le disuguaglianze di genere nei dataset siano efficaci, è fondamentale implementare meccanismi di misurazione e monitoraggio rigorosi. Ciò implica la definizione di indicatori chiave di prestazione (KPI) che consentano di tracciare i progressi nel tempo, identificare le aree in cui sono necessari ulteriori interventi e valutare l’impatto delle politiche e delle pratiche implementate[3]. Un aspetto cruciale di questo processo è garantire la qualità e l’integrità dei dati[4] utilizzati per definire e monitorare questi KPI. Ad esempio, i KPI potrebbero includere la percentuale di dataset clinici che riportano dati disaggregati per genere, la riduzione dei bias di genere negli algoritmi di IA utilizzati per la diagnosi medica e il miglioramento dell’equità di genere negli esiti di salute[5].
KPI più generali per mitigare i bias sono ‘Factual and Conceptual Accuracy’, ‘Contextual Accuracy’ e ‘Consistency’[6]. Allo stesso modo, per valutare la riduzione dei bias di genere negli algoritmi di IA (un altro KPI), è necessario che i dataset di training e di valutazione siano rappresentativi e privi di distorsioni che possano compromettere l’integrità della misurazione. Senza dati di alta qualità e integri, qualsiasi tentativo di misurare e affrontare le disuguaglianze di genere attraverso i KPI risulterebbe inaffidabile e potenzialmente fuorviante. Pertanto, l’attenzione alla qualità e all’integrità dei dati è un prerequisito fondamentale per un efficace monitoraggio delle disuguaglianze.
Verso un’IA più equa e rappresentativa
Le disuguaglianze di genere nei dataset sono più di un problema tecnico: riflettono una cultura che per troppo tempo ha considerato il corpo maschile come norma e quello femminile come eccezione. Oggi, nell’era dell’intelligenza artificiale e dei big data, queste distorsioni rischiano di essere amplificate e automatizzate, con conseguenze concrete sulla salute, sull’economia e sui diritti di milioni di persone. Affrontare il gender gap nei dati richiede un impegno collettivo: dalla raccolta di dati più rappresentativi, alla formazione di team diversificati, fino all’adozione di strumenti di auditing e monitoraggio. Solo così potremo costruire tecnologie davvero inclusive, capaci di rispondere ai bisogni di ogni persona. La scienza e l’innovazione possono e devono essere alleate dell’uguaglianza, a patto che sappiano riconoscere e superare i limiti del passato.
Bibliografia
- Saon Ray – Addressing the gender digital divide, ICRIER 2024
- Centers for Disease Control and Prevention (CDC), “Maternal Mortality Rates in the United States, 2020”
- Donna L. Hoyert, Ph.D., Division of Vital Statistics – Maternal Mortality Rates in the United States, 2020
- NINAREH MEHRABI, FRED MORSTATTER, NRIPSUTA SAXENA, KRISTINA LERMAN, and ARAM GALSTYAN, USC-ISI – A Survey on Bias and Fairness in Machine Learning. 2022
- Fereshteh Hasanzadeh, Colin B. Josephson, Gabriella Waters, Demilade Adedinsewo, Zahra Azizi & James A. White – Bias recognition and mitigation strategies in artificial intelligence healthcare applications , 2025
- Northpointe – Practitioners Guide to COMPAS Core, 2015
- FDA Drug Safety Communication: FDA approves new label changes and dosing for zolpidem products and a recommendation to avoid driving the day after using Ambien CR, 2017
- Gender Equality Index, 2024
- UNESCO – Summary records, 2020
- Northpointe – Practitioners Guide to COMPAS Core, 2015
- Julia Angwin, Jeff Larson, Surya Mattu and Lauren Kirchner, ProPublica – Machine Bias, 2016
- Jeff Larson, Surya Mattu, Lauren Kirchner and Julia Angwin – How We Analyzed the COMPAS Recidivism Algorithm, 2016
- Natalìa Cecconi – Tassazione e parità di genere: l’impatto del sistema fiscale tra gender bias e incentivi al lavoro femminile, 2023
- Remco Jan Geukes Foppen, Vincenzo Gioia, Alessio Zoccoli – Scoperta di nuovi farmaci: che succede se l’AI sostituisce il caso?, 2025
- Vincenzo Gioia, Remco Jan Geukes Foppen – Beware AI Hallucinations, 2024
- Vincenzo Gioia, Remco Jan Geukes Foppen – Correct But Misleading: AI Hallucinations In Complex Decision-Making, 2024
- World Economic Forum – Global Gender Gap Report 2023, 2023
- La Repubblica – G4GRETA: giovani talenti femminili protagonisti dell’innovazione digitale sostenibile, 2025
- Dr Lavanya Vijayasingham, Dr Claudia Lopes, Dr Michelle Remme, Prof Asha George – Gender and COVID-19, 2020
- Remco Jan Geukes Foppen, Vincenzo Gioia, Shreya Gupta, Curtis L Johnson, John Giantsidis, Maria Papademetris – Methodology for Safe and Secure AI in Diabetes Management, 2024
- Fereshteh Hasanzadeh, Colin B. Josephson, Gabriella Waters, Demilade Adedinsewo, Zahra Azizi & James A. White – Bias recognition and mitigation strategies in artificial intelligence healthcare applications, 2025
- European Pharmaceutical Review – Pharma Horizons: Artificial Intelligence, 2025
[1] Fonte: Centers for Disease Control and Prevention (CDC), “Maternal Mortality Rates in the United States, 2020”
[2] https://s3.documentcloud.org/documents/2840784/Practitioner-s-Guide-to-COMPAS-Core.pdf
[3] https://i.unu.edu/media/iigh.unu.edu/page/8025/FINALProtocol.FeministDecolonisedRA_Nov-12-2020.pdf
[4] https://pmc.ncbi.nlm.nih.gov/articles/PMC11672366/
[5] https://www.nature.com/articles/s41746-025-01503-7
[6] https://www.europeanpharmaceuticalreview.com/article/251105/pharma-horizons-artificial-intelligence-2/











