Più diseguaglianze in sanità con l'intelligenza artificiale? Le sfide

L’intelligenza artificiale si basa in larga misura sull’uso di algoritmi alimentati e educati da grandi dataset di dati e manifesta delle grosse criticità e sfide da un punto di vista etico e sociale che devono essere tenute in considerazione e monitorate, soprattutto quando si parla di Sanità. Sfide e possibili soluzioni

L’impiego dell’intelligenza artificiale (IA) si è rivelato di grande utilità anche nel settore pubblico, Sanità in primis. Tuttavia, proprio considerando la Sanità, l’uso della tecnologia ha evidenziato delle criticità che necessitano di essere prese in considerazione e corrette per quanto possibile per non incorrere in disuguaglianze di trattamento e non aprire la strada a errori medici nella diagnosi e cura delle malattie.

Le criticità riguardano prevalentemente gli algoritmi di intelligenza artificiale, i dataset che li alimentano e istruiscono, e i relativi bias. È allora un esercizio utile provare a esaminarle e ragionare su eventuali precauzioni e soluzioni da intraprendere secondo gli esperti di ICT e Sanità.

Un’intelligenza artificiale “spiegabile” per una Sanità efficace e sicura: i nodi

Indice degli argomenti

Intelligenza artificiale e Sanità: i problemi emergenti

Come sottolineato in diversi contributi apparsi anche recentemente su Agendadigitale.eu, l’intelligenza artificiale (IA) offre delle grandissime opportunità ed ha un grande potenziale applicativo in ambito sanitario. L’IA – attraverso il machine learning, ma soprattutto reti neurali e deep learning – si propone di offrire approcci guidati dai dati a supporto della presa di decisioni e la definizione delle politiche di sanità pubblica che possono offrire dei benefici per la salute della intera società. Essa è infatti di grande aiuto, per esempio, nella diagnosi delle malattie, nel supportare la presa di decisioni di carattere clinico ed assistenziale, nello sviluppare e testare i nuovi farmaci e la loro interazione, nello sviluppo di trattamenti personalizzati, nonché nella cura stessa delle malattie. I sistemi di IA, cercando in milioni di record medici, possono anche aiutare a ridurre i costi dell’assistenza sanitaria, prevedere la mancata adesione dei pazienti alle campagne o agli accertamenti, o accorciare le liste di attesa.

Tuttavia, dato che l’intelligenza artificiale (IA) si basa in larga misura sull’impiego di algoritmi alimentati e educati da grandi dataset di dati, essa manifesta delle grosse criticità e sfide da un punto di vista etico e sociale che devono essere tenute in considerazione e monitorate, e per quanto possibile risolte, in vista della più significativa e massiva integrazione dell’IA nella routine clinica e nelle altre attività che concernono il settore sanitario.

Come evidenziato in diversi contributi (e.g. Noroni e al., 2021; Madhusoodanan, 2021; Shen, 2021, Parikh e al., 2019; …), i maggiori problemi che riguardano l’IA in Sanità sono legati ai cosiddetti bias – ovvero pregiudizi, preconcetti – degli algoritmi. Meno significative sembrano invece le criticità collegate con l’altra debolezza degli algoritmi dell’intelligenza artificiale ovvero l’overfitting, ovvero la presenza di troppe ipotesi da testare e di pochi dati per verificarle e distinguerle negli algoritmi (crf. Domingos, 2016).

In ambito sanitario, i bias degli algoritmi possono determinare degli effetti catastrofici perché possono spingere ad assumere decisioni erronee che riguardano interi gruppi di pazienti, come le persone non bianche, minoranze etniche o un intero genere (quello femminile), che storicamente sono stati caratterizzati da una limitata o sottorappresentata presenza nei database biomedicali, perpetuando pertanto dei pregiudizi presenti appunto nella società e ampliando così le disuguaglianze già esistenti nelle società contemporanee.

Infatti, la maggior parte degli algoritmi di IA hanno bisogno di grandi dataset da cui “imparare” per poter operare efficacemente, e se quei dataset di training data travisano la variabilità della popolazione, l’IA può condurre a rafforzare i pregiudizi che possono determinare effetti fatali, diagnosi errate e mancanza di generalizzazione dei risultati (e.g. Noroni e al, 2021; Shen, 2021).

Molti governi ed istituzioni si sono mosse per analizzare questo genere di problemi dei rispettivi sistemi sanitari, per esempio in Gran Bretagna l’NIHR (National Institute for Health Research) ha considerato questo tema come urgente e di primaria importanza, tanto da aver organizzato a luglio 2021 anche una serie di riunioni su Artificial Intelligence and Racial and Ethnic Inequalities in Health and Care.

I bias dell’intelligenza artificiale

Come Noroni e al. (2021) ricordano, i bias possono essere definiti statisticamente e socialmente. Statisticamente, essi si riferiscono ai casi in cui la distribuzione della popolazione del dataset a disposizione non riflette la reale distribuzione della popolazione. In questo caso potrebbe accadere che un algoritmo produca un risultato che differisce dalla vera stima del fenomeno in questione nella realtà. Il bias sociale, al contrario, si riferisce alle ineguaglianze che possono derivare da risultati finali subottimali, quindi non corretti, per gruppi stabiliti di popolazione umana.

Il contesto medico non è infatti alieno ai pregiudizi, bias appunto, che spesso sono difficili, non solo da quantificare, ma anche da identificare. In effetti, sono stati rilevati diversi casi di algoritmi che discriminano gruppi vulnerabili negli stessi campi in cui l’IA ha dimostrato di poter conseguire risultati più che promettenti. Per esempio, diversi contributi ricordano gli episodi di discriminazione e disuguaglianza di trattamento, potenzialmente letali, che sono emersi in ambito dermatologico (es. cura lesioni, diagnosi e cura del cancro della pelle) ai danni di persone non bianche, a causa dell’impiego poco approfondito dell’intelligenza artificiale (e.g. Shen, 2021; Madhusoodanan, 2021; Ledford, 2021 ; Pearl, 2021; Uzi, 2021).

I bias hanno riguardato non solo gruppi etnici e i pazienti non bianchi, ma anche il genere (es. nella diagnosi e cura delle malattie cardiovascolari, o nella ricerca e sviluppo dei medicinali), la presenza di disabilità (e.g. McCormick, 2021), l’età (visto che ai trial partecipano in genere soggetti giovani), e addirittura aspetti socioeconomici come la ricchezza o la scolarizzazione.

I bias sono particolarmente preoccupanti nelle aree dove la mancanza di variabilità nei dati per istruire gli algoritmi (training data) è più difficile da identificare in uno stadio iniziale, come per esempio nello sviluppo di farmaci e nei trial clinici. In quest’ultimo caso la maggior parte dei partecipanti sono maschi, relativamente giovani e provenienti dal medesimo contesto etnico. Spesso anche gli stessi studi preclinici sono influenzati da bias di genere in quanto coinvolgono in prevalenza o esclusivamente animali maschi. Questo tipo di bias durante le fasi precliniche dello sviluppo di un farmaco possono offrire informazioni alterate sulle reazioni ad un farmaco appena sviluppato da parte delle pazienti donne. A quel punto si potrebbe generare una reazione a catena per cui i risultati di questi primi studi sugli effetti dei farmaci, gli effetti collaterali e la relativa efficacia possono essere poi trasferiti nei dataset che sono poi usati per istruire gli algoritmi di IA. Ma la mancanza di diversità nei dataset clinici non è la sola fonte di bias: i ricercatori e i clinici possono anche registrare giudizi inconsci e pregiudizi nelle loro ricerche, distribuendo quindi algoritmi di IA che sono pregiudiziali sin dalla loro progettazione.

Se le questioni etiche non sono prese in considerazione prima che gli algoritmi siano ulteriormente implementati nella pratica clinica, l’IA può fallire nel suo intento di offrire benefici a tutti i pazienti, aumentando le iniquità che già caratterizzano il sistema sanitario in qualsiasi Paese.

Le attuali sfide alla imparzialità nell’intelligenza artificiale

Le fonti di pregiudizi nell’IA possono essere presenti nella maggior parte, se non in tutte le fasi, del processo di sviluppo di un algoritmo. Come suggerito in precedenza, i bias degli algoritmi possono infatti emergere:

dall’utilizzo di dati per istruire l’algoritmo non bilanciati o non rappresentativi della popolazione,
dall’implementazione di sistemi di raccolta dei dati influenzati dalla soggettività umana,
dalla mancanza di una adeguata regolazione nel processo di progettazione dello stesso algoritmo,
e dalla replicazione (involontaria) di pregiudizi umani che determinano la creazione di algoritmi che rispecchiano le ineguaglianze storiche (e.g. Parikh e al., 2019) di mancata o limitata rappresentazione nei database esistenti.

Secondo la letteratura, dunque, le fonti di bias possono essere quindi classificate in:

data-driven bias, dovuti ai dati che non sono rappresentativi della composizione della popolazione umana nel loro complesso. In molti casi è difficile quantificare il livello di compromissione dei dataset, per questo è importante raccogliere e considerare quante più possibili variabili e metadati (compresi i dati socioeconomici) anche quando non sembrano a prima vista direttamente connessi con le domande di ricerca.
Bias algoritmici, che si manifestano quando un algoritmo è istruito sulla base di dati con bias, e che può comportare il rafforzamento degli schemi derivanti dall’utilizzo di dati parziali e riguardanti una categoria dominante per istruire l’algoritmo. Il livello di sbilanciamento tra classi è calcolabile, ed è cruciale, per evitare mal interpretazioni dei risultati, identificare modi imparziali di stimare i livelli di probabilità che si incorra in tali situazioni. Inoltre, si possono utilizzare algoritmi che mitigano i bias e che si costruiscono includendo nella fase di istruzione degli attributi protetti (come l’etnia e il genere) o si possono inserire funzioni di controllo per i gruppi protetti.
Bias umani, che si verificano proprio perché gli algoritmi sono progettati da umani che possono perpetuare i propri pregiudizi. In effetti, gli algoritmi sono spesso progettati per affrontare quelli che gli sviluppatori considerano i problemi più urgenti da risolvere, che non sono necessariamente le stesse sfide affrontate dagli individui che sono toccati dai problemi per i quali questi algoritmi sono costruiti (nel nostro caso i pazienti). In aggiunta, la mancanza di diversità nei gruppi di lavoro in ingegneria e nel biomedicale può replicare inconsciamente pregiudizi e disequilibri di potere già presenti nella società. Questo genere di bias è il più complesso da individuare e da mitigare, e riguarda soprattutto aspetti collegati al colore della pelle, l’etnia e il genere, nonché l’orientamento sessuale (Norori e al., 2021).

Il ruolo delle soluzioni open e partecipative, e degli standard

Negli ultimi decenni diversi governi ed istituzioni, ma anche finanziatori e hanno lavorato insieme per promuovere la diffusione e condivisione degli open data. Questo ha consentito l’accesso da parte di chiunque a database pubblici per istruire algoritmi di IA. Purtroppo, come diversi esperti ricordano², molti di questi DB non sono diversi, disaggregati ed interoperabili tra loro. I depositi di dati hanno sostanzialmente aumentato il numero di DB open disponibili per istruire e sviluppare algoritmi, ma la popolazione vulnerabile rischia di rimanere comunque sottorappresentata nei dati sanitari. Questa mancanza di diversità restringe l’utilità e la generalizzabilità dei dataset e degli algoritmi di IA istruiti con quei dati. In aggiunta, la mancanza di coerenza e solidità, le differenze di formattazione, e la limitata aggregazione dei dati impediscono ai dataset open di essere abbastanza misti e utilizzati per potenziare sistemi ampli e complessi. Per questo si sta lavorando per sviluppare tecnologie inclusive che si basano sul contributo di quanti più individui. Tuttavia, di per sé non impediscono a priori che certi gruppi risultino comunque trascurati ed invisibili.

Intelligenza artificiale per le cure sanitarie domiciliari: opportunità e ostacoli

La standardizzazione invece, rende i dati più leggibili, interoperabili e più potenzialmente impattanti: in effetti quando i dati non sono apertamente disponibili e sono pubblicati in formati inconsistenti e incompatibili, diventa particolarmente difficile scambiarli, analizzarli ed interpretarli. L’inconsistenza nella condivisione dei dati, la variabilità nella loro qualità e i diversi livelli di usabilità degli stessi, determinano se i ricercatori abbiano o meno accesso a dataset di alta qualità per istruire gli algoritmi per una IA equa e giusta (Panch e al. 2019).

Per diventare interoperabili i dataset hanno bisogno di tracciare e misurare l’inclusività, avere la possibilità di scambiare i campioni, e avere strutture chiare capaci di supportare sistemi multipli. Creare standard per i dati è un processo complesso, ma anche un passaggio obbligato per una istruzione giusta degli algoritmi di IA, per questo nel dinamico e veloce contesto dei nostri giorni può essere utile adottare eventuali standard pre-esistenti purché ben funzionanti.

La soluzione finale proposta da Norori e al (2021) è quella di diffondere l’approccio di open science, che si esplicita in numerose pratiche, ma che è stata in sintesi riconosciuta in uno schema di inclusività, apertura, interoperabilità, condivisione, spiegabilità e affidabilità, in quanto “nessuna scienza può essere aperta se non è inclusiva sin dalla sua progettazione”. L’idea di condividere apertamente le molteplici sfaccettature del processo di ricerca, inclusi i dati, il metodo, i risultati in termini che consentono il ri-uso, la redistribuzione e la riproduzione di tutti i risultati dà vita alla open science, una pratica fortemente supportata da molte istituzioni e agenzie di finanziamento. All’inclusività sono riconosciuti diversi vantaggi come quello di incrementare il rigore scientifico, la fiducia e il migliore uso delle risorse, in aggiunta può contribuire ad aumentare l’equità in ambito sanitario. Si ritiene infatti che l’equità sia incrementata dalla condivisione dei dati, dall’utilizzo di standard inclusivi che aumentano l’efficienza dell’infrastruttura dati e supporta la loro interoperabilità.

Conclusioni

Se da un lato è praticamente impossibile avere dataset senza bias, per superare questo limite esistono diversi strumenti per limitarli, come per esempio quelli di machine learning e della istruzione delle reti neurali con dati sintetici sui gruppi trascurati. Tuttavia, condividere i dati non è sempre fattibile e desiderabile anche per motivi di privacy o sicurezza. In questi casi una soluzione utile può essere la condivisione dei codici degli algoritmi di IA per accelerare il loro sviluppo e dare potere agli individui di valutare la performance degli algoritmi di IA su diversi dataset. Test sul campo danno poi ai ricercatori l’opportunità di valutare la performance degli algoritmi in diversi gruppi della popolazione e contesti clinici. Servono poi metriche comuni e standardizzate per misurare l’attendibilità e accuratezza dell’IA che siano anche trasparenti e comprensibili tenendo conto del trade-off tra performance e interpretabilità delle applicazioni di IA; modelli semplici (come per esempio classificatori lineari o alberi delle decisioni) sono infatti più interpretabili ma meno performanti, mentre modelli più articolati e complessi (come per esempio le reti neurali) sono più performanti ma sicuramente meno intellegibili. Infine, in letteratura è suggerita anche l’utilità dell’impiego di un approccio di scienza partecipativa grazie ad algoritmi di IA che coinvolgano e vedano al loro centro i partecipanti, le comunità nei loro diversi gruppi, così da tenere conto delle esigenze e problemi di pazienti e comunità. Algoritmi e dataset incentrati sui partecipanti (participant-centered), possono essere facilitate da piattaforme basate sulla comunità (community-based) progettate appositamente per facilitare la raccolta di dati personali e per dare agli individui la possibilità di progettare nuove domande o algoritmi di ricerca che riguardino e coinvolgano loro stessi e le relative comunità.

Bibliografia

Domingos P., (2016), L’algoritmo definitivo. La macchina che impara da sola e il futuro del nostro mondo. Bollati Boringhieri, Torino

Ledford, H. (2021),“Millions of Black People Affected by Racial Bias in Health-care Algorithms.” Nature, October 24, 2019, in https://www.nature.com/articles/d41586-019-03228-6.

Madhusoodanan J. (2021) These apps say they can detect cancer. But are they only for white people?, The Guardian, 28/08/2021 in https://www.theguardian.com/us-news/2021/aug/28/ai-apps-skin-cancer-algorithms-darker

McCormick E. (2021) Automatizing care in US 02/07/2021 https://www.theguardian.com/us-news/2021/jul/02/algorithm-crucial-healthcare-decisions

Norori N., Hu Q., Aellen F. M., Faraci F. D., and Tzovara A. (2021) Addressing bias in big data and AI for health care: A call for open science Patterns 2, October 8, 2021, pp1-9, in https://www.sciencedirect.com/science/article/pii/S2666389921002026

Panch, T., Mattie, H., and Celi, L.A. (2019). The ‘‘inconvenient truth’’ about AI in healthcare. NPJ Digit. Med. 2, 77.

Parikh, R.B., Teeple, S., and Navathe, A.S. (2019). Addressing bias in artificial intelligence in health care, JAMA pp. 322, 2377.

Pearl, R., (2021), “How AI Can Remedy Racial Disparities in Healthcare.” Forbes, February 16, 2021, in https://www.forbes.com/sites/robertpearl/2021/02/16/how-ai-can-remedy-racial-disparities-in-healthcare/?sh=65b1e31130f6.

Shen A. (2021), AI Bias Against Skin Colours, Young Scientists Journal, 21/08/2021, in https://ysjournal.com/ai-bias-against-skin-colours/

Uzzi, B., (2021) “A Simple Tactic That Could Help Reduce Bias in AI.”, Harvard Business Review, November 4, 2020. In https://hbr.org/2020/11/a-simple-tactic-that-could-help-reduce-bias-in-ai.

https://www.nihr.ac.uk/documents/artificial-intelligence-and-racial-and-ethnic-inequalities-in-health-and-care-shortlisting-minutes/28264