scenari

Studi clinici e intelligenza artificiale, arrivano le linee guida: ecco perché è una svolta

Negli ultimi anni, molti nuovi strumenti di Intelligenza Artificiale hanno trovato “spazio” in diverse riviste mediche, ma la loro efficacia è stata difficile da valutare per via della diversa qualità delle sperimentazioni e questo può essere un rischio per i pazienti. Cosa cambia con l’arrivo delle linee guida

Pubblicato il 30 Set 2020

Luigi Mischitelli

Legal & Data Protection Specialist at Fondazione IRCCS Casa Sollievo della Sofferenza

Il consorzio internazionale di esperti in campo medico CONSORT 2010 (Consolidated Standards of Reporting Trials) ha introdotto delle linee guida per gli studi clinici che “coinvolgono” l’utilizzo dell’Intelligenza Artificiale. Queste linee guida arrivano in un momento in cui l’interesse globale attorno all’Intelligenza Artificiale in campo sanitario è al culmine, con – d’altro canto – l’affermarsi di dichiarazioni gonfiate e spesso non veritiere sull’efficacia di certi strumenti che minacciano di minare la fiducia delle persone nell’Intelligenza Artificiale.

Indice degli argomenti

Intelligenza artificiale e studi clinici: l’importanza di standard comuni

I nuovi standard “internazionali” – annunciati sul Nature Medicine, sul British Medical Journal e su Lancet – riguardano due serie di linee guida in merito a come vengono condotti e riportati gli studi clinici, i quali sono già utilizzati in tutto il mondo per lo sviluppo di farmaci, test diagnostici e interventi medici.

I ricercatori del campo dell’Intelligenza Artificiale dovranno ora descrivere le competenze necessarie per utilizzare uno strumento di Intelligenza Artificiale, il modo in cui l’Intelligenza Artificiale viene valutata, i dettagli su come gli esseri umani interagiscono con l’Intelligenza Artificiale e l’analisi dei casi che possono condurre a errori (es. falsi positivi).

Tali linee guida sono importanti poiché gli studi controllati randomizzati sono il modo più affidabile per dimostrare l’efficacia e la sicurezza di un trattamento o di una tecnica in ambito clinico. Sono alla base sia della pratica medica che della politica sanitaria. Ma la loro affidabilità dipende dal fatto che i ricercatori si attengano a rigorose linee guida nel modo in cui i loro studi vengono condotti e segnalati.

Negli ultimi anni, molti nuovi strumenti di Intelligenza Artificiale hanno trovato “spazio” in diverse riviste mediche, ma la loro efficacia è stata difficile da confrontare e da valutare per via della “variegata” qualità dei progetti di sperimentazione. A marzo 2020, uno studio del British Medical Journal ha messo in guardia sul fatto che una ricerca carente e le affermazioni esagerate su quanto l’Intelligenza Artificiale fosse efficace ad analizzare le immagini mediche rappresentavano un rischio per milioni di pazienti.

La mancanza di standard comuni ha anche permesso alle aziende private di puntare sull’efficacia dei loro strumenti di Intelligenza Artificiale senza dover affrontare lo scrutinio applicato ad altri tipi di interventi medici o diagnosi. Ad esempio, la società britannica di sanità digitale Babylon Health, con sede nel Regno Unito, si è trovata sotto tiro nel 2018 per aver annunciato che il suo chatbot diagnostico fosse sullo stesso livello dei medici “umani”, sulla base di un test che, secondo i critici, era fuorviante. Ma Babylon Health è tutt’altro che sola. Gli sviluppatori affermano da tempo che le prestazioni dell’Intelligenza Artificiale in campo medico sono superiori o pari alle capacità umane, e la recente pandemia di Covid-19 ha mandato questa tendenza all’apice, mentre le aziende competono per pubblicizzare i loro strumenti di Intelligenza Artificiale. Nella maggior parte dei casi, la valutazione di questi strumenti di Intelligenza Artificiale viene effettuata internamente e in condizioni favorevoli.

Intelligenza artificiale e cancro al seno

Tuttavia, questo non significa che l’Intelligenza Artificiale non possa battere – in futuro – i medici “in carne ed ossa”. Infatti, la prima valutazione indipendente di uno strumento diagnostico di Intelligenza Artificiale che ha superato gli esseri umani nell’individuare il cancro con la mammografia è stata pubblicata ad agosto 2020. Lo studio ha scoperto che uno strumento realizzato dall’azienda sudcoreana Lunit Inc. e utilizzato in alcuni ospedali dello Stato è finito in mezzo al gruppo di radiologi contro cui è stato testato. Era ancora più accurato se utilizzato “in coppia” con un medico “umano”. Separando i “buoni dai cattivi”, i nuovi standard renderanno più facile questo tipo di valutazione indipendente, portando ad avere nel prossimo futuro un’Intelligenza Artificiale migliore e più affidabile.^[1]

Lo studio Lunit

Recenti studi hanno dimostrato che la (già brevemente esaminata) soluzione di Intelligenza Artificiale di Lunit Inc. è accurata quanto dei radiologi “umani” quando si tratta di identificare il cancro al seno, potendo potenzialmente avere un ruolo “autonomo” – ossia senza l’ausilio di professionisti – in futuro per ridurre il carico di lavoro dei radiologi e possibilmente per aumentare le corrette diagnosi di cancro al seno.

Un paio di studi condotti sulla soluzione Lunit da Fredrik Strand in forza allo svedese Karolinska Institutet e dal suo team di ricerca sono stati recentemente pubblicati sul JAMA Oncology e su The Lancet Digital Health, noti per essere tra le principali riviste mediche sottoposte a “peer-review”. Secondo lo studio pubblicato su JAMA Oncology, il team scandinavo ha condotto il primo confronto indipendente di diverse soluzioni di Intelligenza Artificiale in commercio. Sono stati analizzati tre diversi algoritmi di Intelligenza Artificiale, tra i quali la soluzione Lunit (Lunit INSIGHT MMG), per l’identificazione del cancro al seno. Sulla base di 8.805 casi, l’algoritmo di Lunit ha mostrato la migliore accuratezza tra gli altri, mostrando circa 15 punti percentuali in più di sensibilità rispetto agli altri due algoritmi in confronto. Secondo Ki Hwan Kim, Chief Medical Officer di Lunit, il significativo salto di prestazioni deriva dall’algoritmo sviluppato dall’azienda sudcoreana, meticolosamente “addestrato” da una quantità di dati senza precedenti. Il dataset di training data di Lunit – continua Ki Hwan Kim – comprende 72.000 casi di cancro al seno “provati” da biopsia.

In linea con le elevate prestazioni, la possibilità dell’utilizzo dell’Intelligenza Artificiale con alcuni esami di screening è stata suggerita nello studio pubblicato su The Lancet Digital Health. Esso si è concentrato su come il punteggio basato sull’Intelligenza Artificiale possa essere utilizzato per “impiegare diversamente” il tempo del radiologo, riducendo – in ultima analisi – il suo carico di lavoro e migliorando le performance. Lo studio ha dimostrato che per la maggior parte delle mammografie esaminate con Lunit raramente vi è una perdita di valutazione dei tumori senza che i radiologi siano coinvolti, confermando l’utilizzabilità del sistema senza l’ausilio del medico.

Fredrik Strand ha spiegato che gli studi mostrano il potenziale degli algoritmi di Intelligenza Artificiale in commercio come “lettori indipendenti” nella valutazione della mammografia di screening ad un livello clinicamente rilevante. Il passo successivo – secondo Strand – è quello di esplorare come funziona bene l’algoritmo di Lunit in un contesto clinico prospettico. In futuro è possibile che l’analisi dell’immagine da parte dell’Intelligenza Artificiale contribuirà a migliorare ulteriormente la sopravvivenza complessiva delle pazienti affette da cancro al seno. Per Brandon Suh – CEO di Lunit – poiché il cancro al seno è la seconda principale causa di morte nelle donne, la diagnosi precoce è la migliore difesa nel trattamento della malattia. Inoltre, è molto significativo che il livello di alte prestazioni dell’algoritmo di Lunit sia riconosciuto in studi basati su dati significativi di screening reali, con la speranza di fornire continuamente la migliore soluzione per le giuste diagnosi delle pazienti.^[2]

_______________________________________________________________________