LLM in medicina

AI clinica, molta ricerca ma poche prove sui pazienti reali: i rischi

Una revisione pubblicata su Nature Medicine evidenzia il divario tra ricerca sugli LLM in medicina e prove cliniche solide. Dati reali limitati, pochi trial randomizzati, rischi di allucinazioni e bias rendono centrale il tema della validazione dell’AI clinica

Pubblicato il 5 mag 2026

Dario Taborelli

founder di DatAIMed

Piattaforma Nazionale Telemedicina telemedicina e anziani fragili telemedicina responsabilità teledialisi

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

Nel panorama sanitario degli ultimi tre anni si è consumato un paradosso: mai così tanta ricerca su un’innovazione tecnologica, mai così poca evidenza solida sulla sua applicabilità clinica reale.

A documentarlo con precisione è una revisione sistematica pubblicata su Nature Medicine nel marzo 2026, condotta da ricercatori di Duke, NYU e Washington University, che ha analizzato 4.609 studi peer-reviewed sugli LLM in medicina clinica pubblicati tra gennaio 2022 e settembre 2025. I risultati sono inequivocabili: solo 1.048 di questi studi utilizzavano dati reali di pazienti. Di questi, appena 19 erano trial randomizzati controllati, il riferimento metodologico che in medicina serve per dimostrare l’efficacia di qualsiasi intervento.

Medicina e IA, una convivenza delicata e necessaria

Indice degli argomenti

AI clinica, il divario tra ricerca e dati reali

In altri termini: il 77% della ricerca disponibile analizzava scenari simulati, esami clinici a risposta multipla, vignette costruite ad hoc. Strumenti utili per misurare la conoscenza enciclopedica di un modello, non per valutare se quel modello funziona quando il paziente ha 72 anni, polipatologia e una storia farmacologica complessa.

Nei confronti diretti tra LLM e clinici umani, 1.046 comparazioni esaminate, i modelli AI hanno superato il professionista nel 33% dei casi. E la frequenza di superamento scendeva progressivamente all’aumentare dell’esperienza dell’esperto umano e del realismo dello scenario. L’AI eccelle sui test standardizzati. Quando il contesto si fa clinicamente complesso, il vantaggio si assottiglia o scompare.

Tre livelli di validazione, uno spesso mancante

In medicina, ogni intervento percorre un percorso preciso: funziona tecnicamente, è metodologicamente corretto, migliora gli outcome reali dei pazienti. Nell’AI clinica, questo percorso si interrompe quasi sempre prima dell’ultimo passaggio.

Il primo livello è la validazione tecnologica: lo strumento funziona come dichiarato? Le sue performance sono misurabili e riproducibili su dati rappresentativi del contesto d’uso? Il secondo è la validazione metodologica: lo strumento gestisce correttamente la qualità delle fonti, la gerarchia delle evidenze, l’incertezza clinica? Il terzo, e ancora raramente raggiunto, è la validazione clinica: lo strumento ha un impatto misurabile su decisioni reali e outcome reali? I dati della revisione su Nature Medicine mostrano che la ricerca si ferma quasi sempre al primo o secondo livello.

Allucinazioni, bias e qualità dei dati: rischi concreti

Un’allucinazione in un contesto clinico non è un bug tecnico trascurabile. È un output formulato con linguaggio scientifico corretto ma non supportato da evidenze reali, o in contraddizione con esse. In un contesto ad alto rischio, è una fonte di errore con impatto diretto sul paziente.

I bias nei modelli rappresentano un’ulteriore criticità sistemica: possono originarsi dai dati di training, se sovrarappresentano certe popolazioni o specialità, o dalle fonti utilizzate per le risposte, quando non viene applicata alcuna valutazione della qualità metodologica degli studi. Un sistema che tratta allo stesso modo una metanalisi Cochrane e un case report su rivista di terza fascia non applica la medicina basata sulle evidenze: la simula.

A questo si aggiunge la questione della protezione dei dati sanitari. Il GDPR classifica i dati clinici tra le categorie particolari che richiedono le massime garanzie, imponendo principi stringenti di minimizzazione, limitazione delle finalità, sicurezza e proporzionalità del trattamento. Per uno strumento AI in ambito clinico, questo si traduce in requisiti concreti: base giuridica esplicita per ogni trattamento, misure tecniche e organizzative adeguate alla sensibilità dei dati, e piena trasparenza verso gli interessati sulle modalità di utilizzo. Requisiti che non sono optional: sono la condizione per un’integrazione legittima nei sistemi sanitari.

RAISE e AI Act: un framework necessario, ma non sufficiente

In questo contesto si inseriscono due sviluppi normativi e metodologici che indicano una direzione di sistema.

Il framework RAISE (Responsible use of AI in Evidence Synthesis), sviluppato con il contributo di Cochrane, Campbell Collaboration, JBI e Collaboration for Environmental Evidence, introduce criteri metodologici per sviluppo, valutazione e utilizzo degli strumenti AI nella sintesi delle evidenze. Il principio centrale: la responsabilità dell’uso dell’AI ricade sul professionista, non sullo strumento. Questa responsabilità richiede consapevolezza dei limiti, trasparenza nell’uso e validazione documentata delle performance.

L’AI Act europeo (Regolamento UE 2024/1689) classifica i sistemi di supporto decisionale clinico, CDSS, strumenti di diagnosi assistita, early warning system, come sistemi ad alto rischio, con obblighi specifici di valutazione del rischio, qualità dei dati, supervisione umana e tracciabilità delle decisioni.

Ma c’è un limite strutturale da tenere presente: la conformità normativa stabilisce le condizioni minime per usare l’AI in sanità. Non certifica che uno strumento funzioni clinicamente. Uno strumento può essere compliant con l’AI Act e con il GDPR e risultare comunque inaffidabile se non è stato validato su dati reali, se non gestisce correttamente le fonti o se non è integrato nei workflow in modo appropriato.

Lo standard che manca – e la responsabilità di costruirlo

Il punto critico non è decidere se l’AI abbia un posto nella medicina moderna. Ce l’ha, e le sue applicazioni in ambito diagnostico, di ricerca e di supporto alle decisioni cliniche sono reali e in crescita. Il punto è decidere a quale condizione quell’adozione può essere considerata responsabile.

Uno standard condiviso per la validazione dell’AI clinica dovrebbe includere: validazione su dati reali di pazienti con adeguata numerosità e rappresentatività; valutazione della qualità metodologica delle fonti; misura dell’impatto su decisioni e outcome in contesti reali; supervisione umana integrata nel workflow, non accessoria. Iniziative come RAISE rappresentano un primo tentativo serio di costruire questo standard nel dominio della sintesi delle evidenze. Il passo successivo, ancora in larga parte da compiere, è estenderlo all’intera filiera degli strumenti AI applicati alla clinica.

Il rischio reale non è che l’AI in sanità non funzioni. È che venga adottata su larga scala prima di sapere con certezza come, quando e per chi funziona. Costruire questo standard non è un passaggio tecnico. È una responsabilità clinica.

@RIPRODUZIONE RISERVATA