lo studio nature

IA in corsia: perché gli LLM “indovinano” la diagnosi ma sbagliano il percorso clinico



Indirizzo copiato

Gli LLM nei casi clinici promettono supporto a medici e pazienti, ma i test su storie reali mostrano un punto critico: non basta “azzeccare” la diagnosi. Conta scegliere gli esami giusti al momento giusto e proporre terapie coerenti con comorbidità, vincoli e variabilità individuale

Pubblicato il 11 feb 2026

Luigi Mischitelli

Legal & Data Protection Specialist at Fondazione IRCCS Casa Sollievo della Sofferenza



Massimizzare l’adozione dell’AI in sanità: verso un approccio strategico di lungo periodo; AI gen consulenza; superintelligenza; AI industria
Foto: Shutterstock

I modelli lingistici di gradi dimensioni (LLM), messi alla prova su casi clinici possono sembrare “dottori virtuali”, ma quando vengono testati su storie reali emergono limiti concreti: non tanto nel riconoscere una diagnosi già ben documentata, quanto nel decidere quali esami chiedere e nel costruire piani di cura completi e coerenti con la complessità del paziente.

LLM nei casi clinici: promesse e limiti quando si passa ai pazienti reali

Un nuovo studio pubblicato su Nature racconta una storia affascinante e allo stesso tempo scomoda: i LLM, presentati spesso come “dottori virtuali” a disposizione degli utenti-pazienti (o medici), se messi davvero alla prova su casi clinici reali mostrano luci e ombre che oggi ne impediscono un uso autonomo in corsia. In poche parole: funzionano bene quando devono riconoscere diagnosi già ben documentate, ma faticano a decidere quali esami chiedere e, ancora di più, a proporre piani di cura completi e coerenti con la complessità di ciascun paziente.

In questo studio, promosso ed eseguito da università ed aziende di Shangai (Cina), i ricercatori hanno costruito “MedR-Bench”, una sorta di “palestra clinica per intelligenze artificiali”: 1453 casi reali, estratti da case report (articoli scientifici che descrivono dettagliatamente un singolo caso clinico) pubblicati dopo il 2024, che coprono 13 apparati del corpo umano e 10 aree specialistiche, includendo quasi 700 casi di malattie rare. Per ciascun paziente non c’è solo la diagnosi finale, ma anche la catena di ragionamento dei clinici, ossia i passaggi logici che hanno portato a decidere quali esami fare, come interpretarne i risultati e quale trattamento proporre. È un cambio di prospettiva importante: non interessa solo “se” l’Intelligenza Artificiale “indovina” la risposta giusta, ma “come” ci arriva, ossia se segue o meno un percorso clinico sensato e verificabile.

LLM nei casi clinici: il test in tre fasi che simula la corsia

Per simulare un percorso di cura realistico, i ricercatori cinesi hanno diviso la valutazione in tre momenti chiave: la scelta degli esami, la decisione diagnostica e la pianificazione del trattamento. Nel primo passaggio un “agente software” ha interpretato il ruolo del paziente, mentre il modello di Intelligenza Artificiale decideva quali accertamenti richiedere (analisi di laboratorio, imaging, approfondimenti mirati ecc.), ricevendo a ogni richiesta i risultati corrispondenti, come accadrebbe nel dialogo tra medico e assistito.

Nella seconda fase il modello ha formulato una diagnosi a partire dal quadro complessivo, mentre nell’ultima è stato chiamato a proporre una strategia di trattamento, confrontata con quella descritta nel case report originale.

Come funziona il Reasoning Evaluator: efficienza, fattualità, completezza

Per misurare non solo il risultato finale, ma la qualità del ragionamento, il team ha costruito un “Reasoning Evaluator”, un sistema automatico che scompone il testo generato dal modello di Intelligenza Artificiale in singoli passaggi logici e li confronta con linee guida e risorse mediche online (come la letteratura scientifica).

Ogni passaggio viene giudicato secondo tre dimensioni: efficienza (quante volte l’Intelligenza Artificiale ripete concetti inutili invece di avanzare nel ragionamento), fattualità (quanto ciò che afferma è coerente con le evidenze scientifiche) e completezza (quanti dei passaggi ritenuti essenziali dai medici nell’articolo originale vengono effettivamente coperti). Il risultato è una “radiografia” piuttosto precisa di come ragionano davvero queste macchine quando si trovano davanti a un caso complesso, lontano dalle domande a scelta multipla degli esami delle facoltà di medicina.

I modelli testati: proprietari, open source e LLM medici

Nello studio in esame sono stati messi alla prova sette modelli di ultima generazione, “mescolando” soluzioni proprietarie (con licenza) e open source (accessibili a tutti): tra questi o3-mini di proprietà di OpenAI (USA), il “pensante” Gemini-2.0 Flash Thinking di casa Google (USA), il gigantesco e open source DeepSeek-R1 (Cina) da 671 miliardi di parametri, oltre a sistemi specializzati in medicina come il LLM cinese Baichuan-M1 e lo statunitense MedGemma di Google DeepMind.

Diagnosi in modalità “oracle”: accuratezza oltre l’85%

Il primo dato che balza agli occhi riguarda la diagnosi: quando tali LLM hanno accesso a tutte le informazioni rilevanti (la situazione “oracle”, in cui gli esami giusti sono già stati eseguiti) i modelli migliori superano l’85% di accuratezza e, in alcuni casi, sfiorano il 90%.

Numeri che, sul singolo caso, possono risultare persino superiori alle prestazioni di medici “umani” isolati in contesti sperimentali, pur senza sostituirne l’esperienza integrata di équipe multidisciplinari.

LLM nei casi clinici: perché la scelta degli esami resta un collo di bottiglia

Il quadro cambia drasticamente quando si guarda alla capacità di decidere quali esami prescrivere. Nello scenario in cui il modello ha un solo “turno” per chiedere accertamenti, il richiamo delle indagini corrette resta attorno al 40–45% per i sistemi migliori, con scarti notevoli tra modelli generali e specializzati.

Quando il numero di turni viene ampliato, permettendo dialoghi più lunghi con il “paziente”, il miglioramento è sorprendentemente modesto: i modelli tendono a ripetersi, richiedendo esami ridondanti o irrilevanti e lasciandosi sfuggire test chiave che farebbero la differenza sulla diagnosi. Anche la precisione di tali modelli, cioè la quota di esami richiesti che si rivelano davvero pertinenti, rimane mediamente bassa, segnalando una certa propensione a “sparare nel mucchio” piuttosto che selezionare pochi accertamenti mirati.

Terapie e piani di cura: la soglia critica intorno al 30%

Sulla pianificazione terapeutica, invece, la situazione è ancora più delicata. Quando si chiede ai modelli di proporre un piano di cura da confrontare con quello adottato dai medici, le percentuali di piena corrispondenza scendono attorno al 30% (anche per i sistemi più avanzati).

La caduta si fa più evidente nei casi di malattia rara, dove la letteratura è più scarsa e la variabilità clinica maggiore, con trattamenti che richiedono spesso terapie off label (es. somministrazione di farmaci per impieghi diversi da quelli per i quali sono stati autorizzati), approcci combinati o follow-up personalizzati.

Questo conferma quanto rilevato da altri gruppi: mentre nella diagnosi l’Intelligenza Artificiale può beneficiare di pattern (schemi) ricorrenti appresi da grandi database, nella terapia entrano in gioco fattori di contesto (es. presenza di più patologie, preferenze del paziente, risorse disponibili ecc.) che i modelli faticano ancora a integrare in modo affidabile.

Errori per omissione e rigore fattuale: dove sbagliano davvero gli LLM

Nonostante queste fragilità “di sistema”, vi è una buona notizia: sul piano del rigore fattuale il ragionamento dei modelli linguistici di grandi dimensioni appare sorprendentemente solido. In media, circa il 90–95% dei passaggi logici riconosciuti come “effettivi” dal Reasoning Evaluator risulta coerente con le conoscenze mediche disponibili, con alcuni modelli che sfiorano il 98% in contesti ben documentati.

Ciò significa che, quando l’Intelligenza Artificiale sbaglia, spesso lo fa non perché “inventa” teorie fantasiose, ma perché tralascia un passaggio importante o non chiede il test giusto al momento giusto. Gli errori più insidiosi, infatti, non sono le affermazioni clamorosamente false, bensì “omissioni sottili”, come un esame non richiesto, una diagnosi differenziale non considerata, un fattore di rischio lasciato sullo sfondo.

Malattie rare: non crolla la diagnosi, ma pesa il percorso

Un altro risultato significativo riguarda la distinzione tra malattie comuni e rare. Contrariamente a quanto ci si aspetterebbe, le performance diagnostiche degli LLM non crollano di fronte ai casi più rari: quando gli esami corretti sono disponibili, i modelli riescono spesso a identificare anche condizioni poco frequenti, probabilmente perché ne hanno incontrato tracce durante l’addestramento su vasti archivi scientifici.

La vera difficoltà, sottolineano i ricercatori dello studio in esame, sta nell’arrivare a chiedere il test giusto in tempo utile, problema che nella pratica clinica riguarda anche i medici umani.

Open source vs proprietari: il divario si riduce

Per quanto riguarda il fronte tecnologico, lo studio cinese conferma la progressiva riduzione del divario tra modelli proprietari e open source. Il colosso di Hangzhou, DeepSeek-R1[1], pur essendo un modello aperto a tutti, mostra prestazioni paragonabili (e talvolta superiori) a quelle di sistemi chiusi (proprietari) come OpenAI-o3-mini e Gemini-2.0 nelle misure di efficienza del ragionamento e accuratezza diagnostica.

Anche modelli medici dedicati, come i già citati Baichuan-M1 (Cina) e MedGemma (Google, USA), si difendono bene su compiti specifici, segnando un passo verso strumenti più accessibili per ospedali e centri di ricerca che non possono permettersi licenze enterprise (spesso ad alto costo). Il codice e i dati di MedR-Bench, resi pubblici su GitHub, rendono possibile una valutazione indipendente e comparabile dei nuovi modelli che arriveranno nei prossimi anni.

Oltre MedR-Bench: benchmark più realistici e fiducia clinica

Tirando le somme, possiamo affermare che, al di fuori di questo singolo studio, il tema della valutazione dei modelli linguistici in sanità è oggi uno dei terreni più caldi della ricerca internazionale. Benchmark (parametri di riferimento) come MedAgentsBench[2] e MedHELM[3] cercano di avvicinare i test alle condizioni reali di reparto, introducendo costi degli esami, interazioni multi-turno tra i professionisti della salute e valutazioni comparative rispetto ai clinici “umani”.

In soldoni, ci troviamo di fronte a strumenti potenti ma ancora “immaturi”, che possono aiutare a non dimenticare una possibile diagnosi o a riassumere una montagna di informazioni, pur non essendo (ancora) in grado di sostituire il giudizio clinico nella scelta degli esami e nella definizione di un piano di cura personalizzato.

Possiamo tuttavia affermare che la trasparenza sul “come ragiona” un modello (e non solo sul numero di risposte esatte che esso esprime) diventerà un requisito essenziale per la fiducia di medici e pazienti, spostando l’attenzione dall’idea di un “oracolo infallibile” a quella di un “collega digitale” del medico da affiancare, controllare e, quando serve, contraddire.

MedR-Bench, in questo senso, segna un passo importante in questa direzione perché offre alla comunità scientifica una base comune per misurare progressi e limiti dei sistemi di Intelligenza Artificiale nella medicina reale, non in laboratorio. Nei prossimi anni i numeri di accuratezza probabilmente cresceranno ancora, ma la vera sfida sarà un’altra: trasformare queste macchine in partner affidabili, capaci di spiegare le proprie scelte, di adattarsi ai vincoli del contesto e di mettere la sicurezza del paziente al centro del loro “ragionare”.[4]

Note


[1] DeepSeek in Healthcare: A Survey of Capabilities, Risks, and Clinical Applications of Open-Source Large Language Models. ArXiv. https://arxiv.org/abs/2506.01257

[2] MedAgentBench: A Realistic Virtual EHR Environment to Benchmark Medical LLM Agents. Stanford University. https://stanfordmlgroup.github.io/projects/medagentbench/

[3] MedHELM. Stanford University. https://crfm.stanford.edu/helm/medhelm/latest/

[4] Quantifying the reasoning abilities of LLMs on clinical case. Nature. https://www.nature.com/articles/s41467-025-64769-1

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x