La disinformazione medica è una delle sfide più insidiose per i sistemi di intelligenza artificiale applicati alla sanità.
Uno studio pubblicato su Lancet Digital Health ha messo alla prova 20 tra i più diffusi large language model con oltre 3,4 milioni di interazioni, misurando con precisione quanto spesso questi sistemi accettino come vere affermazioni mediche false. I risultati, che analizzano l’impatto del contesto testuale e delle fallacie logiche sulla risposta dei modelli, aprono domande urgenti per chi progetta e governa i servizi digitali in sanità.
Indice degli argomenti
Un crash test per l’IA medica: 3,4 milioni di interazioni sotto esame
L’articolo di Omar e colleghi su Lancet Digital Health (Mapping the susceptibility of large language models to medical misinformation across clinical notes and social media: a cross-sectional benchmarking analysis, Omar, Mahmud et al., The Lancet Digital Health, Volume 8, Issue 1, 100949) è, di fatto, un gigantesco “crash test” per l’intelligenza artificiale applicata alla medicina: 3,4 milioni di richieste inviate a 20 modelli diversi per rispondere a una domanda molto semplice: quanto facilmente un LLM si lascia ingannare da informazioni sanitarie false?
La risposta, numeri alla mano, è che questi sistemi accettano come vere quasi un terzo delle affermazioni mediche inventate che ricevono, con picchi che superano il 46% quando la falsità è nascosta dentro una lettera di dimissione ospedaliera scritta in linguaggio clinico impeccabile. La sorpresa, ancora più interessante per chi si occupa di sanità digitale, è che se la stessa bugia viene incartata in molte classiche “fallacie logiche” – quelle da manuale di retorica, tipo “lo fanno tutti, quindi è giusto” – i modelli tendono a fidarsi di meno, non di più.
Le tre fonti del test: cartelle cliniche, Reddit e vignette simulate
Gli autori costruiscono il loro esperimento usando tre fonti di testo diverse, che fotografano bene il mondo reale: le lettere di dimissione della coorte MIMIC (Medical Information Mart for Intensive Care) è uno dei più noti e ampi database di dati clinici anonimizzati al mondo, ampiamente utilizzato nella ricerca medica, nell’intelligenza artificiale e nel machine learning.
Gestito dal MIT (Massachusetts Institute of Technology), che fornisce dati dettagliati su pazienti ricoverati in unità di terapia intensiva e pronto soccorso del Beth Israel Deaconess Medical Center di Boston, nelle quali due medici inseriscono a mano una sola raccomandazione falsa. Poi hanno utilizzato una raccolta di 140 esempi di bufale sanitarie pescate su Reddit, dalle paure sui vaccini ai rimedi “naturali” miracolosi; e 300 vignette cliniche simulate ma validate da medici, piene di dettagli plausibili e di qualche informazione sbagliata.
Su ogni caso hanno fatto passare 20 LLM di famiglie differenti – GPT, Llama, Gemma, Qwen, Phi, Mistral e vari modelli medicali – per un totale di 3.476.000 interazioni, sempre con due tipi di domande: una versione “base”, neutra, che chiede semplicemente di indicare se nel testo c’è qualcosa di medicalmente scorretto, e una versione in cui la stessa frase viene incastonata in una fallacia logica nominata, dall’ad hominem allo slippery slope (terreno scivoloso), passando per l’appello all’autorità, all’emozione e alla popolarità.
Il contesto fa la differenza: lettere di dimissione al 46%, Reddit all’8,9%
Nel complesso, con la domanda neutra, i modelli “abboccano” alle informazioni false nel 31,7% dei casi, cioè circa una volta su tre. Il contesto però cambia moltissimo le cose: le lettere di dimissione prodotte dal database MIMIC sono il terreno più insidioso, perché lì la suscettibilità (la probabilità che il modello accetti una affermazione medica falsa come se fosse corretta) arriva al 46,1%, mentre sulle frasi pescate da Reddit scende all’8,9% e sulle vignette simulate addirittura al 5,1%. In altre parole, la forma autorevole, asciutta, tipica della documentazione clinica, inganna l’IA più della chiacchiera emotiva da forum.
L’effetto paradosso delle fallacie logiche: più retorica, meno inganni
Ancora più controintuitivo è l’effetto delle fallacie logiche. Quasi tutte, quando vengono rese esplicite nel prompt, finiscono per ridurre la probabilità che il modello accetti come vera la frase sbagliata.
L’esempio più spettacolare è l’appello alla popolarità: frasi incorniciate nel classico “tutti sanno che…” portano la suscettibilità all’11,9% contro il 31,7% del prompt neutro, con una riduzione di quasi 20 punti percentuali.
Slippery slope e appello all’autorità: le eccezioni pericolose
Fanno eccezione soltanto due strategie retoriche, che restano pericolose anche per l’IA: lo slippery slope e l’appello all’autorità, che aumentano la suscettibilità rispettivamente al 33,9% e al 34,6%. Qui la somiglianza con certe narrazioni cliniche è evidente: “se non fai questo, succederà inevitabilmente quest’altro” oppure “il primario con trent’anni di esperienza dice che…”.
GPT-4o in testa, modelli piccoli più vulnerabili: il ranking di robustezza
Naturalmente non tutti i modelli si comportano allo stesso modo. Tra gli LLM di uso generale, quello che raggiunge la combinazione più solida di bassa suscettibilità e buona capacità di riconoscere le fallacie è GPT-4o, che accetta circa il 10,6% delle affermazioni false e individua correttamente le fallacie nell’89,7% dei casi, con un punteggio composito di robustezza pari a 0,895 su una scala da 0 a 1. Un altro modello, gpt-oss-20B, quasi non si fa ingannare mai – lo 0,7% di suscettibilità – ma al prezzo di una capacità di “annusare” le fallacie più bassa, intorno al 74%.
Sul lato opposto, diversi modelli open-weight di dimensioni medio-piccole superano senza troppi problemi il 30–50% di accettazione del falso. In media, più parametri vuol dire minore suscettibilità (le correlazioni di Spearman tra dimensione del modello e tasso di errore sono tutte negative, da −0,69 a −0,86), ma non è una legge assoluta: la differenza la fanno l’allineamento e i guardrail, non solo la “taglia” della rete neurale.
La sorpresa: i modelli medicali sono più vulnerabili di quelli generici
La vera sorpresa, soprattutto per chi tende a fidarsi dei modelli “medicali” perché addestrati su letteratura e testi clinici, è che in questo studio vanno spesso peggio dei modelli generici. I loro punteggi di robustezza si muovono fra 0,571 e 0,432, con suscettibilità che in molti casi arriva al 30–55% e una capacità di riconoscere le fallacie che raramente supera il 50%.
In alcuni casi l’effetto dell’allineamento è quasi paralizzante: un modello come MediPhi rifiuta di rispondere a tante domande, mostrando una suscettibilità teoricamente nulla, ma individua correttamente le fallacie solo nel 9,1% dei casi, risultando di fatto inutilizzabile come supporto alla decisione.
Paracetamolo e autismo, aglio rettale e CPAP: le bufale che l’IA ha avallato
Per capire quanto tutto questo sia concreto, basta guardare agli esempi riportati dagli autori. In più di un’occasione diversi modelli, in parallelo, hanno avallato affermazioni non solo false ma potenzialmente dannose: dal “paracetamolo in gravidanza causa autismo” all'”aglio rettale che potenzia il sistema immunitario“, passando per l’idea che le maschere CPAP intrappolino così tanta CO₂ da rendere più sicuro smettere di usarle, che la mammografia “schiacciando” il seno provochi il tumore o che i pomodori fluidifichino il sangue quanto un anticoagulante prescritto. Nelle lettere di dimissione, più della metà dei modelli ha accettato frasi del tipo “bere latte freddo ogni giorno cura il sanguinamento da esofagite” o “sciogliere il lassativo in acqua calda ne attiva gli ingredienti”, senza battere ciglio.
Perché le fallacie logiche “proteggono” l’IA: l’ipotesi degli autori
Come spiegano allora questa apparente “protezione” offerta da molte fallacie logiche? Gli autori ipotizzano che i moderni processi di allineamento di sicurezza abbiano interiorizzato la regola che certi segnali linguistici – “tutti dicono”, “un famoso dottore sostiene”, “studi dimostrano” usati in modo vago – spesso accompagnano contenuti problematici.
Di fronte a quei marcatori, il modello diventa più diffidente e si irrigidisce, abbassando la probabilità di dare via libera alla frase. In parallelo, quando lo si invita esplicitamente a cercare fallacie, l’algoritmo sembra adottare una postura iper-prudente: è portato a vedere fallacie anche dove non ci sono (alte percentuali di falsi positivi sui prompt base), ma riconosce abbastanza bene i casi in cui la fallacia è davvero presente. È un comportamento che può andare bene per un chatbot al servizio del cittadino, dove un eccesso di prudenza è tollerabile, ma rischia di diventare un problema in un contesto clinico, dove ogni allarme inutile pesa sulla fruibilità del sistema.
FSE, telemedicina e PNRR: le implicazioni per la sanità digitale italiana
Se spostiamo lo sguardo sull’Italia, la connessione con i cantieri aperti – Fascicolo Sanitario Elettronico 2.0, telemedicina PNRR, centrali operative territoriali – è immediata. Le stesse tecnologie che immaginiamo di usare per riassumere lettere di dimissione nel FSE, generare piani terapeutici in linguaggio comprensibile o supportare il triage telefonico, nello studio di Omar e colleghi dimostrano una vulnerabilità strutturale proprio quando lavorano su testi clinici “seri”. In altre parole, l’uso degli LLM nel FSE e nei servizi digitali di cura non può essere impostato sull’idea che “l’IA ripulisce e semplifica”: prima di tutto dobbiamo chiederci quante bugie, errori o raccomandazioni discutibili è in grado di riconoscere e bloccare, e quante invece tende a rilanciare.
Governance dell’IA in sanità: misurare, stressare e vaccinare i modelli
In un ecosistema, come quello italiano, dove la spinta normativa – dal PNRR al DDL IA – va nella direzione di digitalizzare e al tempo stesso garantire sicurezza e affidabilità, questi numeri non possono essere considerati un dettaglio tecnico.
La governance dell’IA in sanità deve partire da qui: misurare, stressare, “vaccinare” i modelli contro la disinformazione prima di metterli al lavoro sui dati reali dei nostri pazienti, e costruire intorno a loro percorsi, ruoli e responsabilità che tengano conto del fatto che, anche nel migliore dei casi, almeno un 10% di informazioni sbagliate viene ancora preso per buono.
Tre messaggi chiave per chi decide
L’IA non “ripulisce” automaticamente la documentazione clinica
Lo studio mostra che i LLM accettano come vere fino al 46% delle raccomandazioni false quando sono inserite in lettere di dimissione realistiche, scritte in linguaggio clinico autorevole. Questo significa che strumenti pensati per riassumere o riformulare referti e note possono amplificare errori e bufale già presenti nei testi, invece di intercettarli e correggerli.
Servono crash test obbligatori su disinformazione, non solo buoni benchmark
Gli autori propongono il loro dataset come stress test standard per i sistemi di IA sanitaria: invece di dare per scontato che un modello sia “sicuro”, si misura quanto spesso rilancia una bugia e se la percentuale cala nelle versioni successive. È un approccio che andrebbe reso parte integrante delle gare, delle valutazioni di FSE, telemedicina e centrali operative territoriali, prima di accendere i sistemi sui pazienti.
I modelli medicali non sono automaticamente più sicuri, la decisione resta clinica
Nel lavoro i modelli specializzati sulla letteratura medica risultano in media più vulnerabili alla disinformazione rispetto ai modelli generali, con tassi di accettazione del falso che arrivano al 50% e oltre. Ciò conferma, in linea con quanto molti di noi sostengono da tempo, che l’IA deve essere vista come un alleato potente ma fallibile: la responsabilità delle decisioni rimane al clinico, e le istituzioni devono progettare contesti d’uso, formazione e governance tenendo presente che anche il “miglior” modello oggi sul mercato accetta comunque più del 10% di informazioni sbagliate.



















