Un medico di base, una guardia medica, un medico specialista o un professionista sanitario. Davanti a un caso insolito, a un’interazione farmacologica sospetta, a una linea guida che non ricordano con precisione. Il gesto più naturale oggi è aprire un browser e chiedere a un modello linguistico generalista.
Non c’è niente di irrazionale in questo comportamento. C’è invece un problema strutturale che rischia di passare inosservato fino a quando non causa un danno concreto: gli strumenti AI generalisti non sono stati progettati per il contesto clinico, non sono stati validati su di esso, e il loro utilizzo in ambito sanitario espone professionisti e istituzioni a rischi che la maggior parte di chi li usa non ha ancora pienamente valutato. Ed è proprio questa apparente normalità a rendere il rischio sistemico invisibile.
Indice degli argomenti
Cosa non sa fare un modello generalista in medicina
I grandi modelli linguistici generalisti sono addestrati su corpus vastissimi di testo. Questa è la loro forza in contesti generici. In ambito clinico, diventa una criticità sistematica. Perché la medicina non richiede solo informazione, ma selezione, pesatura e contestualizzazione dell’evidenza.
Il primo problema è la qualità e gerarchia delle fonti. Un modello generalista non distingue una metanalisi Cochrane da un articolo di opinione su una rivista di terza fascia. Non applica la gerarchia delle evidenze che è il fondamento della medicina moderna: tratta un case report e un trial randomizzato controllato con lo stesso peso, perché non è stato addestrato per farlo diversamente, né per rendere esplicito il livello di evidenza associato a ogni affermazione. Il risultato è una risposta che suona autorevole ma che può riflettere le evidenze peggiori disponibili su un argomento.
Il secondo problema è il bias nei dati di training. I modelli generalisti sovrarappresentano popolazioni, patologie e contesti geografici più presenti nella letteratura anglofona e nelle fonti web. Questo introduce distorsioni sistematiche nelle risposte, spesso invisibili all’utente e non documentate dal sistema.
Il terzo problema, il più noto ma non per questo meno rilevante, sono le allucinazioni. In un contesto clinico, un’allucinazione non è un’imprecisione accettabile: è un’informazione formulata con linguaggio scientifico corretto, riferita a studi che non esistono o a dosaggi che non corrispondono alle fonti reali. In un contesto ad alto rischio, è una fonte di errore con impatto diretto sul paziente.
Il quadro normativo dell’AI generalista in sanità
L’adozione di strumenti AI generalisti in ambito sanitario non è soltanto una questione di affidabilità tecnica. È una questione di conformità normativa che coinvolge direttamente le strutture che li adottano.
Il GDPR classifica i dati sanitari tra le categorie particolari che richiedono le massime garanzie di trattamento. Nel concreto, questo significa che l’utilizzo di modelli generalisti per analizzare dati clinici, anche apparentemente anonimizzati, può esporre la struttura a trattamenti non conformi, in assenza di controllo su localizzazione, sicurezza e finalità del dato.
L’AI Act europeo (Regolamento UE 2024/1689) classifica i sistemi di supporto decisionale clinico come sistemi ad alto rischio, con obblighi specifici di valutazione del rischio, qualità dei dati di training, supervisione umana e tracciabilità delle decisioni. Un modello generalista utilizzato in contesto clinico non soddisfa questi requisiti per definizione: non è stato sviluppato, documentato e validato per quel caso d’uso.
Il MDR (Medical Device Regulation, Regolamento UE 2017/745) aggiunge un ulteriore livello: uno strumento software che fornisce supporto a decisioni diagnostiche o terapeutiche su pazienti specifici può rientrare nella definizione di dispositivo medico, con tutti gli obblighi di certificazione che ne derivano. Utilizzare uno strumento non certificato in questo perimetro espone la struttura sanitaria, non solo il singolo professionista, a responsabilità concrete.
La validazione clinica come discriminante strutturale
Come documentato dalla revisione sistematica pubblicata su Nature Medicine nel marzo 2026, 4.609 studi sugli LLM in medicina, appena 19 trial randomizzati controllati su dati reali di pazienti, la validazione clinica degli strumenti AI è ancora largamente assente anche nei prodotti sviluppati specificamente per la sanità.
Per uno strumento generalista, questa validazione è strutturalmente impossibile: non può essere validato in modo rigoroso su un dominio specifico perché è stato progettato per coprirne migliaia. La verticalizzazione non è una feature aggiuntiva. È la condizione che rende possibile la validazione, e quindi l’adozione responsabile. Un modello progettato per fare tutto non può essere validato in modo rigoroso per fare bene una cosa. In medicina, la generalizzazione è un vantaggio teorico. La specificità è una necessità operativa.
Cosa deve avere uno strumento verticale per la sanità
La differenza tra un sistema generalista e uno verticale non è una questione di dominio, ma di progettazione. Ogni scelta architetturale, le fonti, il trattamento del dato, il ruolo assegnato al clinico, determina se uno strumento è adatto al contesto clinico o semplicemente utilizzabile in esso.
Fonti strutturate e gerarchia delle evidenze applicata
Uno strumento verticale per la sanità deve essere connesso a banche dati scientifiche validate: PubMed e la letteratura biomedica peer-reviewed, i database farmacologici delle agenzie regolatorie (EMA, AIFA), le linee guida nazionali e internazionali delle società scientifiche, e, a livello istituzionale, la knowledge base aziendale dell’organizzazione che lo adotta. Non basta l’accesso alle fonti: il sistema deve applicare un’analisi qualitativa delle evidenze, pesare gli studi secondo la loro solidità metodologica, distinguere una raccomandazione di grado A da un’opinione di esperto. La medicina basata sulle evidenze non si simula: si implementa.
Architettura progettata per ridurre le allucinazioni
Le tecnologie che oggi consentono di ancorare le risposte di un modello AI a fonti verificabili e tracciabili, retrieval-augmented generation (RAG), knowledge graph, sistemi agentici multi-step, non sono optional in ambito clinico: sono requisiti architetturali. In termini pratici, questo significa che la risposta non viene “inventata” dal modello, ma costruita a partire da fonti reali, esplicite e verificabili. Il risultato è un output citabile, tracciabile, contestabile, il contrario di un’allucinazione.
Protezione del dato sanitario by design
In ambito clinico, la protezione dei dati non è una funzionalità da aggiungere: è una condizione di legittimità. Uno strumento verticale affidabile deve garantire che i dati rimangano su server europei, che non vengano utilizzati per addestrare modelli, che non vengano trasferiti tra utenti diversi, e che le informazioni sensibili siano anonimizzate prima di qualsiasi elaborazione. È l’approccio adottato da sistemi come DatAIMed, dove questi principi non sono funzionalità opzionali ma vincoli di progettazione.
Perimetro d’uso esplicito: supporto alle decisioni, non sostituzione del clinico
Uno strumento che fornisce ipotesi diagnostiche su pazienti specifici o consulenze terapeutiche personalizzate entra nella definizione di dispositivo medico ai sensi del MDR, con tutti gli obblighi che ne derivano. Uno strumento di supporto decisionale basato sulle evidenze, che risponde a quesiti clinici generali, sintetizza la letteratura, confronta linee guida, opera in un perimetro distinto e non richiede certificazione come SaMD. Questa distinzione è spesso ignorata nella pratica quotidiana, ma è uno dei principali punti di rischio regolatorio per le strutture che adottano AI in ambito clinico.
Human in the loop e formazione del professionista
Il punto che distingue uno strumento seriamente progettato da uno strumento semplicemente funzionante è il ruolo che assegna al clinico. Lo human in the loop non è una feature di sicurezza accessoria: è un principio architetturale. Il sistema deve rendere visibili le fonti, esplicitare l’incertezza, segnalare i limiti della risposta. Deve essere progettato per rendere il medico più consapevole, non più dipendente. La formazione continua del professionista non è un obiettivo separato dall’uso dello strumento: è incorporata nel modo in cui lo strumento è progettato. Un sistema che riduce il ruolo critico del medico non è un supporto decisionale. È un rischio operativo. E in sanità, un rischio operativo è un rischio clinico.
La responsabilità è di chi sceglie, non di chi usa
L’AI generalista non è intrinsecamente pericolosa. È uno strumento potente, progettato per un dominio generale, usato in un dominio ad alto rischio senza le garanzie necessarie. Il punto è che questa responsabilità non è più implicita. Il quadro normativo europeo – AI Act, GDPR e MDR – la sta rendendo esplicita e sempre meno delegabile: chi adotta AI in sanità deve poter dimostrare che lo strumento è stato scelto, validato e utilizzato in modo appropriato al contesto.
La differenza non è tra usare o non usare l’intelligenza artificiale. È tra utilizzare strumenti progettati per la medicina e utilizzare tecnologie nate per altri contesti.
In sanità, questa non è una scelta tecnologica. È una responsabilità clinica.











