sanità digitale

Small language models: la spiegabilità come leva per l’AI clinica

L’adozione dell’AI in sanità sposta il focus dall’accuratezza alla tracciabilità richiesta da EMA e FDA. Il mercato spinge su LLM costosi e opachi, ma gli small language models open-source possono offrire auditabilità token-level e gestione locale dei dati, aprendo a ricerca indipendente e sostenibile

Pubblicato il 12 mar 2026

Vincenzo Gioia

stratega dell'innovazione AI

Remco Jan Geukes Foppen

Ph.D., esperto di intelligenza artificiale e scienze della vita

Alessio Zoccoli

Senior Data Scientist

AI: dal caos all’ordine, nelle imprese come nella sanità; e-commerce ai in sanità; AI cittadini social e sanità ai in sanità

Gli small language models spostano la discussione dall’“AI più potente” all’“AI più auditabile”: in sanità e in altri contesti regolamentati, la spiegabilità e la tracciabilità diventano requisiti operativi, non optional.

L’IA “spiegabile” in Sanità: un imperativo per la fiducia e l’efficacia clinica

Indice degli argomenti

I nuovi paradigmi dell’adozione clinica dell’AI

La crescita delle capacità di analisi e l’ampliamento delle finestre di contesto (la quantità massima di testo che il modello può considerare simultaneamente mentre elabora una richiesta) trasformano i modelli di intelligenza artificiale in indispensabili strumenti per il supporto decisionale in settori ad alta complessità.

Nel settore sanitario l’uso dei modelli AI è teso a supportare sia la fase di diagnosi sia quella di follow-up clinico attraverso dispositivi medici che stanno profondamente modificando i termini del dibattito sull’adozione clinica dell’AI.

La nostra attenzione si è, quindi, progressivamente spostata dall’accuratezza della risposta alla garanzia di tracciabilità, trasparenza e conformità regolatoria. Il nuovo paradigma che si è venuto a creare è di tale importanza da avere indotto EMA e FDA a pubblicare un set di principi condivisi da applicare ai modelli AI usati nel drug product life cycle.

Spiegabilità e small language models tra black box e auditing regolatorio

Malgrado gli sforzi compiuti da data scientists e ricercatori, i Large Language Models (LLM) continuano a essere scatole nere (Black Box) la cui complessità non incontra i vincoli alla base dei meccanismi di auditing richiesti da EMA e FDA. Nella gran parte dei casi, nemmeno i principi ai quali ci si dovrebbe ispirare nel creare e gestire i modelli AI possono essere agevolmente adottati ed efficacemente applicati.

Ciononostante, la ricerca industriale continua a privilegiare investimenti legati al paradigma “Bigger is Better” generando modelli di dimensioni sempre maggiori, addestrati su dataset sempre più ampi e generalisti, con la speranza implicita che l’emergere di proprietà interpretabili giustifichi l’opacità tipica di questi strumenti.

Il mercato dell’AI tra promesse e costi

L’accelerazione impressa dagli LLM alla diffusione dell’AI in ambito civile e professionale è indubbia, come è indubbia la volontà di proseguire in questo cammino di crescita malgrado i costi superino i ricavi, come dimostrato da quanto è riportato nella tabella di sintesi a seguire.

Tabella: confronto cash burn AI: closed vs open (dati 2025)

Azienda	Base Dati	Ricavi (Revenue)	Perdite (Burn)	$ Burn per $1 Revenue	Fonti Principali
OpenAI	2025 Est.	$13.000 M	$8.500 M	$0,65	Sacra, The Information, PYMNTS
Anthropic	2025 ARR	$9.000 M	$5.200 M	$0,58	The Information, Reddit/Singularity
xAI	Q3 2025	$107 M	$1.460 M	$13,60	Bloomberg, Reuters, Perplexity
xAI	2025 Ann.	~$400 M	~$10.400 M	$26,00	Fintool, Financial Docs (Internal)
Mistral AI	2025 Est.	~$200 M	~$150 M	$0,75	Sifted, AI CERTs (Davos 2026)
DeepSeek	2025 Est.	~$150 M	~$450 M	$3,00	Guinness Global, Invesco, Guardian

OpenAI e Anthropic stanno entrando in una fase di “efficienza di scala” secondo quanto riportato dalle fonti, in particolare The Information. Sebbene queste aziende continuino a bruciare miliardi in termini assoluti, il rapporto perdite/ricavi è sceso sotto l’1,0. È importante notare che OpenAI ha chiuso il 2025 con un ARR (ritmo di ricavi annuali) vicino ai $20B, mentre i ricavi effettivamente incassati nell’anno solare sono stimati intorno ai $13B.

Il caso di xAI rappresenta invece un esempio emblematico di burn infrastrutturale. I dati del Q3 2025, pubblicati a gennaio 2026, mostrano un burn massiccio di $7,8B nei primi nove mesi, dovuto quasi interamente al Capex (spesa in conto capitale) per i supercomputer. Il rapporto di $26 persi per ogni $1 guadagnato è tipico di una fase di costruzione hardware pesante.

Mistral AI costituisce l’eccezione nel panorama degli small model open-source, adottando un approccio molto più conservativo. A Davos, nel gennaio 2026, il CEO Arthur Mensch ha confermato l’obiettivo di superare il miliardo di euro nel 2026. Per il 2025, le stime indicano ricavi intorno ai 200 milioni con perdite contenute, dimostrando che i modelli open e small richiedono molta meno cassa per sopravvivere.

DeepSeek ha scosso il mercato dichiarando di aver addestrato il modello V3 con soli $6M, secondo quanto riportato nel DeepSeek Paper e su Wikipedia. Tuttavia, analisti finanziari come Guinness Global stimano che tra costi di inferenza, personale e hardware, il burn complessivo sia molto più alto dei soli costi di training. Il rapporto di $3,00 riflette la loro strategia di prezzi aggressivi per sottrarre mercato a OpenAI.

Quanto riportato in tabella descrive un contesto industriale con una forte dipendenza dai finanziamenti esterni e una vulnerabilità ai cambiamenti del mercato (come l’aumento dei tassi di interesse o un mutamento del sentiment degli investitori).

Small language models e spiegabilità per una strategia alternativa ai large models

Da tempo non siamo più convinti che i Large Models rappresentino l’unica strada da seguire per raggiungere un’AI in grado di offrire un supporto operativo in contesti altamente regolamentati o con elevati standard in termini di Safety and Security. Come abbiamo già scritto, gli Small Language Models sono in grado di operare in contesti complessi facendo uso di contenute risorse infrastrutturali ed energetiche e possono essere orchestrati per rispondere a strategie di metamodelling agentico.

Un metamodello basato sull’integrazione di modelli più piccoli e specializzati è in grado di offrire maggiore flessibilità ed efficienza rispetto alla natura monolitica dei LLMs.

Quadro normativo e modelli small di linguaggio: requisiti e criticità

Il quadro normativo ha risentito pesantemente della velocità di questa evoluzione: l’arrivo di ChatGPT a metà del percorso legislativo ha infatti colto di sorpresa i regolatori, destabilizzando i sensi giuridici e etici dell’iter dell’AI Act. In questo scenario, i sistemi di supporto basati su AI e utilizzati in ambito clinico sono classificati dall’AI Act come “ad alto rischio”. Ciò impone ai produttori requisiti stringenti di trasparenza e tracciabilità.

Anche sul fronte regolatorio il quadro è complesso perché la FDA ha evidenziato come l’opacità degli attuali modelli linguistici ostacoli l’autorizzazione pre-market. In questo contesto, l’utilizzo di modelli proprietari cloud-based (per esempio: GPT-5.2, Claude Opus 4.5, Gemini 3) pone problemi non solo economici ma epistemologici legati al fatto che nessun ente regolatore può verificare la robustezza di un sistema inaccessibile anche ai tecnici che lo gestiscono. Nessun clinico può valutare l’appropriatezza di una raccomandazione algoritmica senza comprenderne i driver.

Molti colleghi esperti del settore AI sono inclini a sostenere che i limiti che abbiamo innanzi siano solo una temporanea manifestazione dello stato dell’arte e che è sufficiente attendere che i provider commerciali sviluppino metodi di interpretazione post-hoc. Questa posizione intellettuale attendista presenta, tuttavia un limite critico nel fatto che impone la totale dipendenza da infrastrutture critiche esterne e la rinuncia alla sovranità dei dati sanitari.

Spiegabilità e small language models: test, metodi e risultati sperimentali

Abbiamo testato le nostre ipotesi sottoponendo un SLM a processi di spiegabilità al fine di affrontare le principali limitazioni dei Large Models (es.: opacità, costi computazionali elevati, difficoltà di integrazione clinica). Quanto abbiamo riscontrato dalla nostra attività di ricerca è stato oggetto del nostro ultimo articolo peer reviewed pubblicato su Biomedical Engineering and Computational Biology.

I risultati del nostro studio supportano l’idea che integrando specifiche tecniche di spiegabilità (Integrated Gradients via Captum) con un SLM open-source (Qwen-2.5-1.5B), è possibile ottenere tracciabilità token-level su hardware consumer, mantenendo i dati in locale e rispettando i vincoli privacy. Questo ci induce a spronare investimenti in AI orientati a SLMs specializzati ed operanti in configurazioni collaborative.

Scopo e limiti: small language models e attribuzione token-level in clinica

Lo scopo del nostro percorso di ricerca è prima di tutto capire la fattibilità tecnica dell’integrazione tra SLM e metodi di attribuzione token-level in un dominio clinico. In altre parole, ci siamo chiesti se è possibile, con strumenti open-source e hardware accessibile, generare heatmap di attribuzione significativa per variabili cliniche note.

Non avendo mai avuto come obiettivo la validazione dell’accuratezza diagnostica del modello testato, non abbiamo considerato limitante l’esigua consistenza del campione (20 casi fittizi di carcinoma mammario) per le finalità poste. Inoltre, la prima fase del percorso di ricerca non ha previsto studi di usabilità con oncologi, né confrontato sistematicamente le performance con modelli di maggiori dimensioni perché non ha lo scopo di dimostrare l’utilità clinica di quanto testato.

La ricerca ci ha permesso di affermare che esiste un’architettura tecnica che consente l’audit di modelli linguistici in ambito oncologico senza ricorrere a infrastrutture proprietarie, e che questa architettura è sufficientemente leggera da essere gestita da singoli ricercatori indipendenti.

Ricerca indipendente e democratizzazione dell’AI medica

Questo studio nasce da una visione peculiare: la ricerca indipendente come spazio di libertà e innovazione. Il lavoro è il risultato di una collaborazione multidisciplinare tra autori che in ambito indipendente hanno unito competenze diversificate per affrontare una sfida comune. Senza finanziamenti esterni o sponsorizzazioni, la nostra authorship riflette un impegno autentico verso la scienza aperta e l’autonomia intellettuale.

L’uso di risorse computazionali accessibili — hardware personale, dataset pubblici e software open-source — non è stato un limite, ma il cuore del nostro contesto generativo. La nostra sfida non era competere sulla scala dei dati, ma sull’efficacia del metodo: come rendere auditabili e sicuri i modelli linguistici in ambito clinico partendo da risorse minime?

L’obiettivo di questo lavoro è dimostrare che la ricerca sull’AI sanitaria trasparente non deve essere un monopolio esclusivo di chi dispone di capitali milionari. Crediamo fermamente nella democratizzazione della tecnologia: oggi, un team multidisciplinare dotato di competenze tecniche (come la padronanza di PyTorch) e visione clinica può sviluppare prototipi funzionali e affidabili anche su scala locale.

Questo approccio apre le porte a una “AI sanitaria diffusa”: un ecosistema dove modelli specializzati, addestrati su realtà specifiche, possono essere verificati e gestiti direttamente dai professionisti delle strutture sanitarie. In questo modo, la trasparenza e l’indipendenza dai grandi vendor esterni diventano obiettivi raggiungibili, restituendo valore e controllo al territorio e ai ricercatori indipendenti.

Verso un’AI clinica sostenibile con small language models open source

Il risultato delle nostre ricerche non costituisce una “spiegazione” semantica nel senso pieno del termine. Non sappiamo se il modello “comprende” il significato clinico, ma fornisce una traccia matematica delle dipendenze input-output, verificabile e ripetibile.

Quanto abbiamo pubblicato descrive la sola fase iniziale della ricerca che l’Explainambiguity Think Tank sta conducendo che si è sostanziata in un Proof-of-Concept che abbiamo realizzato avvalendoci di risorse computazionali limitate e in assenza di finanziamenti istituzionali.

Il nostro lavoro si colloca nel filone di ricerca che studia la sostenibilità computazionale e regolatoria dell’AI medica. L’approccio “Bigger is Better” sta mostrando limiti non solo ambientali (consumi energetici insostenibili) ma pratici: modelli troppo grandi per essere ispezionati, troppo costosi per essere replicati, troppo opachi per essere regolamentati.

La strada dei piccoli modelli open source non è un compromesso qualitativo forzato, ma una strategia pragmatica. In oncologia, dove le decisioni richiedono integrazione di dati multimodali (immagini, laboratorio, anamnesi) e dove la responsabilità clinica è individuale, l’auditabilità può essere più preziosa della pura performance statistica su benchmark generali. Un modello che sbaglia occasionalmente ma mostra perché sta sbagliando è più utile, dal punto di vista della governance clinica, di un oracolo infallibile (in teoria) che non permette ispezione.

Naturalmente, resta molto lavoro da fare. Serve scale-up del campione, validazione esterna su cohort multicentriche, integrazione con ontologie cliniche standard per passare dall’attribuzione token-level all’attribuzione concettuale. Serve sviluppare interfacce che traducano le heatmap statistiche in linguaggio clinicamente utile. Ma questi sono passi successivi, che richiedono collaborazioni istituzionali.

Il nostro contributo è aver aperto il cantiere, dimostrando che i materiali per costruire sono alla portata di tutti. In un momento in cui l’AI sanitaria rischia di concentrarsi nelle mani di pochi provider globali, riteniamo fondamentale documentare che esistono alternative architetturali, accessibili e conformi ai requisiti regolatori emergenti. La trasparenza non deve essere un lusso per chi può pagarlo, ma una caratteristica progettuale disponibile anche per chi opera con modeste risorse computazionali.

La nostra ricerca è un tassello minimo in questo mosaico. Ma a volte, nei sistemi complessi, dimostrare che un percorso è percorribile costa più che percorrerlo con mezzi abbondanti.

Bibliografia

● Token-Level Attribution for Transparent Biomedical AI, Biomedical Engineering and Computational Biology (2026). Remco Jan Geukes Foppen, Alessio Zoccoli, Vincenzo Gioia.
https://journals.sagepub.com/doi/10.1177/11795972251407864

● From siloed data to breakthroughs: multimodal AI in drug discovery. Remco Jan Geukes Foppen, Vincenzo Gioia, Alessio Zoccoli and Carlos N. Velez (2025). June 11. A Featured Article in Drug Target Review
https://www.drugtargetreview.com/article/160597/from-siloed-data-to-breakthroughs-multimodal-ai-in-drug-discovery/

● Scienze della vita: la svolta degli Small Language Model. Remco Jan Geukes Foppen, Vincenzo Gioia, Alessio Zoccoli (2024) Agenda Digitale
https://www.agendadigitale.eu/sanita/scienze-della-vita-la-svolta-degli-small-language-model/

● Methodology for Safe and Secure AI in Diabetes Management in Journal of Diabetes Science and Technology, 19, 620–627. (2025). Geukes Foppen, Remco Jan; Gioia, Vincenzo; Gupta, Shreya; Johnson, Curtis; Giantsidis, John; Papademetris, Maria
https://pmc.ncbi.nlm.nih.gov/articles/PMC11672366/

● Guiding principles of good AI practice in drug development Gennaio 2026
https://www.ema.europa.eu/en/documents/other/guiding-principles-good-ai-practice-drug-development_en.pdf

● European Union (2024) Regulation (EU) 2024/1689 of the European Parliament and of the Council of 13 June 2024 laying down harmonised rules on artificial intelligence and amending various regulations and directives (Artificial Intelligence Act). Official Journal of the European Union L, 12 July.
https://eur-lex.europa.eu/eli/reg/2024/1689/oj/eng

@RIPRODUZIONE RISERVATA