L’intelligenza artificiale sta trovando applicazione crescente in ambito sanitario, con l’obiettivo di migliorare la gestione dei flussi di lavoro, la comunicazione con i pazienti e il supporto alla diagnosi e al trattamento.
Indice degli argomenti
AI in Sanità: i modelli open di Google MedGemma, MedSigLip
Negli ultimi anni, la necessità di modelli più accessibili, personalizzabili e rispettosi della privacy ha spinto i principali attori dell’innovazione tecnologica a sviluppare soluzioni aperte, scalabili e affidabili.
In questo contesto emergono due modelli open source sviluppati da Google Research nell’ambito dell’iniziativa Health AI Developer Foundations (HAI-DEF): MedGemma e MedSigLIP.
HAI DEF
HAI-DEF è una raccolta di modelli leggeri pensati per fornire ai ricercatori strumenti solidi e flessibili per lo sviluppo di applicazioni sanitarie, mantenendo al tempo stesso pieno controllo su privacy, infrastruttura e possibilità di personalizzazione. Questi modelli rappresentano una svolta per lo sviluppo di strumenti AI dedicati alla medicina, permettendo un’adozione consapevole anche da parte di enti pubblici e accademici.
MedGemma
MedGemma è una collezione di modelli generativi multimodali basati su Gemma 3, progettati per accelerare lo sviluppo di AI in sanità e scienze della vita. La gamma include varianti da 4B e 27B parametri, capaci di accettare input testuali e visivi e generare testo clinico coerente e informativo. A luglio 2025 sono stati introdotti due nuovi modelli: MedGemma 27B Multimodal, che integra la capacità di interpretare dati multimodali e longitudinali provenienti da cartelle cliniche elettroniche, e MedSigLIP, un encoder leggero per immagini e testo, derivato dallo stesso encoder impiegato da MedGemma. Questo rende la collezione una risorsa versatile, capace di soddisfare diverse esigenze applicative: dalla classificazione automatica alla generazione di referti strutturati.
MedGemma è adatto per attività come la generazione automatica di referti, il visual question answering, la sintesi di note cliniche e la risposta a domande in linguaggio naturale. In particolare, MedGemma 4B Multimodale ha ottenuto il 64,4% su MedQA, classificandosi tra i migliori modelli open source sotto gli 8 miliardi di parametri. In uno studio non cieco, l’81% dei referti generati da MedGemma 4B è stato giudicato da un radiologo certificato negli Stati Uniti come clinicamente equivalente ai referti umani. Il modello ha raggiunto anche un punteggio RadGraph F1 pari a 30,3 nella refertazione automatica di radiografie toraciche, dimostrandosi capace di fornire testo clinicamente strutturato e semanticamente coerente. Il design architetturale consente inoltre la generazione di output in più lingue, garantendo un’ottima adattabilità a contesti sanitari globali.
La variante MedGemma 27B, in entrambe le forme testuale e multimodale, ha dimostrato prestazioni elevate nel benchmark MedQA, raggiungendo l’87,7% nella versione testuale, valore prossimo a DeepSeek R1 ma con un decimo del costo inferenziale. La versione multimodale è anche in grado di interpretare dati strutturati come quelli presenti nei record FHIR e nelle cartelle cliniche longitudinali, consentendo l’integrazione di sequenze temporali di eventi clinici. Questi modelli sono stati progettati mantenendo anche le competenze non mediche ereditate da Gemma, garantendo capacità generali di comprensione testuale e multilingua. In ambito clinico multilingue, ad esempio, MedGemma è stato testato con successo su testi medici in cinese tradizionale presso il Chang Gung Memorial Hospital di Taiwan, dimostrando accuratezza nella generazione di sintesi, raccomandazioni cliniche e risposta a domande in linguaggio specialistico.
Un punto di forza significativo di MedGemma è la possibilità per i ricercatori di migliorare ulteriormente le prestazioni del modello tramite fine-tuning, rendendolo altamente adattabile a scenari e domini clinici specifici. La compatibilità con notebook interattivi, API locali e formati ottimizzati (come safetensors) consente inoltre una rapida implementazione in ambienti reali. Inoltre, rispetto a molti modelli accessibili solo tramite API, MedGemma offre piena stabilità nel tempo: essendo rilasciato come snapshot statico, i suoi parametri restano congelati, assicurando riproducibilità e coerenza dei risultati nel tempo, un aspetto cruciale per l’adozione in ambito medico e per l’integrazione con flussi di lavoro regolamentati.
MedSigLip
MedSigLIP è invece un encoder da 400 milioni di parametri, specializzato nell’analisi e classificazione di immagini mediche. Si basa sull’architettura SigLIP, ma è stato adattato attraverso il fine-tuning su dati clinici diversificati come RX toraciche, istopatologia, dermatologia e fundus oculare. A differenza di encoder più generici, MedSigLIP conserva anche elevate prestazioni su immagini naturali, garantendo una flessibilità trasversale. I suoi punti di forza comprendono:
- Classificazione tradizionale di immagini mediche
- Classificazione zero-shot mediante confronto embedding testo-immagine
- Recupero semantico di immagini da grandi archivi clinici o di ricerca
- Supporto alla costruzione di database intelligenti per triage, revisione e ricerca
MedSigLIP è stato progettato per colmare il divario tra immagini e testi clinici, creando uno spazio di embedding condiviso in cui l’analogia semantica tra descrizioni testuali e caratteristiche visive può essere quantificata e sfruttata. In molti task di classificazione, MedSigLIP ha mostrato prestazioni analoghe o superiori a modelli specializzati, ma con una versatilità molto maggiore. È stato utilizzato, ad esempio, da DeepHealth (Massachusetts, USA) per il triage delle RX toraciche e la rilevazione di noduli polmonari. Altri casi studio segnalano il suo utilizzo in progetti di classificazione dermatologica, istopatologia oncologica e screening retinico.
Entrambi i modelli possono essere eseguiti su una singola GPU, e le versioni MedGemma 4B e MedSigLIP possono essere adattate all’uso su dispositivi mobili. Sono disponibili in formato safetensors su Hugging Face e accompagnati da esempi operativi in notebook GitHub che mostrano come effettuare inferenza, fine-tuning e deploy su Vertex AI. Una demo interattiva dimostra come MedGemma può essere integrato in un’applicazione clinica per la raccolta automatica delle informazioni preliminari alla visita. Altri sviluppatori hanno già documentato l’uso di MedGemma per sintetizzare appunti clinici, riassunti anamnestici e suggerimenti diagnostici personalizzati.
Rispetto ai modelli commerciali accessibili via API, l’approccio open source adottato da Google con MedGemma e MedSigLIP garantisce:
- Flessibilità e tutela della privacy: eseguibili in locale o su infrastrutture proprietarie
- Personalizzazione per prestazioni ottimali: adattabili a dataset e casi d’uso specifici
- Stabilità e riproducibilità: parametri fissi, non soggetti a modifiche non documentate nel tempo
- Controllo sull’infrastruttura e sulla governance del dato, particolarmente rilevante in ambito ospedaliero e universitario
La fase di validazione clinica per MedGemma e MedSigLIP
L’adozione dei modelli deve comunque essere preceduta da un processo rigoroso di validazione clinica. Google sottolinea che MedGemma e MedSigLIP non sono dispositivi medici pronti all’uso: non devono essere utilizzati per decisioni cliniche, diagnosi o trattamenti senza un’adeguata verifica e contestualizzazione. I dati di addestramento utilizzati per lo sviluppo sono un mix di dataset pubblici e privati rigorosamente de-identificati. È fondamentale che ogni output venga verificato clinicamente e integrato in pipeline supervisionate, per garantire la sicurezza del paziente e il rispetto delle normative.
Alcuni sviluppatori hanno già iniziato a costruire soluzioni reali basate su questi modelli. Oltre a DeepHealth, Tap Health (India) ha evidenziato la capacità di MedGemma di cogliere il contesto clinico, utile nella sintesi delle note di evoluzione o nel suggerire indicazioni guidate da linee guida. Altri esempi provengono da ambienti accademici e ospedalieri in Europa e Asia, dove i modelli sono stati testati per generare referti, rispondere a domande cliniche frequenti e supportare la ricerca retrospettiva su dati sanitari.
Combinare i due modelli medici di Google per la Sanità
In conclusione, MedGemma e MedSigLIP offrono una base potente e flessibile per la costruzione di strumenti sanitari intelligenti, etici e riproducibili, capaci di adattarsi alle esigenze di sviluppatori, ricercatori e istituzioni sanitarie.
La combinazione dei due modelli permette di costruire pipeline cliniche integrate in cui la classificazione visuale automatica è seguita dalla generazione testuale spiegata, rendendo il sistema interpretabile, adattabile e tecnicamente sostenibile. L’elevato potenziale di adattamento, la trasparenza del codice e la chiarezza delle licenze rendono questi modelli una risorsa strategica per il futuro della sanità digitale. Lo sviluppo di queste tecnologie segna un passo fondamentale verso una sanità potenziata dall’intelligenza artificiale, aperta, verificabile e sotto il pieno controllo dei professionisti.
Bibliografia
Su BiopharmaTrend:
https://www.biopharmatrend.com/post/1314-google-expands-medgemma-collection-with-multimodal-health-ai-models-for-open-development/ Google for DevelopersBioPharmaTrend
Health AI Developer Foundations (HAI‑DEF)
Documentazione ufficiale modello:
https://developers.google.com/health-ai-developer-foundations research.google+12Google for Developers+12Hugging Face+12
MedGemma
Pagina ufficiale su HAI‑DEF (variant 4B e 27B):
https://developers.google.com/health-ai-developer-foundations/medgemma Hugging Face+12Google for Developers+12Hugging Face+12
MedSigLIP
Descrizione dettagliata su Hugging Face:
https://huggingface.co/google/medsiglip-448 GitHub+12Hugging Face+12Hugging Face+12
Codice e notebook su GitHub:
https://github.com/google-health/medsiglip Google Cloud Platform+2Google for Developers+2arXiv+2GitHub+1research.google+1
Annuncio ufficiale (ricerca Google Blog):
“MedGemma: Our most capable open models for health AI development”
https://research.google/blog/medgemma-our-most-capable-open-models-for-health-ai-development/ Hugging Face+15research.google+15Google for Developers+15
Guida tecnica HAI‑DEF (Technical report)
Documentazione in preprint su arXiv:
https://arxiv.org/abs/2411.15128 arXiv+10arXiv+10Google Cloud Platform+10Medium
Articolo indipendente di approfondimento












