C’è un punto che rende Gemma 4 interessante anche al di là dell’inevitabile rumore da lancio. Google con Gemma 4, appena presentato, non ha presentato soltanto una nuova generazione di modelli con pesi aperti, ma ha provato a ridefinire il compromesso che negli ultimi mesi ha dominato il settore.
Da una parte i sistemi più performanti, spesso costosi e centralizzati. Dall’altra i modelli locali, più controllabili ma raramente davvero competitivi quando il lavoro si fa complesso. Gemma 4 si inserisce in questo spazio con un obiettivo piuttosto chiaro: portare capacità di ragionamento, multimodalità e automazione su hardware accessibile, senza costringere i team di sviluppo a rinunciare a contesto lungo, tool calling e distribuzione commerciale.
Il risultato è una famiglia che, almeno sulla carta, segna un salto più marcato di quanto il nome possa far pensare. Alla luce delle specifiche ufficiali e dei benchmark diffusi al lancio, non sembra una semplice revisione incrementale di Gemma 3. Più prudentemente, si può leggere come un tentativo esplicito di presidiare il mercato dei modelli aperti in una fase in cui la concorrenza si misura sempre meno sul numero assoluto di parametri e sempre più sul rapporto tra qualità, costi di inferenza, memoria richiesta e facilità di integrazione.
Indice degli argomenti
Gemma 4: quattro modelli, con obiettivi diversi
Gemma 4 arriva in quattro versioni. Le più piccole sono E2B ed E4B, dove la E indica “effective parameters”, cioè parametri effettivi pensati per massimizzare l’efficienza in esecuzione locale. Sopra questa soglia si collocano due modelli più ambiziosi, il 31B dense e il 26B A4B mixture-of-experts. Quest’ultimo contiene oltre 25 miliardi di parametri complessivi, ma ne attiva circa 3,8 miliardi per inferenza, una scelta che consente di avvicinare la velocità di un modello molto più compatto pur mantenendo prestazioni da fascia alta.
La divisione non è cosmetica. Google ha costruito la famiglia per scenari distinti. I modelli E2B ed E4B sono destinati a contesti ultra-mobile, edge e browser, quindi telefoni, laptop e applicazioni locali dove latenza, memoria e autonomia operativa pesano più della forza bruta. Il 31B e il 26B A4B, invece, guardano a workstation, GPU consumer di fascia alta e ambienti di sviluppo in cui servono coding, ragionamento multi-step e agenti più affidabili.
In altri termini, Gemma 4 non chiede al mercato di scegliere tra “piccolo ma comodo” e “grande ma serio”. Prova a coprire entrambe le esigenze con una linea coerente, accompagnata da pesi disponibili su Hugging Face e Kaggle e da una presenza immediata negli strumenti di Google AI Studio e AI Edge Gallery.
Dove Gemma 4 prova a distinguersi
Il concetto che Google insiste maggiormente a valorizzare è quello di intelligence-per-parameter. Dietro l’espressione c’è un obiettivo molto concreto. Non basta più mostrare un punteggio alto, bisogna dimostrare che quel punteggio sia ottenibile senza infrastrutture sproporzionate. È qui che Gemma 4 prova a distinguersi.
Nel model card ufficiale, il 31B mostra miglioramenti molto netti rispetto a Gemma 3 27B nella configurazione di confronto indicata da Google. Il salto emerge soprattutto nei benchmark più osservati. Su AIME 2026 senza strumenti passa dal 20,8% all’89,2%, su LiveCodeBench v6 dal 29,1% all’80%, mentre su GPQA Diamond raggiunge l’84,3% contro il 42,4% del predecessore. Anche sul long context il divario è marcato: nel test MRCR v2 a 128K si passa dal 13,5% al 66,4%.
Questi numeri vanno letti con prudenza, perché provengono dalla documentazione del produttore e riflettono configurazioni precise. Tuttavia il segnale resta forte. Gemma 4 sembra meno interessata a vincere la gara delle dimensioni e più concentrata a comprimere capacità avanzate in footprint che restano gestibili. Non a caso Google sottolinea che i pesi bfloat16 dei modelli maggiori possono stare su una singola NVIDIA H100 da 80 GB e che le versioni quantizzate sono pensate per girare anche su GPU consumer.
Figura 1. La tabella diffusa da Google al lancio di Gemma 4 riassume il salto prestazionale della nuova famiglia rispetto a Gemma 3 e mette a confronto le diverse varianti sui benchmark oggi più osservati, da AIME 2026 a LiveCodeBench v6 fino a GPQA Diamond. Fonte: Google Blog.
Anche i ranking pubblici danno una fotografia utile, pur essendo per definizione mobile. Nel leaderboard open di Arena AI datato 31 marzo 2026, Gemma 4 31B compare al terzo posto complessivo tra i modelli aperti e il 26B A4B al sesto. È una collocazione significativa in quella specifica fotografia del mercato, molto più affollato rispetto alla fase in cui era comparsa la prima generazione di Gemma, con concorrenti forti sia sul fronte statunitense sia su quello asiatico.

Figura 2. Nel grafico “Model Performance vs Size” pubblicato da Google, Gemma 4 31B e Gemma 4 26B A4B compaiono come modelli aperti capaci di restare molto in alto nel ranking Arena AI pur con una taglia nettamente inferiore rispetto a diversi concorrenti. Fonte: Google Blog.
Multimodalità in Gemma 4, ma con priorità diverse
Un altro punto interessante è il modo in cui Google ha distribuito le capacità multimodali. Tutti i modelli accettano testo e immagini, mentre le varianti piccole aggiungono anche l’audio. Questo significa che la multimodalità non resta confinata al vertice della gamma, ma arriva anche sui modelli pensati per l’esecuzione locale, che è poi il contesto in cui il riconoscimento vocale, l’analisi di schermate, la lettura di documenti e l’assistenza contestuale hanno spesso il valore più immediato.
La documentazione di Gemma 4 indica capacità piuttosto ampie in comprensione visiva. Si parla di parsing di documenti e PDF, comprensione di interfacce, OCR multilingue, lettura di grafici, riconoscimento della scrittura a mano e gestione di immagini a rapporto d’aspetto variabile. Sul fronte video il supporto esiste, ma va inteso correttamente. Il modello elabora sequenze di frame, non “capisce” il video nel senso cinematografico del termine, e le soglie dichiarate sono contenute. Fino a 60 secondi per il video, assumendo un frame al secondo, e fino a 30 secondi per l’audio, disponibile soltanto per E2B ed E4B.
Questa scelta racconta una strategia precisa. Google non sta proponendo un modello totalizzante capace di tutto nello stesso modo. Sta costruendo una famiglia modulare, in cui le capacità vengono assegnate dove hanno maggiore utilità operativa. L’audio resta sui modelli piccoli perché è lì che la voce diventa funzione di prodotto. Il ragionamento più pesante e la finestra di contesto da 256K restano invece sulle versioni maggiori.
Per gli sviluppatori contano soprattutto agenti, codice e controllo
La parte forse più importante, per chi sviluppa, non riguarda però i benchmark puri. Riguarda il fatto che Gemma 4 è già pensata per applicazioni agentiche e automazioni strutturate. Google mette in evidenza il supporto nativo al function calling, all’output JSON strutturato e al ruolo system, cioè tre elementi che negli ultimi mesi sono diventati essenziali per costruire assistenti affidabili, catene di strumenti e automazioni controllabili.
È un passaggio che conta più di molti slogan sul “ragionamento”. Un modello aperto oggi non deve solo rispondere bene. Deve poter essere inserito in pipeline ripetibili, governate, osservabili e possibilmente eseguibili anche in ambienti offline o a sovranità controllata. Sotto questo profilo, la scelta della licenza Apache 2.0 è quasi importante quanto i miglioramenti tecnici. Google segnala esplicitamente la volontà di lasciare ai team pieno controllo su dati, infrastruttura e deployment commerciale.
Anche l’ecosistema conta. Il lancio è accompagnato da supporto immediato per strumenti ormai centrali per la comunità, da Transformers a TRL, da llama.cpp a vLLM, fino a Ollama, MLX e altri ambienti di esecuzione e fine-tuning. Per un modello con pesi aperti, la differenza tra una release promettente e una release davvero adottabile sta spesso proprio qui. Se il percorso tra download, quantizzazione, test locale e integrazione produttiva è corto, il modello entra nei flussi di lavoro. Altrimenti resta una demo ben riuscita.
Gemma 4: i limiti che restano e che conviene tenere a vista
L’elemento più utile, in una lettura meno promozionale, è forse riconoscere ciò che Gemma 4 ancora non risolve. Il cutoff dei dati di pretraining indicato nel model card è gennaio 2025. Per un modello lanciato il 2 aprile 2026 significa che tutta la conoscenza successiva richiede aggiornamento tramite retrieval, tool esterni o fine-tuning mirato. Non è una peculiarità di Gemma, ma è un vincolo pratico da ricordare, soprattutto in ambiti normativi, economici o scientifici ad alta volatilità.
C’è poi il tema dell’apertura. Google parla di open models e mette i pesi a disposizione con licenza permissiva, una scelta molto rilevante per ricerca e industria. Resta però il fatto che l’apertura dei pesi non coincide con la piena trasparenza dell’intero processo industriale, dai dataset completi alle infrastrutture di training. È una distinzione nota nel settore, ma continua a essere importante quando si valuta il significato della parola “aperto”.
Infine, i risultati migliori sono per ora soprattutto quelli documentati da Google e dai primi leaderboard pubblici. Sono segnali credibili, ma non esauriscono il giudizio. Serviranno settimane di prove indipendenti per capire quanto Gemma 4 regga fuori dai benchmark, in coding reale, document intelligence, agenti enterprise e deployment su hardware non ideale.
Perché Gemma 4 conta davvero nel 2026
Più che nelle sole specifiche, l’interesse strategico di Gemma 4 sta nel modo in cui Google cerca di presidiare anche il segmento dei modelli aperti. Da un lato continua a presidiare il vertice con la famiglia Gemini. Dall’altro offre una linea di modelli aperti che non sembra pensata come semplice vetrina tecnologica, ma come infrastruttura di lavoro per chi vuole costruire in locale, personalizzare, distribuire su device e mantenere margini di autonomia.
Se le prestazioni dichiarate troveranno conferma in test indipendenti, Gemma 4 potrebbe diventare uno dei riferimenti più concreti per una nuova categoria di applicazioni. Non i soliti chatbot generici, ma sistemi locali o ibridi capaci di leggere documenti, ragionare su repository, orchestrare strumenti, funzionare con vincoli di privacy più stretti e restare economicamente sostenibili. Più che un esercizio d’immagine, il lancio segnala la volontà di Google di rendere i modelli aperti una componente stabile della propria offerta. Il punto, semmai, è che il futuro di questa categoria non si giocherà soltanto sulla potenza assoluta, ma sulla possibilità di portare intelligenza credibile dove il software gira davvero.
Bibliografia
- Google Blog, “Gemma 4: Byte for byte, the most capable open models”
- Google AI for Developers, “Gemma 4 model overview”
- Google AI for Developers, “Gemma 4 model card”
- Arena AI, “Text Arena Overall – Open Source”
- Arena AI, “Text Arena Expert – Open Source”
- Hugging Face, “Welcome Gemma 4: Frontier multimodal intelligence on device”










