AI DEL LINGUAGGIO

Mercury e Gemini: l’ascesa dei modelli linguistici a diffusione



Indirizzo copiato

I modelli linguistici a diffusione trasformano il paradigma autoregressivo, generando bozze globali e affinamenti paralleli. Mercury e Gemini mostrano velocità e costi di esecuzione rivoluzionari, aprendo scenari di applicazioni edge e sostenibilità energetica nell’ambito dell’AI generativa

Pubblicato il 26 giu 2025

Paolo Steila

Head of Strategy e Senior partner disruptiveS



Gemini 2.5 modelli di diffusione linguistica

Per oltre un decennio, l’intelligenza artificiale generativa ha ruotato intorno a un’unica architettura: i modelli autoregressivi.

Da GPT-3 a ChatGPT, l’approccio dominante ha sempre seguito la stessa logica: generare testo parola per parola, in sequenza, da sinistra a destra. Ma ora qualcosa sta cambiando. E non è un’evoluzione: è una rivoluzione architetturale.

La rivoluzione dei modelli linguistici a diffusione

A guidare questa svolta è Inception Labs, una startup californiana fondata da ricercatori di Stanford, UCLA e Cornell, che ha lanciato Mercury, il primo modello linguistico commerciale basato su diffusione, la stessa tecnologia alla base di strumenti come Stable Diffusion per le immagini o Sora per i video.

La differenza rispetto ai modelli tradizionali è profonda. Invece di costruire il testo passo dopo passo, Mercury parte da una bozza approssimativa dell’intera risposta e la affina iterativamente, correggendo e migliorando diverse sezioni in parallelo. È un approccio “coarse-to-fine”, che richiama da vicino il modo umano di pensare: formulare un’idea generale e poi rifinirla.

Prestazioni e vantaggi economici dei modelli di diffusione linguistica

Il risultato? Una velocità senza precedenti. Mercury genera oltre 1.000 token al secondo su una GPU H100 — l’equivalente di una pagina di testo professionale in meno di mezzo secondo. È fino a dieci volte più rapido di modelli come GPT-4o Mini o Claude 3.5 Haiku, pur mantenendo una qualità comparabile. Non solo: i costi computazionali sono drasticamente inferiori, rendendo il modello accessibile anche su dispositivi con risorse limitate. Un vantaggio non solo economico, ma anche ambientale, in un momento in cui il consumo energetico dell’AI sta diventando un tema centrale.

Evoluzione tecnologica dalla diffusione per immagini al linguaggio

I modelli di diffusione non sono una novità assoluta: hanno già rivoluzionato la generazione di immagini. Strumenti come Stable Diffusion e DALL·E li utilizzano da tempo per creare immagini realistiche a partire da descrizioni testuali. Anche Sora, il generatore di video da testo sviluppato da OpenAI, si basa sulla stessa tecnologia.

Tuttavia, finora non si erano ottenuti risultati comparabili nel campo del linguaggio naturale. Il motivo principale è che il linguaggio presenta vincoli grammaticali e semantici molto più rigidi rispetto alle immagini, rendendo complessa l’applicazione efficace dell’approccio iterativo tipico della diffusione.

Confronto tra Mercury e Gemini diffusion nei modelli linguistici a diffusione

Stefano Ermon, professore alla Stanford University e fondatore di Inception Labs, ha lavorato per anni su questa sfida, ipotizzando che fosse possibile generare e modificare blocchi di testo in parallelo grazie ai modelli di diffusione.

Lo scorso anno Ermon ha pubblicato un paper contenente un avanzamento significativo: “Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution”. In questo studio, viene presentato un nuovo metodo chiamato SEDD (Score Entropy Discrete Diffusion). Si tratta di una tecnica per la modellazione generativa di dati discreti, ovvero informazioni composte da elementi distinti e non continui — come lettere, parole, token o simboli. In pratica, significa insegnare a un’intelligenza artificiale a generare testo (o codice, o altri dati simbolici) in modo più efficiente, controllabile e realistico, superando i limiti dei modelli linguistici autoregressivi che oggi dominano il settore.

Google Gemini diffusion e validazione industriale

Se Inception Labs ha aperto la strada, è Google a sancire il passaggio dal pionierismo alla validazione industriale. Con Gemini Diffusion, presentato recentemente durante Google I/O 2025, la casa di Mountain View entra ufficialmente nel campo dei modelli linguistici a diffusione, integrandoli nel proprio ecosistema LLM.

Anche Gemini utilizza un processo iterativo per generare il testo, abbandonando l’autoregressione in favore di una raffinazione progressiva del rumore. Nella sua prima dimostrazione pubblica, ha raggiunto 857 token al secondo, creando in pochi secondi una pagina web HTML+JavaScript interattiva. Google afferma che il nuovo modello offre prestazioni simili a Gemini 2.0 Flash-Lite, ma a cinque volte la velocità.

Architettura transformer e paradigma di generazione parallela

Un dettaglio importante: sia Mercury che Gemini mantengono l’architettura transformer, dimostrando che il cambiamento non riguarda la struttura neurale di base, ma il paradigma di generazione. Invece di costruire testo sequenzialmente, i modelli a diffusione puntano su una generazione globale e iterativa, con potenziali vantaggi in editing, codifica e produzione veloce di bozze.

Inception Labs ha già reso disponibile Mercury Coder, una versione del modello ottimizzata per generare codice.

I benchmark indicano prestazioni allineate o superiori a modelli AR ultra-rapidi, ma emergono anche alcune criticità, soprattutto nella generazione di codice complesso. Inoltre, alcune analisi suggeriscono che la qualità delle risposte si avvicini più ai modelli autoregressivi del 2023 che a quelli di ultima generazione.

Prospettive e applicazioni dei modelli linguistici a diffusione

Ciò pone una questione cruciale: se i modelli a diffusione eccellono in velocità e costi, possono davvero sostituire gli LLM più avanzati anche in compiti che richiedono alta coerenza semantica e precisione logica?

Soluzioni ibride e futuro dell’integrazione tecnologica

La risposta potrebbe arrivare da un compromesso architetturale. La ricerca sta infatti esplorando modelli ibridi, in cui la rapidità e la parallelizzazione della diffusione si integrano con la solidità autoregressiva. Framework come DGLM (Diffusion Guided Language Modeling) o la speculative decoding cercano di fondere i vantaggi dei due approcci, con risultati promettenti.

Anche la scalabilità, storicamente considerata un punto di forza degli autoregressivi, è ora in discussione. Studi come quelli su LLaDA, un modello a diffusione di grandi dimensioni, dimostrano che anche questi sistemi possono crescere in capacità e prestazioni, se opportunamente addestrati.

Nuove metriche di valutazione e applicazioni pratiche

In questo scenario, anche il concetto di “qualità” si evolve. La capacità predittiva statistica, metrica regina della linguistica computazionale, cede terreno a criteri più applicativi: correttezza di task, coerenza soggettiva, capacità di editing, controllo dello stile. In altre parole, la dominanza nell’AI non si misurerà più solo con i punteggi in benchmark statici, ma con l’efficacia pratica, la sostenibilità, l’accessibilità.

E qui i modelli a diffusione potrebbero avere un vantaggio decisivo. Più leggeri, più rapidi, meno costosi da eseguire: sono candidati ideali per applicazioni edge, strumenti creativi, assistenti embedded. Una tecnologia capace di portare l’AI generativa fuori dal cloud e direttamente nelle mani degli utenti.

Prospettive future dell’intelligenza artificiale generativa

Con Mercury e Gemini Diffusion, si apre una nuova stagione dell’intelligenza artificiale generativa. Non è ancora chiaro se i modelli a diffusione sostituiranno gli autoregressivi nei compiti più sofisticati, ma è certo che stanno già ridefinendo i confini dell’innovazione.

La vera incognita non è più se questa tecnologia avrà un ruolo, ma come si integrerà nel futuro stack dell’AI generativa.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati