Per oltre un decennio, l’intelligenza artificiale generativa ha ruotato intorno a un’unica architettura: i modelli autoregressivi.
Da GPT-3 a ChatGPT, l’approccio dominante ha sempre seguito la stessa logica: generare testo parola per parola, in sequenza, da sinistra a destra. Ma ora qualcosa sta cambiando. E non è un’evoluzione: è una rivoluzione architetturale.
Indice degli argomenti
La rivoluzione dei modelli linguistici a diffusione
A guidare questa svolta è Inception Labs, una startup californiana fondata da ricercatori di Stanford, UCLA e Cornell, che ha lanciato Mercury, il primo modello linguistico commerciale basato su diffusione, la stessa tecnologia alla base di strumenti come Stable Diffusion per le immagini o Sora per i video.
La differenza rispetto ai modelli tradizionali è profonda. Invece di costruire il testo passo dopo passo, Mercury parte da una bozza approssimativa dell’intera risposta e la affina iterativamente, correggendo e migliorando diverse sezioni in parallelo. È un approccio “coarse-to-fine”, che richiama da vicino il modo umano di pensare: formulare un’idea generale e poi rifinirla.
Prestazioni e vantaggi economici dei modelli di diffusione linguistica
Il risultato? Una velocità senza precedenti. Mercury genera oltre 1.000 token al secondo su una GPU H100 — l’equivalente di una pagina di testo professionale in meno di mezzo secondo. È fino a dieci volte più rapido di modelli come GPT-4o Mini o Claude 3.5 Haiku, pur mantenendo una qualità comparabile. Non solo: i costi computazionali sono drasticamente inferiori, rendendo il modello accessibile anche su dispositivi con risorse limitate. Un vantaggio non solo economico, ma anche ambientale, in un momento in cui il consumo energetico dell’AI sta diventando un tema centrale.
Evoluzione tecnologica dalla diffusione per immagini al linguaggio
I modelli di diffusione non sono una novità assoluta: hanno già rivoluzionato la generazione di immagini. Strumenti come Stable Diffusion e DALL·E li utilizzano da tempo per creare immagini realistiche a partire da descrizioni testuali. Anche Sora, il generatore di video da testo sviluppato da OpenAI, si basa sulla stessa tecnologia.
Tuttavia, finora non si erano ottenuti risultati comparabili nel campo del linguaggio naturale. Il motivo principale è che il linguaggio presenta vincoli grammaticali e semantici molto più rigidi rispetto alle immagini, rendendo complessa l’applicazione efficace dell’approccio iterativo tipico della diffusione.
Confronto tra Mercury e Gemini diffusion nei modelli linguistici a diffusione
Stefano Ermon, professore alla Stanford University e fondatore di Inception Labs, ha lavorato per anni su questa sfida, ipotizzando che fosse possibile generare e modificare blocchi di testo in parallelo grazie ai modelli di diffusione.
Lo scorso anno Ermon ha pubblicato un paper contenente un avanzamento significativo: “Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution”. In questo studio, viene presentato un nuovo metodo chiamato SEDD (Score Entropy Discrete Diffusion). Si tratta di una tecnica per la modellazione generativa di dati discreti, ovvero informazioni composte da elementi distinti e non continui — come lettere, parole, token o simboli. In pratica, significa insegnare a un’intelligenza artificiale a generare testo (o codice, o altri dati simbolici) in modo più efficiente, controllabile e realistico, superando i limiti dei modelli linguistici autoregressivi che oggi dominano il settore.
Google Gemini diffusion e validazione industriale
Se Inception Labs ha aperto la strada, è Google a sancire il passaggio dal pionierismo alla validazione industriale. Con Gemini Diffusion, presentato recentemente durante Google I/O 2025, la casa di Mountain View entra ufficialmente nel campo dei modelli linguistici a diffusione, integrandoli nel proprio ecosistema LLM.
Anche Gemini utilizza un processo iterativo per generare il testo, abbandonando l’autoregressione in favore di una raffinazione progressiva del rumore. Nella sua prima dimostrazione pubblica, ha raggiunto 857 token al secondo, creando in pochi secondi una pagina web HTML+JavaScript interattiva. Google afferma che il nuovo modello offre prestazioni simili a Gemini 2.0 Flash-Lite, ma a cinque volte la velocità.
Architettura transformer e paradigma di generazione parallela
Un dettaglio importante: sia Mercury che Gemini mantengono l’architettura transformer, dimostrando che il cambiamento non riguarda la struttura neurale di base, ma il paradigma di generazione. Invece di costruire testo sequenzialmente, i modelli a diffusione puntano su una generazione globale e iterativa, con potenziali vantaggi in editing, codifica e produzione veloce di bozze.
Inception Labs ha già reso disponibile Mercury Coder, una versione del modello ottimizzata per generare codice.
I benchmark indicano prestazioni allineate o superiori a modelli AR ultra-rapidi, ma emergono anche alcune criticità, soprattutto nella generazione di codice complesso. Inoltre, alcune analisi suggeriscono che la qualità delle risposte si avvicini più ai modelli autoregressivi del 2023 che a quelli di ultima generazione.
Prospettive e applicazioni dei modelli linguistici a diffusione
Ciò pone una questione cruciale: se i modelli a diffusione eccellono in velocità e costi, possono davvero sostituire gli LLM più avanzati anche in compiti che richiedono alta coerenza semantica e precisione logica?
Soluzioni ibride e futuro dell’integrazione tecnologica
La risposta potrebbe arrivare da un compromesso architetturale. La ricerca sta infatti esplorando modelli ibridi, in cui la rapidità e la parallelizzazione della diffusione si integrano con la solidità autoregressiva. Framework come DGLM (Diffusion Guided Language Modeling) o la speculative decoding cercano di fondere i vantaggi dei due approcci, con risultati promettenti.
Anche la scalabilità, storicamente considerata un punto di forza degli autoregressivi, è ora in discussione. Studi come quelli su LLaDA, un modello a diffusione di grandi dimensioni, dimostrano che anche questi sistemi possono crescere in capacità e prestazioni, se opportunamente addestrati.
Nuove metriche di valutazione e applicazioni pratiche
In questo scenario, anche il concetto di “qualità” si evolve. La capacità predittiva statistica, metrica regina della linguistica computazionale, cede terreno a criteri più applicativi: correttezza di task, coerenza soggettiva, capacità di editing, controllo dello stile. In altre parole, la dominanza nell’AI non si misurerà più solo con i punteggi in benchmark statici, ma con l’efficacia pratica, la sostenibilità, l’accessibilità.
E qui i modelli a diffusione potrebbero avere un vantaggio decisivo. Più leggeri, più rapidi, meno costosi da eseguire: sono candidati ideali per applicazioni edge, strumenti creativi, assistenti embedded. Una tecnologia capace di portare l’AI generativa fuori dal cloud e direttamente nelle mani degli utenti.
Prospettive future dell’intelligenza artificiale generativa
Con Mercury e Gemini Diffusion, si apre una nuova stagione dell’intelligenza artificiale generativa. Non è ancora chiaro se i modelli a diffusione sostituiranno gli autoregressivi nei compiti più sofisticati, ma è certo che stanno già ridefinendo i confini dell’innovazione.
La vera incognita non è più se questa tecnologia avrà un ruolo, ma come si integrerà nel futuro stack dell’AI generativa.