AI low cost

GLM 5.2 sfida Claude Opus: l’AI open weight costa sempre meno

Home Industria 5.0/Innovazione in azienda

GLM 5.2 riapre il confronto tra modelli di frontiera e modelli open weight, con benchmark sempre più vicini e costi molto più bassi. La sfida si sposta dal prezzo per token al costo reale dei task, soprattutto nell’AI agentica

Pubblicato il 29 giu 2026

Aggiungi tra i preferiti su Google

Antonio Cisternino

Università di Pisa

Mexico,City,,Mexico,-,Jun,25,2026,:,Smartphone,Displaying

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

Il continuo rilascio di nuovi modelli AI sempre più capaci sposta continuamente l’asta dell’intelligenza e il progressivo crescere delle capacità dei modelli, certificato dall’AI Stanford Index, amplia la rosa di scelta aprendo il mercato non solo ai big americani ma anche ai sempre più servizi che offrono l’esecuzione di modelli Open Weight che offrono “intelligenza” a prezzi decisamente attraenti.

Modelli AI aperti: guida alle soluzioni open-weight per le aziende

Indice degli argomenti

Il dibattito del costo per token

Il dibattito del costo per token è stato alimentato dal rilascio da parte di Z.ai della versione 5.2 del modello GLM, un modello particolarmente abile nei compiti di programmazione. In molti hanno confrontato il modello con Opus 4.8 riscontrando una sostanziale equivalenza in numerosi task e di fatto sollevando nuovamente il tema se i maggiori costi di Anthropic e OpenAI siano giustificati con i modelli Open Weight che si dimostrano sempre più capaci.

Cerchiamo di fare il punto per capire come i modelli sempre più capaci amplino il ventaglio di opzioni, soprattutto in un mondo di AI agentica in cui l’automazione che porta l’esecuzione ciclica di prompt agli LLM ha fatto esplodere il numero di token usati nei sistemi basati su AI.

GLM 5.2 e modelli open weight nel costo dell’intelligenza

L’annuncio di Z.ai di GLM 5.2 come è ormai prassi include i risultati di numerosi benchmark e i confronti con altri modelli, in particolare con i modelli di frontiera. Peccato che ormai il numero di benchmark utilizzati per misurare le capacità di un modello sono decine ed è difficile da questi grafici il reale comportamento sul campo del modello, e gli stessi sviluppatori selezionano i benchmark che in qualche modo caratterizzano i punti di forza del nuovo modello, come in questo caso in cui è evidente come l’attenzione sia sull’agentic coding.

Benchmark e AI Index per leggere le capacità dei modelli

Proprio per cercare di districarsi nella giungla dei benchmark Artificial Analysis ha combinato i vari risultati in un indice chiamato l’Artificial Intelligence Index: un numero da 0 a 100 che cerca di condensare in un solo numero le capacità di un modello. Come nel caso del QI umano anche in questo caso l’indice rischia di semplificare troppo il problema e nascondere differenze, allo stesso tempo l’indice consente confronti utili per capire come le capacità dei modelli si relazionano con i relativi costi.

Le considerazioni sui costi sono ovviamente più rilevanti per i grandi modelli per cui l’unica opzione è l’esecuzione in cloud perché difficilmente eseguibili sui propri sistemi, ma possono comunque aiutare anche quando un’organizzazione dovesse decidere di misurare il ritorno dei propri investimenti e costi per l’esecuzione di modelli open.

Costi dei token e modelli open weight nella pratica

Utilizzando i dati di Artificial Analysis è possibile farsi un’idea di come l’avvicinarsi di GLM a Opus 4.8 con la versione 5.2 dal punto di vista dell’AI index consenta di ridurre significativamente il costo per token di un modello di frontiera. Bisogna però fare attenzione a non confrontare il mero costo per milione di token per il confronto. In effetti GLM 5.2 costa otto volte meno di Claude Opus 4.8 se si considera come metrica quella dei token.

I laboratori di Artificial Analysis cercano di superare la metrica dei token introducendo i task, compiti che siano paragonabili e misurando il costo per la risoluzione. Si tratta di una metrica più appropriata anche se ovviamente le scelte fatte dal laboratorio hanno un certo livello di soggettività. Utilizzando l’Artificial Index e il costo per task si possono avere delle rappresentazioni grafiche che consentono di capire meglio la relazione tra capacità del modello e il suo costo.

Con questa metrica troviamo che Z.ai offre il 92% dell’intelligenza di Claude Opus 4.8 a un quinto del costo. Si tratta di un rapporto molto vantaggioso in un mondo di agenti che continuano a richiedere token per poter operare. E le architetture multi-agente sono ancora più demanding in termini di token.

Agentic coding e uso dei modelli aperti negli strumenti di sviluppo

Usare gli agenti Claude Code e Codex con modelli aperti è assolutamente possibile: si possono configurare manualmente per usare modelli differenti rispetto a quelli di Anthropic e di OpenAI, oppure si può utilizzare ollama per effettuare più semplicemente la configurazione, soprattutto se si usa ollama stesso per eseguire i modelli open.

Infrastrutture per modelli open weight tra locale e cloud

La disponibilità di modelli open realmente competitivi rispetto ai modelli di frontiera a prezzi più bassi e soprattutto aperti non può non far riflettere sulle scelte infrastrutturali per l’esecuzione di modelli. L’opzione di eseguire grandi modelli localmente resta costosa, soprattutto se si vogliono usare modelli con più di 70 miliardi di parametri, anche se ormai molti modelli non sono densi, ovvero non attivano tutti i parametri simultaneamente per la generazione di un token.

Workstation, DGX Spark e limiti dei grandi modelli

Tutti i sistemi basati su DGX Spark di nVidia consentono ora l’esecuzione di modelli fino a 120 miliardi di parametri grazie all’architettura Grace Blackwell e 128GB di memoria condivisa tra i core ARM e quelli delle GPU. In alcuni casi è addirittura possibile collegare due di queste unità per condividere la memoria e riuscire a caricare modelli quantizzati fino a 400 miliardi di parametri, consentendo l’esecuzione di modelli come GLM 4.5, meno capace del più recente ma indubbiamente un ottimo modello, soprattutto per il coding.

Una di queste piccole workstation sono capaci di eseguire modelli 120B come GPT-oss e Nemotron 3, con prestazioni paragonabili a modelli che solo un anno fa erano di frontiera come GPT 4o. Al prezzo intorno ai cinquemila euro si tratta di una soluzione accessibile anche a piccoli business, e l’esecuzione di un modello con 400 miliardi di parametri per circa diecimila euro era semplicemente impensabile un anno fa.

Se si vuole però eseguire modelli più capaci a casa gli investimenti crescono rapidamente: la workstation GB300 di Dell promette l’esecuzione di modelli fino a 1T di parametri ad un costo intorno ai 150 mila euro.

Ad oggi è quindi pensabile l’esecuzione di modelli medi a costi accettabili da un punto di vista aziendale, ma se si vogliono utilizzare i grandi modelli è di fatto necessario rivolgersi a servizi cloud. Nel caso dei modelli Open è più facile trovare servizi alternativi capaci di offrire token per un modello o per l’altro, in alternativa è possibile pagare direttamente i laboratori che li sviluppano.

Modelli open weight e AI distribuita all’edge

I nuovi modelli open weight stanno rapidamente raggiungendo i modelli di frontiera offrendo però la generazione dei token ad una frazione del costo dei più blasonati Google, Anthropic e OpenAI. La disponibilità di queste alternative rende possibile immaginare servizi e agenti che usano maggiori quantità di token per un impiego più sistematico dell’agentic AI nei propri sistemi.

È sicuramente degno di nota il fatto che modelli che solo un anno fa erano di frontiera possano essere eseguiti localmente ad un costo accessibile, un costo destinato a ridursi ulteriormente non appena saranno disponibili i nuovi portatili basati sul processore RTX annunciato da nVidia insieme a Microsoft che portano le capacità computazionali della DGX Spark all’interno di computer portatili. Sembra proprio che si stiano creando le condizioni per un’AI distribuita all’edge che si va ad affiancare a quella delle grandi AI

@RIPRODUZIONE RISERVATA