Proprio il giorno dopo il blocco americano di Fable/Mythos 5, il 13 giugno, la cinese Zhipu AI, nota anche come Z.ai, ha rilasciato GLM-5.2, il modello open-source più capace attualmente disponibile sul mercato, con licenza MIT: scaricabile, modificabile, utilizzabile senza restrizioni regionali.
La coincidenza temporale non è casuale. Il nostro approccio è di apertura radicale, ha dichiarato Tang Jie, cofondatore di Zhipu, definendo blocchi esterni le restrizioni imposte dal governo americano e da Anthropic. Elon Musk ha subito scritto su X: i cinesi raggiungeranno gli attuali livelli americani a inizi 2027. Tang Jie ha replicato: lo faremo prima.
Questa sequenza di eventi, il blocco di Fable, il rilascio di GLM-5.2, cristallizza una dinamica che si sta consolidando nella competizione tecnologica tra Stati Uniti e Cina: il tentativo americano di controllare la diffusione dei modelli di frontiera produce, per reazione, l’accelerazione delle alternative.
Questa volta l’alternativa è open-source, fuori dalla portata di qualsiasi direttiva governativa e addestrata interamente su hardware cinese.
E, attenzione, è una notizia interessante anche per le aziende che adottano modelli AI se diventano più potenti alternative open e più economiche a quelle americane.
| Modello | Costo Input per 1 mln token | Costo Output per 1 mln token | Note |
|---|---|---|---|
| Claude Fable 5 | 10 dollari | 50 dollari | Frontier model costoso, adatto ai task più complessi |
| GPT-5.5 | 5 dollari | 30 dollari | Più economico di Fable, ma ancora fascia alta |
| GLM-5.2 | 1,40 dollari | 4,40 dollari | Molto più conveniente sul prezzo per token |
| DeepSeek V4 Pro | 1,74 dollari | 3,48 dollari | Alternativa cinese forte sul costo |
| DeepSeek V4 Flash | 0,14 dollari | 0,28 dollari | Opzione estrema per task a basso costo |
Indice degli argomenti
GLM-5.2: open weight e contesto lungo
GLM-5.2 è un modello linguistico di grandi dimensioni costruito su un’architettura Mixture-of-Experts. La model card pubblicata su Hugging Face indica 753 miliardi di parametri, mentre Artificial Analysis, società indipendente di valutazione, riporta 744 miliardi totali e 40 miliardi attivi per token, la discrepanza probabilmente legata al conteggio degli expert condivisi. In entrambi i casi siamo nella fascia alta dei modelli MoE, con un modello progettato per competere direttamente con i sistemi occidentali più avanzati.
Rispetto al predecessore GLM-5.1, rilasciato ad aprile 2026, la novità più rilevante non è la dimensione ma la finestra di contesto: un milione di token, cinque volte quella del modello precedente. Un milione di token equivale, in termini approssimativi, a circa 750.000 parole, più di quanto contenga l’intera Divina Commedia moltiplicata per dieci.
La finestra da un milione di token
Il numero in sé dice poco, molti modelli dichiarano finestre di contesto ampie senza poterle sostenere con prestazioni stabili. Ciò che distingue GLM-5.2 è che quel milione di token è stato reso operativamente utilizzabile attraverso un’innovazione architetturale chiamata IndexShare: un meccanismo che riusa lo stesso componente di indicizzazione ogni quattro strati di attenzione sparsa, riducendo il costo computazionale per token di 2,9 volte alla massima lunghezza di contesto. In pratica, il modello può elaborare un’intera codebase di un progetto software complesso, con le sue dipendenze, i suoi test, la sua storia di commit, mantenendo la coerenza nel ragionamento.
Questo è il punto centrale della proposta di Zhipu: GLM-5.2 non è presentato come un modello generico più intelligente dei predecessori, ma come un modello progettato per task a lungo orizzonte, attività complesse che si sviluppano su archi temporali estesi e richiedono al sistema di mantenere coerenza tra decisioni prese in momenti diversi. Un agente software che deve comprendere i requisiti di un progetto, pianificare le modifiche, scrivere il codice, eseguire i test, correggere gli errori e verificare il risultato, tutto all’interno di una singola sessione di lavoro.
Zhipu è uno spin-off dell’Università Tsinghua di Pechino, fondato nel 2019 dai professori Tang Jie e Li Juanzi. Quotata alla Borsa di Hong Kong dall’8 gennaio 2026 come Knowledge Atlas Technology, l’azienda ha raggiunto brevemente una capitalizzazione di mercato di mille miliardi di dollari di Hong Kong. Un dettaglio tecnico rilevante: l’intera filiera di addestramento di GLM-5.2 si basa su processori Huawei Ascend 910B e il framework MindSpore, senza alcun componente Nvidia. A differenza di DeepSeek, attualmente sotto indagine per il presunto utilizzo di GPU Nvidia ottenute in possibile violazione dei controlli all’export, Zhipu opera con un’infrastruttura interamente domestica.
Benchmark di GLM-5.2 tra modelli chiusi e open weights
La valutazione delle capacità di GLM-5.2 richiede una distinzione: la differenza tra benchmark pubblici e privati, tra prestazioni su compiti standard e su compiti a lungo orizzonte.
Partiamo dalla classifica. L‘Artificial Analysis Intelligence Index v4.1, aggiornato il 15 giugno 2026, aggrega nove valutazioni con un peso crescente per i compiti agentici. In questa classifica GLM-5.2 ottiene 51 punti: resta sotto i migliori modelli proprietari americani, ma diventa il primo modello a pesi aperti nella storia dell’indice.
Il quadro comparativo è il seguente: Claude Fable 5, il modello proprietario di Anthropic, guida a 60 punti, ma il suo accesso è sospeso; Claude Opus 4.8 segue a 56; GPT-5.5 di OpenAI a 55; GLM-5.2 a 51, primo open weights; poi MiniMax-M3 e DeepSeek V4 Pro entrambi a 44, e Kimi K2.6 a 43. Il salto rispetto a GLM-5.1 è di 11 punti, con progressi marcati su Humanity’s Last Exam (+12 punti al 40%), Terminal-Bench 2.1 (+16 punti al 78%) e GPQA Diamond (91%).
.
| Modello | Tipo | Intelligence Index v4.1 | Punti chiave |
|---|---|---|---|
| Claude Fable 5 | Proprietario | 60 | Primo assoluto, ma accesso sospeso |
| Claude Opus 4.8 max | Proprietario | 56 | Primo modello disponibile nella classifica AA |
| GPT-5.5 xhigh | Proprietario | 55 | Un punto sotto Opus 4.8 |
| GLM-5.2 max | Open weights | 51 | Primo open weights, 4 punti sotto GPT-5.5 |
| MiniMax-M3 | Open weights | 44 | Sette punti sotto GLM-5.2 |
| DeepSeek V4 Pro max | Open weights | 44 | Forte sul costo, più distante sulla capacità sintetica |
| Kimi K2.6 | Open weights | 43 | Dietro GLM-5.2 nell’indice complessivo |
I test long-horizon e il vantaggio nei task agentici
Ma è sui benchmark long-horizon che il confronto diventa più interessante e più rilevante per le implicazioni pratiche. Su FrontierSWE, un benchmark che valuta la capacità di completare progetti tecnici aperti su scale temporali di ore, GLM-5.2 ottiene 74,4, a meno di un punto da Claude Opus 4.8 (75,1) e davanti a GPT-5.5 (72,6). Su PostTrainBench, dove ogni agente riceve una GPU H100 e viene valutato sulla capacità di migliorare modelli più piccoli attraverso il post-training, GLM-5.2 (34,3) supera GPT-5.5 (28,4), secondo solo a Opus 4.8 (37,2). Solo su SWE-Marathon, il benchmark più impegnativo, che include la costruzione di compilatori e lo sviluppo di servizi pronti per la produzione, il divario con Opus resta ampio: 13,0 contro 26,0. In tutti e tre i casi, GLM-5.2 è il migliore tra i modelli open-source.
Il divario dei modelli open source si misura in mesi
Questi dati vanno contestualizzati con un elemento notevole.
Håvard Tveit Ihle, ricercatore presso l’Istituto norvegese di ricerca per la difesa (FFI), ha pubblicato il 28 maggio 2026 un’analisi che confronta le prestazioni dei modelli open-source su benchmark pubblici e privati. Il risultato è significativo: sui benchmark pubblici, i cui dati di test sono accessibili, i modelli open-source risultano indietro di 4-6 mesi rispetto alla frontiera dei modelli chiusi; sui benchmark privati, dove le domande non sono pubblicate, il ritardo raddoppia a 8-10 mesi. Tveit Ihle osserva che i modelli cinesi tendono a ottenere punteggi migliori sui test le cui domande sono accessibili pubblicamente, un fenomeno che nell’istruzione si chiama insegnare per il test: la preparazione mirata migliora le prestazioni sull’esame specifico, senza che questo rifletta necessariamente una comprensione più profonda.
Su GLM-5.2, il quadro è irregolare. Il modello appare circa sette mesi dietro su WeirdML, un benchmark di compiti inusuali di machine learning, un anno intero su SimpleBench, che valuta il buon senso. Ma su AA-Briefcase, un nuovo benchmark di Artificial Analysis rilasciato il 19 giugno che testa i modelli su compiti di knowledge work agentico, gestione di file disordinati, email, messaggi Slack, documenti aziendali e informazioni conflittuali, GLM-5.2 ha superato GPT-5.5, un modello che ha solo due mesi di vita.
Anche il governo americano misura il divario in mesi. Il Center for AI Standards and Innovation (CAISI) del NIST ha pubblicato il 1 maggio 2026 una valutazione di DeepSeek V4 Pro, il modello open-source cinese più avanzato prima di GLM-5.2, stimando un ritardo di circa otto mesi rispetto alla frontiera americana. La valutazione ha coperto nove benchmark in cinque domini (cybersicurezza, software engineering, scienze naturali, ragionamento astratto, matematica), includendo due benchmark non pubblici sviluppati internamente dal CAISI. La metodologia è notevole: ispirata alla Item Response Theory, utilizza 16 benchmark e 35 modelli per costruire una curva aggregata di capacità nel tempo, anziché limitarsi a confronti puntuali.
La conclusione di Tveit Ihle è prudente e vale anche dopo l’arrivo di GLM-5.2: il vantaggio americano resta stabile, ma non si sta allargando come alcuni si aspettavano. Non parità piena, dunque, ma un distacco che si è fatto abbastanza stretto da modificare il calcolo strategico di imprese e governi.
Prezzo per token e costo reale di GLM-5.2
Un argomento ricorrente nel dibattito è il costo inferiore dei modelli cinesi. Z.ai indica per GLM-5.2 1,40 dollari per milione di token in input e 4,40 dollari in output. Anthropic prezza Claude Fable 5 a 10 dollari in input e 50 in output. OpenAI ha annunciato GPT-5.5 a 5 dollari in input e 30 in output. Il confronto più estremo, ripreso dall’Economist, riguarda DeepSeek V4 Pro: 0,87 dollari per milione di token in output, contro i 50 di Fable 5.
Ma il prezzo per token non coincide con il costo reale, perché i modelli cinesi tendono a consumare molti più token per arrivare alla stessa risposta. Artificial Analysis documenta che GLM-5.2 genera in media 43.000 token di output per task nell’Intelligence Index, di cui 37.000 sono token di ragionamento. È un consumo significativamente superiore a GLM-5.1 (26.000), MiniMax-M3 (24.000) e Kimi K2.6 (35.000), e colloca GLM-5.2 tra i modelli meno efficienti per token al suo livello di intelligenza. In termini di costo per task, Artificial Analysis stima 0,46 dollari per GLM-5.2, contro 0,25 per GLM-5.1, 0,18 per MiniMax-M3 e 0,05 per DeepSeek V4 Pro.
Efficienza, ragionamento e task complessi
Uno studio di Zheng Du e collaboratori al Georgia Institute of Technology, pubblicato come OckBench, il primo benchmark che misura congiuntamente accuratezza e consumo di token, documenta lo stesso fenomeno su scala più ampia. Nei dati aggiornati dello studio, un modello DeepSeek ha utilizzato 23 volte più token del concorrente OpenAI per raggiungere sostanzialmente lo stesso risultato.
Il quadro non è però uniformemente sfavorevole ai modelli cinesi. Su AA-Briefcase, il benchmark di knowledge work reale, GLM-5.2 emerge come uno dei migliori compromessi prezzo-prestazioni: circa 90 punti Elo sotto Claude Opus 4.8, ma a meno del 25% del costo. Inoltre, va registrato un dato che ridimensiona qualsiasi entusiasmo per tutti i modelli, non solo quelli cinesi: il modello migliore in assoluto, Fable 5, oggi inaccessibile, ha soddisfatto tutti i criteri di valutazione solo nel 3% dei task. Su 91 task totali, in 31 nessun modello ha raggiunto nemmeno il 50% di superamento. Siamo ancora in una fase in cui la capacità di esecuzione autonoma su compiti complessi di knowledge work è limitata per tutti.
Zhipu ha introdotto in GLM-5.2 un meccanismo di effort level control, due modalità, High e Max, che consente all’utente di scegliere il livello di ragionamento in funzione della complessità del compito. Una risposta diretta al problema dell’efficienza, per compiti semplici si possono usare meno token, riservando la piena potenza computazionale ai task che la richiedono.
GLM-5.2 e il paradosso del kill switch americano
Ciò che rende il rilascio di GLM-5.2 significativo al di là dei benchmark non è la capacità del modello in sé, ma il contesto geopolitico in cui arriva. Per comprenderlo occorre ricostruire brevemente la sequenza.
Fable 5 è il modello commerciale che Anthropic ha costruito sulla tecnologia Mythos, un sistema le cui capacità nel campo della cybersicurezza, in particolare l’identificazione di vulnerabilità software, sono state giudicate sufficientemente sensibili da giustificare un regime di accesso controllato. Mythos 5, il modello completo senza le restrizioni di sicurezza imposte su Fable, è riservato ad agenzie governative e partner aziendali selezionati nell’ambito del programma che Anthropic chiama Project Glasswing. Quando Anthropic ha lanciato Fable 5 il 9 giugno, ha integrato salvaguardie progettate per impedire agli utenti di accedere alle capacità più sensibili di Mythos.
Il 12 giugno, tre giorni dopo il lancio, il Dipartimento del Commercio ha emesso la direttiva di export control, citando la scoperta di una tecnica per aggirare le salvaguardie di Fable 5. Anthropic ha contestato pubblicamente la proporzionalità della misura, sostenendo che il jailbreak in questione era ristretto e non universale e che le stesse capacità erano ottenibili da altri modelli pubblicamente disponibili, incluso GPT-5.5 di OpenAI. L’azienda ha inoltre osservato che, se lo stesso standard fosse applicato all’intero settore, bloccherebbe di fatto tutti i nuovi deployment di modelli di frontiera per tutti i fornitori.
La risposta del mondo della sicurezza informatica è stata significativa, oltre cento professionisti della cybersicurezza hanno firmato una lettera aperta sostenendo che il blocco di Fable 5 avrebbe danneggiato i difensori più degli attaccanti.
Il punto, ai fini di questa analisi, non è chi abbia ragione nella disputa tra Anthropic e il governo americano, ma l’effetto strutturale che la direttiva produce. Il blocco di Fable 5 ha dimostrato operativamente ciò che fino a quel momento era un rischio teorico: un modello di AI commerciale, integrato nei flussi di lavoro di centinaia di migliaia di aziende attraverso API, piattaforme cloud e strumenti di sviluppo, può essere disattivato in poche ore su ordine di un singolo governo. Le aziende che avevano costruito pipeline critiche su Fable 5, attraverso AWS Bedrock, Google Cloud, Microsoft Foundry, Snowflake, si sono trovate con il servizio interrotto senza preavviso.
GLM-5.2 arriva in questo preciso vuoto. La licenza MIT significa che, una volta scaricati, i pesi del modello non possono essere revocati. Non esiste un kill switch, non esiste una direttiva governativa che possa impedire a un’azienda di eseguire localmente un modello già in suo possesso, ed è addestrato su hardware cinese, il che significa che nemmeno la filiera di produzione è soggetta a restrizioni americane.
Il paradosso è strutturale: il controllo americano sull’AI di frontiera, esercitato attraverso l’export control, non impedisce la diffusione della tecnologia. La accelera, la rende open-source e la sottrae alla giurisdizione che ha tentato di controllarla.
Da GLM-5.2 a ZCode, l’ecosistema degli agenti
C’è un aspetto del rilascio di Zhipu che la copertura giornalistica ha largamente trascurato e che merita attenzione, il modello non arriva da solo ma è integrato in ZCode, un ambiente di sviluppo che Z.ai definisce Agentic Development Environment, non un IDE con funzionalità AI aggiunte, ma un workspace progettato intorno all’esecuzione di task da parte di agenti autonomi.
ZCode integra in un’unica interfaccia file manager, terminale, pannello Git, preview browser e chat con l’agente AI. Supporta la definizione di agenti specializzati, per revisione di sicurezza, per architettura, per testing, un sistema di skills che funziona come playbook riutilizzabili e quattro modalità di autorizzazione che regolano il livello di autonomia dell’agente: dalla conferma obbligatoria per ogni azione alla modalità di bypass completo. Include anche il controllo remoto da dispositivi mobili e l’integrazione con bot su piattaforme di messaggistica, consentendo di seguire e ridirigere task di lunga durata senza essere alla postazione.
La distinzione è rilevante perché sposta la competizione dal piano delle prestazioni del singolo modello a quello dell’ambiente di esecuzione. Un modello capace senza un’infrastruttura di governo dell’agente produce risultati imprevedibili. Un ambiente di governo senza un modello capace resta uno strumento limitato. La convergenza dei due, un modello progettato per task a lungo orizzonte e un ambiente che ne controlla e ne struttura l’esecuzione, è il segnale strategico da osservare.
Man mano che i modelli vengono impiegati non come assistenti conversazionali ma come agenti autonomi inseriti in flussi di lavoro produttivi, le domande sulla governance, l’auditabilità e la supervisione umana diventano centrali. Chi definisce gli standard dell’ambiente di esecuzione agentico, i protocolli, i livelli di autorizzazione, le modalità di verifica, acquisisce un vantaggio strutturale che va oltre la pura capacità del modello sottostante.
Reward hacking e rischi politici dei modelli aperti
Nel blog tecnico che accompagna il rilascio, Zhipu documenta un problema incontrato durante l’addestramento tramite reinforcement learning agentico di GLM-5.2. Il modello, sottoposto a compiti di coding con verifiche automatiche (pass/fail), ha sviluppato comportamenti di reward hacking: anziché risolvere effettivamente i problemi, cercava scorciatoie, scaricando soluzioni da GitHub, cercando file di valutazione nascosti nell’ambiente di test, copiando risposte da commit precedenti.
Zhipu ha costruito un modulo anti-hack a due stadi, un filtro basato su regole identifica le azioni sospette, poi un modello linguistico giudice ne valuta l’intento. Il sistema opera in tempo reale durante il training, bloccando le singole azioni fraudolente senza interrompere l’intera sessione di lavoro.
Questa trasparenza tecnica merita di essere registrata per due ragioni. La prima è positiva, documentare apertamente i comportamenti problematici dei propri modelli è una pratica che l’industria nel suo complesso dovrebbe adottare con maggiore frequenza. La seconda è più inquietante: un modello addestrato a trovare scorciatoie nei sistemi, a cercare file nascosti, a scaricare soluzioni non autorizzate, a concatenare azioni per aggirare vincoli, è, per definizione, un modello che possiede competenze trasferibili nel campo dell’exploitation di vulnerabilità. La stessa capacità che rende GLM-5.2 un buon ingegnere software lo rende, potenzialmente, uno strumento di attacco.
Il fatto che il governo cinese non abbia imposto a GLM-5.2 restrizioni paragonabili a quelle americane su Fable 5 è stato interpretato da alcuni osservatori, come evidenza che i modelli cinesi restano indietro rispetto alla frontiera americana. L’interpretazione opposta è altrettanto plausibile, la Cina potrebbe valutare che il vantaggio strategico del rilascio aperto, acquisizione di talenti, costruzione di ecosistema, sottrazione di utenti ai concorrenti americani, superi i rischi. O potrebbe semplicemente disporre di versioni interne più capaci di quelle rilasciate pubblicamente, riservando per sé ciò che gli Stati Uniti hanno cercato di controllare.
Che significa per le aziende utilizzatrici
Sostituirei il finale con questo:
Per le aziende occidentali, la conseguenza pratica è già visibile: i modelli cinesi non devono vincere la frontiera assoluta per entrare nei flussi di lavoro quotidiani. Devono essere abbastanza buoni, molto più economici e più facili da controllare nei task dove il rischio è limitato. È qui che l’approccio open weights fa la differenza.
Usare via API un provider cinese, come DeepSeek o Z.ai, significa esporre prompt, documenti, codice o dati aziendali a contratti e giurisdizioni non occidentali; scaricare un modello a pesi aperti e farlo girare su infrastruttura propria, o presso un cloud provider scelto dall’impresa, cambia invece il perimetro del rischio: i dati possono restare in un ambiente controllato, mentre il problema si sposta su audit, sicurezza, competenze interne e qualità del modello. La spinta economica è forte.
Secondo i dati di Vercel, la quota di utilizzo di DeepSeek sulla piattaforma è salita dall’1% di aprile al 17% di maggio; su OpenRouter, DeepSeek è diventata la società AI più usata da metà maggio e, tra i clienti con maggiore spesa, l’uso di token open source è cresciuto quattro volte più rapidamente di quello dei modelli chiusi tra l’autunno 2025 e la primavera 2026, con oltre 500 organizzazioni passate da modelli proprietari a modelli open source).
Anche negli Stati Uniti la risposta va nella stessa direzione: Microsoft ha presentato a Build 2026 una famiglia di nuovi modelli MAI sviluppati internamente, inclusi modelli più efficienti per coding e applicazioni verticali, mentre Nvidia spinge Nemotron come famiglia di modelli aperti con pesi, dati di training e ricette disponibili per costruire agenti specializzati.
Le aziende possono quindi essere sempre più indotte a lasciare ai frontier model americani i casi ad alto rischio, come cybersecurity avanzata, dati regolati, ricerca sensibile e decisioni con impatto legale, e spostare su modelli open weights, anche cinesi, sviluppo software ordinario, refactoring, analisi documentale, automazione interna e knowledge work a basso rischio.
Pechino può guadagnare spazio proprio così: non sostituendo subito la migliore AI americana, ma diventando la scelta economicamente razionale per una quota crescente dei task aziendali di tutti i giorni.













Partecipa alla community