Due dollari per milione di token in input, dieci in output fino al 31 agosto, poi tre e quindici a regime. È attorno a questi numeri che si gioca la parte più concreta dell’annuncio di Claude Sonnet 5, pubblicato da Anthropic il 30 giugno 2026 e presentato come il modello Sonnet più agentico mai rilasciato dall’azienda.
Dietro la cifra c’è una scelta di posizionamento che vale la pena leggere con attenzione, perché tocca direttamente chi in pubblica amministrazione e in settori regolati deve decidere quale modello adottare per flussi di lavoro autonomi, non solo per chatbot.
Indice degli argomenti
Sonnet 5, il divario con Opus 4.8 si restringe
Fino a poco tempo fa era stata la linea Sonnet a inaugurare l’era agentica: Claude Sonnet 3.5, 3.6 e 3.7 sono stati, secondo quanto scrive Anthropic nel comunicato, i primi modelli capaci di mostrare competenze solide nella scrittura di codice e nell’uso di strumenti esterni. Poi il baricentro si era spostato sui modelli di fascia Opus, dove i miglioramenti più netti si erano concentrati.
Sonnet 5 riporta l’ago verso il centro. Anthropic dichiara che le sue prestazioni si avvicinano a quelle di Opus 4.8 mantenendo un prezzo più contenuto, con un salto sostanziale rispetto al predecessore Sonnet 4.6 su ragionamento, uso di strumenti, coding e attività di conoscenza applicata al lavoro. La tabella di confronto pubblicata da Anthropic mostra il divario che si accorcia su quasi tutte le voci misurate.

Fonte: Anthropic, “Introducing Claude Sonnet 5”
Non è ancora parità. Sui grafici costo-prestazione relativi a due valutazioni agentiche, la ricerca autonoma BrowseComp e l’uso del computer OSWorld-Verified, Sonnet 5 copre uno spettro di combinazioni costo-prestazioni molto più ampio di quanto facesse Sonnet 4.6, e ad alti livelli di sforzo computazionale arriva a eguagliare Opus 4.8 su alcune attività specifiche. Resta all’utente la scelta di quanto effort assegnare al compito, bilanciando spesa e qualità del risultato.

Fonte: Anthropic, “Introducing Claude Sonnet 5”
Sonnet 5, il tokenizer cambia e con esso il conto in token
Il cambiamento tecnico meno visibile ma più rilevante per chi gestisce budget IT riguarda il tokenizer. Sonnet 5 ne adotta uno aggiornato, la stessa scelta fatta con Opus 4.7, che elabora il testo in modo diverso per migliorare le prestazioni. Il rovescio della medaglia: lo stesso input può tradursi in un numero maggiore di token, tra 1,0 e 1,35 volte a seconda del tipo di contenuto.
Anthropic dichiara di aver calibrato il prezzo introduttivo proprio per rendere la transizione sostanzialmente neutra dal punto di vista dei costi. Chi oggi paga per Sonnet 4.6 non dovrebbe vedere la bolletta salire passando a Sonnet 5, almeno fino a fine agosto. Dopo, con il prezzo a regime di tre dollari per milione di token in input e quindici in output, la sostenibilità della transizione dipenderà dal mix di effort utilizzato caso per caso.
I limiti di rate sono stati alzati su Chat, Cowork, Claude Code e Claude Platform proprio per assorbire il maggior consumo di token che i livelli di effort più alti comportano. Per un ente che deve pianificare un budget annuale su un uso intensivo di agenti autonomi, è un dettaglio che pesa quanto il prezzo per milione di token.
Sicurezza: meno errori del predecessore ma non al livello di Opus
Le valutazioni di sicurezza pre-rilascio mostrano un quadro che merita lettura puntuale, non un titolo sommario. Sonnet 5 registra tassi più bassi di comportamenti indesiderati rispetto a Sonnet 4.6, con miglioramenti su rifiuto di richieste malevole e resistenza a tentativi di dirottamento tramite prompt injection in contesti agentici. Allucinazioni e sicofania scendono rispetto al predecessore.
Sull’audit comportamentale automatico che Anthropic usa per testare un ampio ventaglio di comportamenti disallineati, dalla cooperazione con usi impropri all’inganno, Sonnet 5 ottiene un punteggio complessivo migliore di Sonnet 4.6. Mostra però tassi più alti rispetto a Opus 4.8 e a Claude Mythos Preview, i modelli più capaci della gamma Anthropic.

Fonte: Anthropic, “Introducing Claude Sonnet 5”
Sul fronte cyber la distanza da Opus è netta e dichiarata. Anthropic scrive di non aver addestrato deliberatamente Sonnet 5 su compiti di cybersicurezza, e nei test sullo sviluppo di exploit per vulnerabilità note nel browser Firefox il modello non è mai riuscito a produrre un exploit funzionante, mostrando solo un tasso leggermente più alto di successo parziale rispetto a Sonnet 4.6. Anthropic attribuisce lo scarto a un miglioramento generale dell’intelligenza del modello, non a un addestramento mirato.

Fonte: Anthropic, “Introducing Claude Sonnet 5”
Proprio perché Sonnet 5 è leggermente più capace del predecessore su questi compiti, Anthropic ha attivato di default le stesse protezioni cyber in tempo reale già presenti su Opus 4.7 e 4.8, dettagliate nel system card di Sonnet 5, meno restrittive di quelle imposte a Fable 5 perché il livello di rischio complessivo è stato giudicato basso. Per chi opera in ambiti dove la valutazione del rischio cyber è parte del processo di procurement, questa distinzione tra famiglie di modelli con soglie di sicurezza differenziate diventa un criterio da inserire nei capitolati, non un dettaglio da comunicato stampa.
Perché Sonnet 5 è già disponibile e Sol no
Da oggi Sonnet 5 è il modello predefinito sui piani Free e Pro di Claude, disponibile anche su Max, Team ed Enterprise, oltre che su Claude Code e sulla Claude Platform, dove sviluppatori possono richiamarlo tramite l’identificativo claude-sonnet-5. Nessuna lista d’attesa, nessuna procedura di verifica preventiva presso enti governativi.
Il contrasto con quanto sta accadendo dall’altra parte del mercato merita uno sguardo ravvicinato. OpenAI ha reso nota il 26 giugno la famiglia GPT-5.6, articolata su tre livelli fissi, Sol il modello di punta, Terra la versione bilanciata, Luna quella più economica, con prezzi che vanno da cinque dollari per milione di token in input e trenta in output per Sol fino a uno e sei per Luna. Sol e Terra sono classificati dal quadro di preparazione di OpenAI come a capacità elevata su cybersicurezza e rischio biologico, e l’accesso resta per ora limitato a circa venti organizzazioni selezionate, dopo che l’azienda ha condiviso modelli e piani di rilascio con il governo statunitense in seguito a un ordine esecutivo del 2 giugno 2026 sulla valutazione dei nuovi modelli.
Su Terminal-Bench 2.1, il test sui compiti agentici da riga di comando, Sol in configurazione Ultra segna 91,9 per cento contro l’88 per cento di Claude Mythos 5, un vantaggio reale ma stretto. Su SWE-bench Pro, il benchmark che più si avvicina a risolvere un problema reale su un repository di codice, OpenAI non ha ancora pubblicato un punteggio per Sol, mentre la generazione precedente di Claude mantiene un primato pubblicato che nessuno ha ancora superato con dati verificabili. METR, nella sua valutazione pre-rilascio, ha inoltre segnalato per Sol il tasso più alto di reward hacking mai rilevato su un modello pubblico, una circostanza che complica la lettura dei soli numeri di benchmark.
Sonnet 5, cosa cambia per chi sceglie modelli in ambito regolato
Per un CIO pubblico o per un dirigente di un settore vigilato, la differenza tra i due approcci non sta solo nei numeri dei benchmark. Sta nella prevedibilità dell’accesso. Sonnet 5 è disponibile oggi, a un prezzo pubblico, con un system card che documenta rischi e limiti su cyber e allineamento in modo verificabile. GPT-5.6 Sol, il modello che su alcuni compiti di coding segna il punteggio più alto del mercato, resta per ora accessibile solo a un numero ristretto di organizzazioni scelte con il coinvolgimento diretto dell’amministrazione americana.
Chi deve pianificare un’adozione su orizzonte annuale non può basare una scelta tecnologica su un accesso discrezionale che può essere concesso o sospeso da un processo governativo esterno all’azienda che sviluppa il modello. La combinazione di prezzo introduttivo a costo sostanzialmente invariato, disponibilità immediata su piattaforma pubblica e documentazione di sicurezza aperta rende Sonnet 5 l’opzione con il profilo di rischio operativo più prevedibile tra quelle emerse in questa settimana di annunci, anche quando non è quella con il punteggio più alto su ogni singolo benchmark.












Partecipa alla community