intelligenza artificiale

Claude Opus 4.8 spinge gli agenti oltre il modello “assistente”



Indirizzo copiato

Claude Opus 4.8 arriva come aggiornamento incrementale ma strategico: coding agentico, lavori lunghi, dynamic workflows in Claude Code, prezzi invariati e una transizione verso la futura classe Mythos, ancora legata a cautele cyber. Un passo verso la maturità per un’azienda che vale quasi mille miliardi

Pubblicato il 29 mag 2026

Giovanni Masi

Computer Science Engineer



opus 4.8
AI Questions Icon
Chiedi all'AI
Riassumi questo articolo
Approfondisci con altre fonti

La promessa di Claude Opus 4.8, annunciato ieri: un modello che dovrebbe lavorare meglio quando il compito si allunga, quando le decisioni si accumulano e quando un errore non dichiarato può costare più dell’errore stesso.

Può sembrare noioso, ma è in realtà una bella svolta pragmatica rispetto ai toni di hype a cui l’AI ci ha abituati negli ultimi anni. Segno di maturità e che un’azienda come Anthropic – soprattutto dopo l’ultima valutazione che la porta a quasi mille miliardi di dollari – non ha più molto da dover dimostrare.

Anthropic lo presenta infatti come un aggiornamento «modesto ma tangibile» rispetto a Opus 4.7. Una formula lontana dal linguaggio trionfale che spesso accompagna i rilasci dei sistemi frontier.

Claude Opus 4.8 e il modello che deve sbagliare meno

Opus 4.8 nasce dentro una fase in cui i grandi laboratori non competono più soltanto sulla brillantezza conversazionale o sulla soluzione del problema isolato. Il terreno si è spostato verso la capacità di reggere lavori lunghi, usare strumenti, verificare passaggi intermedi e riconoscere quando una conclusione non è abbastanza solida. Anthropic lo descrive come il suo modello generalmente disponibile più adatto a ragionamento complesso, coding agentico e attività professionali ad alta autonomia. Dietro la definizione tecnica c’è un cambio di postura: il modello non viene venduto solo come assistente, ma come componente operativa di flussi di lavoro in cui una parte della delega passa davvero alla macchina.

Benchmark di Claude Opus 4.8 tra coding e uso agentico

Nei dati pubblicati da Anthropic, Opus 4.8 supera Opus 4.7 in quasi tutte le prove evidenziate. Sul benchmark SWE-Bench Pro, legato al coding agentico, passa dal 64,3% al 69,2%. Su OSWorld-Verified, che misura l’uso agentico del computer, raggiunge l’83,4%, poco sopra l’82,8% del predecessore. Il vantaggio emerge anche nella valutazione GDPval-AA per il knowledge work, dove Opus 4.8 ottiene 1890 contro 1753, e in Finance Agent v2, dove sale al 53,9%. Il confronto resta meno lineare in Terminal-Bench 2.1, dove il modello è indicato al 74,6%, mentre GPT-5.5 risulta più alto nella tabella ufficiale con il 78,2%.

Questi numeri vanno letti senza enfasi eccessiva. Sono risultati diffusi dal produttore, utili per capire dove Anthropic ritiene di avere migliorato il sistema, ma non bastano a fissare una gerarchia definitiva fra modelli concorrenti. Le valutazioni agentiche dipendono dall’ambiente di test, dagli strumenti concessi, dai limiti di tempo e dal modo in cui vengono conteggiati i fallimenti parziali. Qui il dato più rilevante non è un dominio assoluto, che la stessa tabella non mostra, ma la combinazione fra progressi incrementali e un lavoro dichiarato sulla qualità del comportamento durante compiti prolungati.

L’onestà di Claude Opus 4.8 come metrica di prodotto

Uno dei passaggi più significativi dell’annuncio riguarda la cosiddetta honesty. Anthropic sostiene che Opus 4.8 sia più incline a segnalare incertezze e meno propenso a rivendicare progressi non supportati dalle evidenze. Nelle valutazioni interne citate dall’azienda, il modello sarebbe circa quattro volte meno incline del predecessore a lasciare passare senza commento difetti nel codice che ha prodotto. Per chi usa sistemi generativi in ambienti di sviluppo, ricerca o consulenza, questa differenza può pesare più di qualche punto percentuale su un benchmark.

Il punto non è morale, ma ingegneristico. Un agente che lavora su una codebase ampia, richiama strumenti, modifica file e produce una sintesi finale diventa pericoloso quando maschera i propri limiti. L’errore tecnico è spesso recuperabile, mentre l’errore presentato come successo consuma tempo, fiducia e controllo umano. In questo senso, il miglioramento rivendicato da Anthropic riguarda la superficie più delicata dell’automazione cognitiva: il passaggio dalla generazione di output alla rendicontazione affidabile del processo.

La società collega questo comportamento a un nuovo assessment di allineamento, in cui Opus 4.8 avrebbe ottenuto risultati più favorevoli rispetto a Opus 4.7 su misure di autonomia dell’utente, interesse dell’utente e riduzione di comportamenti disallineati come inganno o cooperazione con usi impropri. La system card completa è richiamata dall’annuncio ufficiale, ma la lettura pubblica diretta non è stata verificabile in modo stabile durante la consultazione. Per questo le affermazioni più specifiche vanno attribuite con prudenza alla sintesi diffusa da Anthropic e non interpretate come una validazione indipendente.

Claude Code, dynamic workflows e controllo dello sforzo

La novità più ambiziosa non è confinata al modello. Con Opus 4.8 arriva anche la research preview dei dynamic workflows in Claude Code, una funzione pensata per spezzare un problema complesso in sottocompiti e distribuirli a decine o centinaia di subagenti paralleli. Anthropic la descrive come un modo per affrontare migrazioni di grande scala, audit di sicurezza, pulizie di codice morto e verifiche indipendenti prima di restituire il risultato all’utente. L’esempio più appariscente riguarda il porting di Bun da Zig a Rust, con circa 750.000 linee di Rust e l’azienda che riferisce il superamento del 99,8% della suite di test esistente dopo undici giorni dal primo commit al merge.

Orchestrazione e controllo dello sforzo

L’aspetto tecnico è rilevante perché sposta Claude Code verso un modello di orchestrazione, non più soltanto di completamento interattivo. Quando un agente può pianificare, avviare subagenti, confrontare ipotesi e verificare gli output, la conversazione diventa solo la superficie di un lavoro più articolato. Resta però un costo operativo non banale. La stessa documentazione avverte che i dynamic workflows possono consumare molti più token di una sessione ordinaria, e consiglia di iniziare con compiti circoscritti.

A questa logica si affianca il nuovo controllo dello sforzo disponibile su claude.ai e in Claude Code. L’utente può scegliere fra una risposta più rapida, che consuma meno risorse, e un’elaborazione più profonda. Opus 4.8 parte di default da high effort, mentre le impostazioni superiori sono pensate per compiti difficili o sessioni agentiche lunghe. Nella documentazione per sviluppatori compaiono anche elementi meno visibili al grande pubblico, ma cruciali per chi integra Claude in prodotti e workflow interni: il contesto da un milione di token su Claude API, Amazon Bedrock e Vertex AI, l’output massimo a 128.000 token, la possibilità di aggiornare le istruzioni di sistema durante un task e una soglia più bassa per sfruttare il prompt caching.

Claude Opus 4.8 alla prova su un notebook di forecasting

Per osservare il comportamento di Opus 4.8 fuori dai benchmark, è stata svolta una prova su un caso concreto: un notebook Python usato per prevedere la domanda mensile. Non si trattava di un esempio scolastico, ma di un codice articolato, pensato per leggere dati storici, prepararli, addestrare un modello di intelligenza artificiale e produrre previsioni sui mesi successivi. Al modello è stato chiesto di analizzarlo come farebbe un esperto di AI e sviluppo Python, prestando attenzione non solo agli errori di programmazione, ma anche ai rischi tipici dei sistemi previsionali.

Ricostruzione del flusso e limiti della revisione

La risposta è stata interessante perché Opus 4.8 non si è limitato a stabilire se il codice fosse corretto o meno. Ha prima ricostruito il funzionamento generale del notebook, individuando le parti principali del processo: caricamento dei dati, preparazione delle serie storiche, creazione delle variabili utili alla previsione, addestramento del modello, valutazione dei risultati ed esportazione delle previsioni finali. Il passaggio è rilevante perché indica che il modello ha ricostruito l’intero flusso prima di indicare eventuali criticità.

L’analisi è risultata equilibrata. Secondo Opus 4.8, la parte centrale del modello era impostata in modo corretto: il codice non sembrava usare informazioni future per costruire le previsioni, un errore particolarmente grave nei sistemi di forecasting perché può far apparire il modello più accurato di quanto sia davvero.

Il valore della prova sta proprio nella capacità di distinguere i diversi livelli del problema. Opus 4.8 non ha certificato automaticamente la correttezza del notebook e non avrebbe potuto farlo senza eseguire tutto il codice in un ambiente controllato. Ha però prodotto una revisione utile, separando ciò che appariva solido da ciò che poteva rendere la valutazione meno affidabile. In un progetto reale di machine learning, questo tipo di supporto può accelerare la revisione del codice: non sostituisce i test, né il giudizio di uno sviluppatore esperto, ma aiuta a individuare più rapidamente i punti da verificare prima di usare il modello in produzione.

Prezzi di Claude Opus 4.8 e costi degli agenti lunghi

Sul piano commerciale, Anthropic mantiene per Opus 4.8 lo stesso prezzo regolare di Opus 4.7: 5 dollari per milione di token in input e 25 dollari per milione di token in output. La modalità fast, che promette fino a 2,5 volte più token in uscita al secondo, costa 10 dollari per milione di token in input e 50 dollari in output. È un prezzo doppio rispetto alla modalità standard, ma molto più basso della modalità fast applicata a Opus 4.6 e Opus 4.7, indicata dalla documentazione a 30 e 150 dollari per milione di token.

Workload agentici e stima dei costi

Il dettaglio economico chiarisce la direzione del prodotto. Anthropic non sta solo ritoccando le capacità del modello, ma prova a rendere meno proibitivi i workload agentici lunghi, dove latenza, cache e token consumati fra strumenti incidono spesso più del prezzo nominale di una singola chiamata. Per un’azienda, la demo convincente conta fino a un certo punto. L’adozione reale dipende dalla possibilità di stimare i costi quando un agente viene lasciato lavorare per ore su repository, documenti o ambienti operativi complessi.

Claude Mythos e la prossima fase oltre Opus 4.8

L’annuncio di Opus 4.8 si chiude guardando oltre Opus. Anthropic afferma di voler rilasciare una nuova classe di modelli più intelligenti, oggi rappresentata da Claude Mythos Preview all’interno di Project Glasswing, un programma limitato a organizzazioni impegnate nella cybersecurity. La società sostiene che modelli di quella classe richiedano salvaguardie cyber più robuste prima di una disponibilità generale. Reuters e Axios hanno letto questa mossa come un segnale della prossima fase competitiva, nella quale le capacità agentiche e cyber diventeranno un punto di frizione fra innovazione commerciale, sicurezza e accesso pubblico.

In questa cornice, Opus 4.8 appare come un rilascio di transizione, ma non marginale. Non promette una rottura concettuale e non scioglie tutti i dubbi sui benchmark proprietari. Rafforza però tre aspetti che pesano nel lavoro reale: continuità nei compiti lunghi, integrazione più stretta con gli strumenti e maggiore cautela nel dichiarare ciò che è stato davvero completato. Per professionisti e team tecnici, la domanda si sposta così dal modello che risponde meglio al modello che sa lavorare più a lungo senza perdere il filo, senza nascondere gli errori e senza trasformare la delega in un costo imprevedibile.

Bibliografia

Anthropic, “Introducing Claude Opus 4.8”

Anthropic, “Introducing dynamic workflows in Claude Code”

Anthropic, “What’s new in Claude Opus 4.8”, Claude API Docs

Anthropic, “Models overview”, Claude API Docs

Anthropic, “Pricing”, Claude API Docs

Anthropic, “Model deprecations”, Claude API Docs

Anthropic, “Project Glasswing: An initial update”

Reuters, “Anthropic to roll out Claude Mythos in coming weeks, launches Opus 4.8”

Axios, “Anthropic releases new model, Opus 4.8”

The Verge, “Claude’s new model is more ‘honest’ when it messes up”

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x