agenti

Claude Opus 4.6, il senso utile della nuova AI Anthropic



Indirizzo copiato

Con Opus 4.6 Anthropic sempre più si conferma, dei tre competitor principali (insieme ad OpenAI e Google), quello più concentrato per creare sistemi che operino direttamente guidati dall’AI piuttosto di limitarsi a fornire istruzioni

Pubblicato il 11 feb 2026

Antonio Cisternino

Università di Pisa



opus 4.6

Il rilascio del nuovo modello Opus 4.6 di Anthropic ha riacceso il dibattito sull’evoluzione degli agenti AI, anche grazie agli annunci del Coworker e degli addin per Excel e PowerPoint. A questi strumenti di produttività aziendale si affiancano gli agenti e in particolare emergono i cosiddetti long-running agents, ovverosia agenti guidati dal modello capaci di svolgere compiti articolati, anche grazie al contesto esteso a un milione di token e una migliorata capacità di evitare il cosiddetto “context rot”, ovvero la progressiva perdita di focus da parte del modello al crescere del contesto.

Cerchiamo quindi di capire come il rilascio del nuovo modello e soprattutto dell’integrazione con strumenti di produttività individuale e agenti stiano facendo uscire l’AI dalla mera interazione attraverso una chat.

Il nuovo modello Claude Opus 4.6

Opus 4.6 è un modello che sembra spingere ulteriormente le capacità dei grandi modelli, e si vede come ad ogni rilascio si presti attenzione a migliorare i punti deboli dei predecessori, anche se vi sono aree in cui i miglioramenti sono meno rilevanti che in altre. Sono interessanti i benchmark che confrontano il nuovo modello con Gemini e ChatGPT:

L’ambito di chiaro miglioramento è quello relativo alla gestione dei dati del contesto: il nuovo modello surclassa di oltre quattro volte il predecessore, lasciando sperare in una significativa riduzione del fenomeno del context rot che come vedremo è centrale in ottica di Agentic AI.

Sono interessanti anche i dettagli del confronto sui vari benchmark che vengono usati per valutare il comportamento dei modelli con vari task.

Opus 4.6, una AI che usi i nostri computer

Fin dall’introduzione del Computer use e del protocollo MCP, Anthropic è stata la prima azienda a cercare di far uscire dalla chat l’AI, esplorando la possibilità di consentire ai modelli di interagire direttamente con sistemi e applicazioni. Il nuovo modello si integra naturalmente con Claude Cowork, rilasciato poco più di un mese fa, un assistente per ora integrato nel client Claude per MacOS che consente di elaborare i file presenti in una directory del proprio sistema. Cowork nasce dall’esperienza di Claude Code, l’agente capace di analizzare codice sorgente ed elaborare interi progetti software.

Questi nuovi strumenti di produttività individuale capaci di interagire direttamente con il filesystem del sistema aprono nuovi scenari, anche se Anthropic per prima avverte che si tratta di anteprime di ricerca e che potrebbe essere rischioso usarle (sia per azioni non volute a causa di allucinazioni che per attacchi informatici come ad esempio quelli di prompt injection). Sono anche disponibili gli Add-in per Microsoft Excel e Microsoft PowerPoint che consentono di integrare il modello all’interno delle due applicazioni (anche in questo caso rilasciati come anteprime di ricerca).

È interessante notare come Anthropic stessa avvisi che la feature è in beta (l’add-in per PowerPoint è ancora indisponibile per chi ha il livello pro della sottoscrizione) e che si corrono potenzialmente rischi nell’usare l’AI connessa all’applicativo, non solo per eventuali azioni erronee che può compiere ma anche essere esposti a attacchi di tipo “prompt injection”, ovvero includere testo che il modello interpreta come istruzioni e non dati consentendo l’esecuzione all’interno di un processo (e in Excel con Visual Basic for applications si possono eseguire comandi sul computer dell’utente).

Anthropic continua quindi a perseguire un’AI più integrata e capace di pilotare direttamente gli applicativi di un PC o di un Mac, pur informandoci che questa rimozione di intermediazione di un utente che segue le istruzioni dell’AI ci può esporre a rischi legati ad azioni che inavvertitamente l’AI può intraprendere.

Claude Code e i long running agents

Se Cowork nasce dalle richieste che gli utenti facevano cercando di usare Claude Code per svolgere compiti non direttamente collegati alla programmazione, il nuovo modello Opus 4.6 sembra migliorare decisamente il comportamenti degli agenti che programmano grazie alla migliorata gestione del contesto. I benchmark di Anthropic mostrano come il livello di accuratezza degli agenti che usano Opus 4.6 e Codex CLI 5.2 (OpenAI ha recentemente rilasciato la versione 5.3 del modello di Codex) siano paragonabili, ma anche come lo sviluppo in questo ambito stia accelerando.

Una prova di questo miglioramento è un test fatto da Anthropic che ha sviluppato con Claude Code e Opus 4.6 e il contributo di 16 long running agents un compilatore C capace di compilare il kernel di Linux. Se si pensa che il compilatore GCC è stato sviluppato nel corso di oltre 37 anni fa impressione osservare come una versione (seppur senza linker e loader) sia stata sviluppata automaticamente da agenti AI.

Da un punto di vista dell’impatto dei long running AI agents lascia intravedere applicazioni non banali in alcuni settori, e sembra che il risultato sia reso possibile dalla gestione del contesto di Opus 4.6 che evita le derive che portano al Context rot.

Non bisogna però esagerare nel generalizzare un risultato, seppur impressionante, in accordo agli autori di UpBench un benchmark dedicato agli agenti AI e che per ora sembra sottolineare come nel mondo reale gli unici agenti che portano valore aggiunto nell’enterprise sono quelli che svolgono compiti non troppo complessi e con la verifica umana.

Il senso di Opus 4.6

Sembra proprio che Anthropic sia dei tre competitor principali (insieme ad OpenAI e Google) quello più concentrato per creare sistemi che operino direttamente guidati dall’AI piuttosto di limitarsi a fornire istruzioni che poi vengono eseguite da qualcuno. Questo approccio si declina sia nello sviluppo di software per PC o Mac che in quello dei long running Agents che sembrano comportarsi meglio grazie alla maggior cura nella gestione del contesto dimostrata da Opus 4.6. Sicuramente le novità introdotte sembrano avvicinare un futuro in cui gli agenti nella maggior parte dei casi concludano correttamente il proprio lavoro, anche quando eseguono per lunghi periodi.

Tutte queste novità ci consegnano scenari sempre nuovi e un futuro in cui molto di ciò che conosciamo cambierà, ma in fondo qualcuno mi ha fatto notare che nell’800 il 98% degli italiani faceva l’agricoltore, e molti dei lavori che conosciamo semplicemente non ci sono più.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x