Tra la fine del 2025 e l’inizio del 2026, il panorama della sicurezza informatica ha subito una trasformazione radicale, a causa degli LLM (large language model) e per i CISO è una sveglia che richiede interventi.
Un esempio emblematico è rappresentato dalla vasta campagna di cyber-espionaggio che Anthropic ha attribuito con un alto grado di confidenza a un gruppo sponsorizzato dallo Stato cinese. Questa operazione, che ha colpito circa trenta bersagli globali, si è distinta per l’uso esteso di Claude Code, impiegato per automatizzare fasi critiche dell’intrusione che un tempo richiedevano ore di lavoro manuale da parte di operatori esperti.

Quasi contemporaneamente, Gambit Security ha rilevato che un attore malevolo è riuscito a utilizzare Claude per esfiltrare dati riservati fiscali di cittadini in Messico. Ha identificato vulnerabilità inediti e scritto script complessi per l’attacco.
Questi episodi segnano un punto di non ritorno. Quando un modello viene collegato a strumenti esterni, codebase reali e ambienti di esecuzione, cessa di essere un semplice generatore di testo e diventa un agente capace di agire nel mondo digitale.
Indice degli argomenti
Come gli LLM cambiano il paradigma della difesa, per i CISO
L’integrazione dei Large Language Models (LLM) nelle infrastrutture di difesa non è un semplice aggiornamento tecnologico, ma un cambiamento di paradigma. Siamo passati da un sistema “geocentrico” della sicurezza, basato su regole statiche ed epicicli di firme, a un modello basato sulla semantica e sull’orchestrazione della conoscenza. Per decenni, la cybersecurity ha tentato di gestire l’anomalia aggiungendo strati di complessità fragile; oggi, l’emergere degli LLM come veri e propri motori di ragionamento sposta il baricentro operativo. La sicurezza non è più una questione di classificazione binaria tra “buono” e “cattivo”, ma una sfida di comprensione dei contesti digitali. In questo nuovo scenario, gli LLM sono entità capaci di interpretare la logica profonda dei protocolli, eliminando quel collo di bottiglia della conoscenza che ha storicamente limitato l’efficacia dei security operations center (SOC).
La traiettoria degli ultimi anni mostra un’accelerazione impressionante verso l’autonomia decisionale. Nel 2022, gli LLM venivano guardati con sospetto o curiosità dagli addetti ai lavori, usati principalmente come classificatori passivi per analizzare parti di codice isolate. Tuttavia, la loro natura statica li rendeva poco efficaci in scenari reali. La transizione avvenuta tra il 2023 e il 2024 ha visto questi modelli trasformarsi in potenziatori di strumenti classici: l’intelligenza artificiale ha iniziato a colmare le lacune della taint analysis e del fuzzing tradizionale, fungendo da traduttore tra l’intuizione del ricercatore e il rigore della logica formale.
Quando il ragionamento dei modelli entra nella cybersecurity
Il vero spartiacque è stato però l’ingresso nell’era degli agenti autonomi. Un caso che rimarrà nella storia della cybersecurity è l’operazione “big sleep“, condotta da Google Project Zero. Un agente basato su LLM è riuscito a identificare una vulnerabilità in SQLite, una delle librerie più diffuse al mondo. La cosa straordinaria non è stata la scoperta in sé, ma il modo in cui è avvenuta: l’agente non ha usato la forza bruta, ma ha formulato un’ipotesi di compromissione dopo aver analizzato la logica del codice, verificandola poi sistematicamente. Questa capacità di ragionamento è confermata dai dati dell’AI Security Institute (AISI) britannico, che ha rilevato come la capacità dei modelli di risolvere compiti di livello specialistico sia balzata dal 9% del 2023 a una proiezione del 50% per la fine del 2025.
CISO e LLM davanti alla prova di benchmark e governance
Man mano che le capacità dei modelli crescono, diventa vitale disporre di criteri di valutazione rigorosi. Nel dibattito attuale si tende spesso a confondere termini che indicano livelli di analisi molto diversi. I benchmark tecnici lavorano “in trincea”. Il loro obiettivo è misurare capacità specifiche attraverso sfide di tipo Capture The Flag (CTF) o task di hacking reale. Strumenti come cve-bench e bountybench hanno introdotto una variabile pragmatica, valutando quanto un agente sia effettivamente in grado di scoprire falle che portano a ricompense economiche reali o che riguardano vulnerabilità storiche catalogate.
Tuttavia, misurare la capacità tecnica non basta a comprendere il rischio sistemico. Qui entrano in gioco le suite istituzionali e i framework di governance. Programmi come Cyberseceval 4 di Meta o le valutazioni del Frontier Model Forum non si limitano a dare un punteggio, ma cercano di capire se un modello rappresenta una minaccia per la sicurezza nazionale. Framework come l’OpenAI Preparedness Framework o la Responsible Scaling Policy di Anthropic stabiliscono delle “linee rosse”: soglie di rischio oltre le quali il rilascio di un modello deve essere bloccato o accompagnato da misure di mitigazione drastiche. A completare il quadro ci sono gli standard del NIST e dell’OWASP, che guidano le aziende nell’integrare queste tecnologie senza esporsi a nuove tipologie di attacchi applicativi, come il data poisoning o le vulnerabilità della supply chain dei modelli.
Le vulnerabilità introdotte dagli agenti intelligenti
L’adozione massiccia di agenti intelligenti ha paradossalmente creato una nuova, vasta superficie d’attacco. Non ci si preoccupa più soltanto della manipolazione dell’input tramite prompt injection, ma di vulnerabilità architettoniche molto più insidiose. Una delle minacce emergenti è l’agent-in-the-middle (AITM), un’evoluzione del classico attacco man-in-the-middle in cui un malintenzionato si inserisce nella comunicazione tra diversi agenti AI che collaborano tra loro, manipolando la fiducia reciproca e i dati scambiati.
Il rischio non risiede nel modello isolato, ma nella sua integrazione: se l’output di un LLM fluisce direttamente in una shell o in un workflow automatico senza una validazione rigorosa, l’intero sistema diventa intrinsecamente fragile. A questo si aggiunge il problema delle “allucinazioni strategiche“, che in un contesto di difesa potrebbero indurre un SOC a ignorare un attacco reale o a sprecare risorse su una falsa pista generata dall’inaccuratezza del modello. Inoltre, la gestione dei log e della privacy diventa critica, poiché i dati sensibili usati per addestrare o rifinire i modelli potrebbero essere esposti accidentalmente.
Lezione per i CISO: LLM nella governance operativa aziendale
Ad avviso di chi scrive, per un Chief Information Security Officer, la sfida non è più decidere se adottare l’intelligenza artificiale, ma come farlo senza compromettere la resilienza aziendale. La prima indicazione strategica riguarda lo spostamento degli investimenti: non basta acquistare “licenze AI“, occorre investire in ingegneria dei dati e nella strutturazione della conoscenza di dominio. Un modello generalista senza accesso a dati di contesto aziendali sicuri è un’arma spuntata.
Un pilastro fondamentale per il CISO è l’adozione della retrieval-augmented generation (RAG). Questa architettura permette di ancorare il ragionamento dell’intelligenza artificiale a fatti certi — log di rete, policy interne, documentazione tecnica — riducendo drasticamente le allucinazioni e garantendo che le risposte siano pertinenti all’ecosistema specifico dell’azienda. Parallelamente, il CISO deve promuovere l’uso di small language models (SLM), come ad esempio Tinysecgpt, che possono essere eseguiti localmente. Questo approccio “on-premise” o in enclave sicure minimizza il rischio di data leakage, un timore costante quando si inviano dati sensibili verso API di modelli frontier esterni.
Fiducia calibrata e controllo umano sugli agenti
Dal punto di vista della governance, il CISO deve implementare un modello di maturità a livelli. Si parte dal livello 1, dove l’AI assiste l’umano in compiti ripetitivi, per arrivare gradualmente al livello 3, in cui l’agente opera in autonomia condizionata sotto la supervisione strategica dell’analista (human-on-the-loop). Questa transizione richiede una “fiducia calibrata“: non bisogna fidarsi ciecamente dell’output dell’AI, ma validarlo attraverso protocolli standardizzati come l’MCP (Model Context Protocol). Infine, è essenziale che il CISO integri le evidenze dei benchmark tecnici nei processi di vendor management, chiedendo ai fornitori non solo quanto sia “bravo” il loro modello, ma come venga misurato e quali soglie di rischio facciano scattare protezioni automatiche.
La conoscenza di dominio come vantaggio decisivo
In ultima analisi, la cybersecurity nell’era degli LLM non è una sfida di pura potenza computazionale. Il vero collo di bottiglia non sarà più il costo del calcolo, ma la capacità di strutturare la conoscenza di dominio. In un mondo in cui l’esecuzione tecnica di un attacco sta diventando una commodity a basso costo, la direzione strategica e la comprensione dei contesti rimangono gli unici veri fattori differenzianti.
Il successo della difesa dipenderà dalla capacità di costruire un ecosistema in cui gli agenti autonomi operino entro framework di governance trasparenti e sicuri. La cybersecurity sta diventando una disciplina di ingegneria della conoscenza, dove l’obiettivo non è solo fermare un malware, ma orchestrare l’intelligenza collettiva — umana e artificiale — per navigare un panorama di minacce che si muove alla velocità del pensiero. Il CISO del futuro non sarà più un semplice guardiano dei perimetri, ma l’architetto di un sistema di conoscenza resiliente.
I benchmark cyber LLM: dai ctf alle vulnerabilità reali
Il benchmark più citato resta CyBench, sviluppato nell’orbita Stanford. Gli autori lo presentano come un framework per valutare agenti llm su task di cybersecurity e lo costruiscono su 40 challenge professionali di capture the flag, tratte da 4 competizioni e accompagnate da sottotask intermedi. La sua forza è la comparabilità: mette modelli e scaffolding agentici nello stesso ambiente e pubblica leaderboard leggibili. Il suo limite è altrettanto chiaro: misura bene la capacità di risolvere compiti tecnici in un setting controllato, meno la confusione di un’operazione reale.
3CB, il Catastrophic Cyber Capabilities Benchmark, prova a correggere proprio questo difetto. Non si basa su task presi da competizioni note, ma su challenge originali, pensate per evitare memorizzazione e per coprire in modo più leggibile l’offensive cyber. Ogni prova è mappata a una tecnica MITRE ATT&CK, e il benchmark propone anche soglie indicative: da 8 challenge risolte in su come “limited potential risk”, da 13 in su come “high potential risk”. È una scelta interessante perché tenta di tradurre un punteggio tecnico in un segnale di rischio, pur restando dentro un benchmark.
Il salto verso scenari più vicini al mondo reale si vede con CVE-Bench. Qui l’oggetto non è più una challenge da ctf, ma un set di 40 vulnerabilità critiche reali in applicazioni web. Gli autori costruiscono un sandbox che permette agli agenti di tentare l’exploit in condizioni simili a quelle operative, con una valutazione standardizzata del risultato. Nel paper scrivono che il framework migliore testato arriva a sfruttare fino al 13% delle vulnerabilità. È un numero ancora lontano da un attaccante umano esperto, ma abbastanza alto da spostare il discorso dal “può scrivere codice” al “può sfruttare una cve vera”.
Un’altra famiglia di benchmark prende la strada del bug bounty. BountyBench, presentato da Stanford nel maggio 2025, usa 25 sistemi con codebase reali e 40 bug bounty che coprono 9 rischi del Top 10 Owasp. Il benchmark non si limita a chiedere se l’agente trova il bug: segue tre fasi, Detect, Exploit e Patch, e lega parte della valutazione al valore economico delle bounty, che vanno da 10 a 30.485 dollari. È uno dei pochi tentativi di collegare capacità offensive e difensive a un costo economico osservabile.
C’è poi un benchmark trasversale che non è solo cyber ma aiuta a leggere tutti gli altri: HCAST di METR. Il paper lo descrive come un benchmark di 189 task tra cybersecurity, software engineering, machine learning engineering e ragionamento generale, con 563 baseline umane e oltre 1.500 ore di lavoro raccolte per calibrare i risultati. Il suo pregio non sta solo nel punteggio, ma nel collegamento tra performance del modello e tempo che un umano impiegherebbe per lo stesso compito. È uno dei pochi strumenti che provano a misurare l’autonomia in termini che parlano anche ai decisori, non solo ai ricercatori.
Le suite di valutazione e i programmi istituzionali
I singoli benchmark non bastano però più. L’Ai Security Institute britannico, oggi il programma pubblico più osservato in questo campo, ha testato dal novembre 2023 più di 30 modelli frontier e nel suo report del 18 dicembre 2025 descrive un’accelerazione netta nelle capacità cyber. Secondo l’istituto, i modelli completavano task cyber di livello “apprentice” nel 9% dei casi alla fine del 2023; nel 2025 il dato era salito al 50%. Nello stesso anno, scrive Aisi, è comparso il primo modello capace di completare task pensati per esperti con oltre dieci anni di esperienza, e la durata dei compiti cyber che i modelli riescono a completare senza aiuto umano sta raddoppiando in circa otto mesi.
Lo stesso report aggiunge un elemento che nei titoli si perde spesso: le difese migliorano, ma il red teaming continua a trovare falle. Aisi scrive di avere individuato universal jailbreaks in ogni sistema testato e mostra anche un caso in cui il tempo necessario a trovare un jailbreak su richieste di misuse biologico aumenta di circa 40 volte tra due modelli usciti a distanza di sei mesi. Qui la lezione non è che i filtri non servono. È che servono come parte di una difesa a strati, non come garanzia definitiva.
Sul lato industriale, CyberSecEval 4 di Meta rappresenta una suite più ampia che non guarda solo all’abuso offensivo, ma anche alle capacità difensive. La documentazione ufficiale la descrive come una benchmark suite per valutare vulnerabilità e capacità difensive degli llm. Tra le novità ci sono CyberSOCEval, sviluppato con CrowdStrike per misurare scenari vicini a un Security Operations Center, e AutoPatchBench, che usa 136 vulnerabilità C/C++ identificate via fuzzing in repository reali per valutare quanto un agente sia capace di generare fix corretti.
I framework: quando un punteggio fa scattare mitigazioni
Un benchmark ti dice quanto un modello è bravo. Un framework deve decidere quando quella bravura cambia il profilo di rischio. Il Preparedness Framework di Openai, aggiornato il 15 aprile 2025, tratta la cyber capability come una delle categorie da monitorare. Nel documento, Openai definisce un livello High quando il modello rimuove colli di bottiglia nelle operazioni cyber, ad esempio automatizzando attacchi end-to-end contro target ragionevolmente protetti o automatizzando la scoperta e lo sfruttamento di vulnerabilità operative. Il livello Critical scatta quando un modello tool-augmented può identificare e sviluppare zero-day funzionali in molti sistemi critici hardened senza intervento umano, oppure ideare ed eseguire strategie nuove di attacco contro target hardened partendo da un obiettivo di alto livello.
Il Frontier Model Forum, nel report del 13 febbraio 2026 dedicato ai rischi cyber, prova a trovare un terreno comune tra i grandi laboratori. Il documento dice che le soglie più usate oggi sono capability thresholds, e che una decisione seria non dovrebbe dipendere da un singolo eval ma da un insieme di prove. Tra i segnali considerati più forti cita l’assistenza o l’automazione nella scoperta di zero-day, nello sviluppo di malware complesso, nell’escalation di privilegi e negli attacchi autonomi contro target hardened. In altre parole, il framework non sostituisce il benchmark: lo contestualizza e decide quando il benchmark deve cambiare le regole di accesso, rilascio o monitoraggio.
Anche Anthropic si muove su questo terreno con la sua Responsible Scaling Policy 3.0, pubblicata il 24 febbraio 2026. La società la definisce un framework volontario per mitigare i rischi catastrofici dei sistemi ai. Qui il punto non è l’elenco dei singoli benchmark, ma il meccanismo: valutazione del rischio, roadmap di sicurezza, report periodici e collegamento tra capacità emergenti e misure aggiuntive. È il livello in cui la misurazione incontra la governance.
Redazione












