l'analisi

LLM per la cybersicurezza: come cambiano modelli e difese

La cybersicurezza guarda con crescente interesse agli LLM e ai sistemi agentici, che promettono analisi più rapide e risposte automatizzate agli incidenti. Ma per misurarne davvero l’efficacia servono benchmark completi, capaci di valutare conoscenza, uso dei tool e pianificazione in scenari realistici

Pubblicato il 23 apr 2026

Ernesto Damiani

Università degli Studi di Milano

software microsoft giustizia CSA2 e sovranità digitale Human-Centric Security

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

La cybersicurezza è un campo in rapida evoluzione: gli attacchi sono sempre più sofisticati e c’è una carenza globale di esperti. Inoltre, si stanno diffondendo minacce persistenti avanzate che sfruttano l’intelligenza artificiale per programmare e dirigere gli attacchi.

Questi due fattori hanno fatto crescere l’interesse del mondo della cybersicurezza per i Large Language Models (LLM) e per i sistemi agentici, ovvero LLM capaci non solo di rispondere a domande, ma di agire autonomamente, pianificare interventi, ed usare o generare codice e strumenti software.

CISO alla sfida degli degli LLM: rischio operativo e governance

I modelli LLM “generalisti” come ChatGPT e Claude mancano, in gran parte, della conoscenza profonda dei framework di cybersicurezza come MITRE ATT&CK; tuttavia, la ricerca e l’industria stanno lavorando per dotarli dell’esperienza specifica necessaria per l’analisi di grandi log di eventi e per la modellazione e identificazione delle minacce.

Indice degli argomenti

LLM per la cybersicurezza tra automazione e casi d’uso

LLM “specialisti” come Microsoft Security Copilot e Google Gemini in Security Operations sono già oggi in grado di svolgere molti compiti di routine: individuano gli identificatori standard di vulnerabilità note (le Common Vulnerabilities and Exposures – CVE), sanno metterli in corrispondenza con gli elenchi disponibili delle debolezze comuni dei sistemi software (le Common Weakness Enumeration – CWE) e generano i “playbook”, ovvero le procedure operative automatizzate per la risposta agli incidenti.

I rischi dei sistemi agentici nella cybersicurezza

Certo, l’adozione degli LLM non è esente da rischi: in certe configurazioni, i modelli inviano dati sensibili fuori dal dominio di rete dell’organizzazione dove sono stati raccolti, creando problemi di confidenzialità e di rispetto del GDPR. C’è poi il problema di garantire la sicurezza dei modelli stessi.

I sistemi agentici sono architetture in cui un Large Language Model (LLM) funge da cervello centrale: ragiona sul compito, pianifica una sequenza di azioni e decide autonomamente quali tool esterni usare (API, comandi shell, database, browser, tool di cybersecurity) [11]. Secondo fornitori come Palo Alto Network [1] e Crowdstrike [2], gli agenti AI potranno presto operare in autonomia sulle reti, analizzare le vulnerabilità e rispondere agli incidenti in tempo reale.

Certo, i sistemi agentici promettono difese automatiche efficaci; ma presentano anche una propria superficie d’attacco che comprende prompt injection, generazione autonoma di credenziali e altre azioni ostili. OWASP, la comunità open più importante per la sicurezza delle applicazioni, ha pubblicato quest’anno un “Top 10 Agentic AI Security Risks” [12] che costituisce un riferimento prezioso ma ancora incompleto.

Soluzioni aperte e proprietarie per gli LLM per la cybersicurezza

I principali competitor comprendono sia prodotti proprietari, sia ambienti aperti sia rispetto all’accesso con licenza open source, sia rispetto alle informazioni sui dati utilizzati in sede di addestramento e adattamento del modello. La nostra esperienza nello sviluppo di RedSage, addestrato sul supercomputer italiano Leonardo presso il CINECA, rappresenta un esempio concreto di come l’Italia possa giocare un ruolo di primo piano nella ricerca sull’intelligenza artificiale applicata alla cybersicurezza.

Grazie alle risorse di calcolo di Leonardo – uno dei primi dieci supercomputer al mondo per potenza (oltre 250 petaflop) – siamo riusciti a eseguire un pre-addestramento continuo su 11,8 miliardi di token di dati relativi alla cybersecurity e a generare 266.000 conversazioni realistiche in tempi e con costi sostenibili. L’uso di un’infrastruttura sovrana ci ha permesso di mantenere il pieno controllo dei dati sensibili – nessun invio verso cloud esteri -, rispettare i principi di sovranità digitale europea ed ottimizzare i costi di addestramento rispetto alle soluzioni proprietarie, ottenendo prestazioni uguali o superiori ai modelli di pari dimensione.

Un risultato che dimostra che un modello LLM “vendor neutral”, aperto e ben addestrato può battere le soluzioni commerciali ed apre la strada a futuri progetti di IA sicura e sovrana.

Panorama dei modelli LLM per la cybersicurezza

Tabella 1: Soluzioni LLM per cybersicurezza

Categoria	Modello	Sviluppatore
Proprietari	Microsoft Security Copilot	Microsoft
	Sec-Gemini + Gemini in Security Operations	Google
Open	PRIMUS	Trend Micro
	Foundation-Sec-8B	Cisco
	DeepHat-V1-7B	Deep Hat (community)
	Lily-Cybersecurity-7B	Sego Lily Labs
	RedSage-8B	KU/Univ. di Milano/Univ. Bonn

Benchmark standard per gli LLM per la cybersicurezza

Quanto possiamo fidarci oggi delle promesse di efficacia degli LLM come il nostro? Valutare un LLM di cybersicurezza richiede complesse verifiche sulla sua conoscenza, le sue abilità pratiche (compreso l’uso dei tool) e le sue reazioni reali in ambienti interattivi. I benchmark attualmente disponibili sono riassunti nella tabella che segue:

Tabella 2: Confronto dei principali benchmark per gli LLM di cybersecurity ([3])

Nome	Conoscenza	Uso Tool	Pianificazione	Dimensione
CyberMetric	✓	×	×	10.000 [4]
CTI-Bench	✓	×	×	5.610 [5]
SECURE	✓	×	×	4.072 [6]
SecBench	✓	✓	×	47.910 [7]
CyberSecEval	×	✓	×	1.000 [8]
CyberSocEval	×	✓	×	1.197 [18]
RedSage-Bench	✓	✓	✓	30.240[3]

La copertura dei benchmark nella cybersicurezza

Un elemento chiave dei benchmark è la copertura, che si riferisce alla capacità del benchmark di valutare in modo esauriente e realistico tutte le dimensioni critiche del dominio cybersecurity, senza lasciare “buchi” significativi. Non si tratta solo del numero delle domande, ma di ampiezza tassonomica.

Un buon benchmark deve includere tre elementi:

• Conoscenza teorica (MITRE ATT&CK, OWASP, CVE/CWE),

• Abilità pratiche offensive e difensive con uso di tool (CLI Linux, Kali Linux, scripting, automazione),

• Capacità di pianificazione e di esecuzione dei piani in ambienti interattivi.

La cybersicurezza è un dominio estremamente eterogeneo: respingere un attacco reale richiede contemporaneamente conoscenza teorica, la capacità di usare ambienti software complessi (compresi quelli con interfaccia a linea di comando) e quella di pianificare la propria reazione, osservandone i risultati ed adattandola se necessario. Un benchmark con copertura parziale (ad esempio, solo quiz a risposta chiusa) può portare a risultati fuorvianti: il modello sembra eccellente su test “facili” ma fallisce clamorosamente in scenari operativi reali.

La seconda tabella riporta la suddivisione delle verifiche di RedSage-Bench (30.000 quiz a risposta chiusa + 240 domande aperte).

RedSage-Bench come riferimento per gli LLM per la cybersicurezza

Tabella 3: Copertura di RedSage-Bench

Categoria	MCQ	Aperte	Focus
Knowledge (General + Frameworks)	10.000	80	MITRE ATT&CK, OWASP
Skill – Offensive	10.000	80	Write-up, payload, CAPEC
Tools (CLI + Kali)	10.000	80	Comandi Linux, Kali Linux

Esempi pratici del benchmark

Vediamo alcuni esempi concreti del benchmark RedBench [3], tradotti in italiano:

Esempio 1 – Conoscenza (MITRE ATT&CK)
Domanda: Quale tattica del framework MITRE ATT&CK descrive l’azione di un attaccante che estrae credenziali dal processo LSASS di Windows?
A) Execution
B) Credential Access
C) Privilege Escalation
D) Discovery
Risposta corretta: B) Credential Access

Esempio 2 – Uso Tool
Quale comando Kali Linux viene tipicamente usato per eseguire uno scan ARP sulla rete locale e scoprire gli host attivi?
A) nmap -sP 192.168.1.0/24
B) arp-scan -l
C) netdiscover -r 192.168.1.0/24
D) hping3 –arp

Risposta corretta: B) arp-scan -l

Esempio 3 – Domanda aperta (Attacchi e Minacce)
Spiega come funziona un attacco di SQL Injection e descrivi almeno tre tecniche efficaci per prevenirlo in un’applicazione web.

Esempio 4 – Domanda aperta (Uso Tool)
Descrivi passo per passo come utilizzeresti lo strumento arp-scan per scoprire gli host su una rete locale e interpretare i risultati ottenuti.

Provate a porre queste domande al vostro LLM generalista preferito e a verificare le sue risposte.

Oltre le domande: benchmark interattivi per la cybersicurezza

I benchmark del futuro dovranno mettere alla prova gli LLM anche in scenari pratici, raggiungendo un livello di verifica che oggi è raro anche nella selezione del personale umano.

Dalla valutazione statica ai test dinamici

La tabella che segue presenta i benchmark di questo tipo attualmente in corso di sviluppo.

Tabella 4: Benchmark interattivi per LLM in cybersicurezza (2026) – con copertura e disponibilità

Benchmark	Fonte / Anno	Interattivo	Uso Tool	Live	Disponibilità
CyberGym	[15], 2026	✓	✓	✓	Non disponibile
HTB AI Range	[16], 2026	✓	✓	✓	Abbonamento
CyBench	[10], 2025	✓	✓	–	Open-source
NYU-CTF	[9], 2024	✓	✓	✓	Open-source
AutoPatchBench	[17], 2026	✓	✓	–	Solo per partner

Questi benchmark segnano il passaggio dai test statici alle valutazioni dinamiche e operative, essenziali per misurare planning autonomo e tool-use in ambienti reali. La colonna “Disponibilità” evidenzia lo stato di accesso reale: solo NYU-CTF e CyBench sono pienamente open e utilizzabili oggi.

Conclusioni sugli LLM per la cybersicurezza

È facile prevedere che il futuro dell’intelligenza artificiale generativa in cybersicurezza sarà aperto, agentico e sicuro per design; e proprio per questo la verifica dei modelli LLM attraverso benchmark completi è diventata essenziale. L’utilizzo contemporaneo di verifiche domanda-risposta e di test interattivi (ad esempio, abbinando RedSage-Bench e CyBench), nell’ambito di una chiara governance della sicurezza dell’intelligenza artificiale in azienda (tenendo presenti le minacce elencate da OWASP nel suo Agentic Top 10), è la strada più promettente.

Riferimenti bibliografici

[1] Palo Alto Networks, “6 Predictions for the AI Economy: 2026’s New Rules of Cy-bersecurity,” November 2025. Disponibile su: https://www.paloaltonetworks.com/ perspectives/2026-cyber-predictions.

[2] CrowdStrike and NVIDIA, “CrowdStrike and NVIDIA Unveil Secure-by-Design AI Blueprint for AI Agents,” March 16, 2026. Dispo-nibile su: https://www.crowdstrike.com/en-us/press-releases/ crowdstrike-nvidia-unveil-secure-by-design-ai-blueprint-for-ai-agents.

[3] N. Suryanto, M. Naseer, P. Li, S. T. Wasim, J. Yi, J. Gall, P. Ceravolo, E. Damia-ni. “RedSage: A Cybersecurity Generalist LLM”. arXiv preprint arXiv:2601.22159, 2026. https://risys-lab.github.io/RedSage/

[4] N. Tihanyi et al. “CyberMetric: A Benchmark for LLM Cybersecurity Knowledgè’. 2024.

[5] M. Alam et al. “CTI-Bench: Cyber Threat Intelligence Benchmark”. 2024.

[6] R. Bhusal et al. “SECURE: Benchmark for Industrial Control Systems”. 2024.

[7] Y. Jing et al. “SecBench: Large-Scale Cybersecurity Benchmark”. 2025.

[8] L. Wan et al. “CyberSecEval: Evaluating Cybersecurity Risks in LLMs”. 2024.

[9] Y. Shao et al. “NYU-CTF: Interactive CTF Benchmark for LLM Agents”. NeurIPS 2024.

[10] Y. Zhang et al. “CyBench: Professional-Level CTF Benchmark for AI Agents”. 2025.

[11] Darktrace. “State of AI Cybersecurity Report 2026”. Darktrace Research, 2026.

[12] OWASP Foundation. “OWASP Top 10 Agentic AI Security Risks”. 2026.

[13] Microsoft. “Security Copilot Documentation and Benchmarks”. 2026.

[14] Google. “Gemini in Security Operations Technical Report”. 2026.

[15] CyberGym Team. “CyberGym: A Practical Benchmark for AI Agents in Cybersecurity Operations”. Technical Report, 2026.

[16] HackTheBox Research Team. “HTB AI Range: Real-World Agentic Penetration Testing Benchmark”. HackTheBox Technical Report, 2026.

[17] Microsoft Research. “AutoPatchBench: Benchmark for Autonomous Vulnerability Patching and Incident Responsè’. Microsoft Research Technical Report, 2026.

[18] Deason, Lauren and Bali, Adam and Bejean, Ciprian and Bolocan, Diana and Crnkovich, James and Croitoru, Ioana and Durai, Krishna and Midler, Chase and Miron, Calin and Molnar, David and others. CyberSOCEval: Benchmarking LLMs Capabilities for Malware Analysis and Threat Intelligence Reasoning. ArXiv preprint arXiv:2509.20166, 2025.

@RIPRODUZIONE RISERVATA

Ernesto Damiani

Università degli Studi di Milano

Seguimi su

0 Commenti

Più recenti

Più votati

Inline Feedback

Vedi tutti i commenti

Argomenti

Canali

S
Sicurezza digitale

LLM per la cybersicurezza: come cambiano modelli e difese

LLM per la cybersicurezza tra automazione e casi d’uso

I rischi dei sistemi agentici nella cybersicurezza

Soluzioni aperte e proprietarie per gli LLM per la cybersicurezza

Panorama dei modelli LLM per la cybersicurezza

Benchmark standard per gli LLM per la cybersicurezza

La copertura dei benchmark nella cybersicurezza

RedSage-Bench come riferimento per gli LLM per la cybersicurezza

Esempi pratici del benchmark

Oltre le domande: benchmark interattivi per la cybersicurezza

Dalla valutazione statica ai test dinamici

Conclusioni sugli LLM per la cybersicurezza

Riferimenti bibliografici

Ernesto Damiani

Università degli Studi di Milano

InnovAttori

AI agentica nel turismo: come cambia il mercato dei viaggi

OpenBIM e interoperabilità: perché gli standard aperti sono decisivi in edilizia

Competitività europea e sovranità, cosa manca davvero alle startup Ue

Come l’AI porta il caffè sulle nostre tavole al tempo della guerra

Smart home, l’AI accelera la transizione green: ma occhio alla sicurezza

Articoli correlati

LLM per la cybersicurezza: come cambiano modelli e difese

LLM per la cybersicurezza tra automazione e casi d’uso

I rischi dei sistemi agentici nella cybersicurezza

Soluzioni aperte e proprietarie per gli LLM per la cybersicurezza

Panorama dei modelli LLM per la cybersicurezza

Benchmark standard per gli LLM per la cybersicurezza

La copertura dei benchmark nella cybersicurezza

RedSage-Bench come riferimento per gli LLM per la cybersicurezza

Esempi pratici del benchmark

Oltre le domande: benchmark interattivi per la cybersicurezza

Dalla valutazione statica ai test dinamici

Conclusioni sugli LLM per la cybersicurezza

Riferimenti bibliografici

Ernesto Damiani

Università degli Studi di Milano

InnovAttori

AI agentica nel turismo: come cambia il mercato dei viaggi

OpenBIM e interoperabilità: perché gli standard aperti sono decisivi in edilizia

Competitività europea e sovranità, cosa manca davvero alle startup Ue

Come l’AI porta il caffè sulle nostre tavole al tempo della guerra

Smart home, l’AI accelera la transizione green: ma occhio alla sicurezza

Articoli correlati

Codice Rss

Codice Rss