l'analisi

LLM per la cybersicurezza: come cambiano modelli e difese



Indirizzo copiato

La cybersicurezza guarda con crescente interesse agli LLM e ai sistemi agentici, che promettono analisi più rapide e risposte automatizzate agli incidenti. Ma per misurarne davvero l’efficacia servono benchmark completi, capaci di valutare conoscenza, uso dei tool e pianificazione in scenari realistici

Pubblicato il 23 apr 2026

Ernesto Damiani

Università degli Studi di Milano



software microsoft giustizia CSA2 e sovranità digitale Human-Centric Security
AI Questions Icon
Chiedi all'AI
Riassumi questo articolo
Approfondisci con altre fonti

La cybersicurezza è un campo in rapida evoluzione: gli attacchi sono sempre più sofisticati e c’è una carenza globale di esperti. Inoltre, si stanno diffondendo minacce persistenti avanzate che sfruttano l’intelligenza artificiale per programmare e dirigere gli attacchi.

Questi due fattori hanno fatto crescere l’interesse del mondo della cybersicurezza per i Large Language Models (LLM) e per i sistemi agentici, ovvero LLM capaci non solo di rispondere a domande, ma di agire autonomamente, pianificare interventi, ed usare o generare codice e strumenti software.

I modelli LLM “generalisti” come ChatGPT e Claude mancano, in gran parte, della conoscenza profonda dei framework di cybersicurezza come MITRE ATT&CK; tuttavia, la ricerca e l’industria stanno lavorando per dotarli dell’esperienza specifica necessaria per l’analisi di grandi log di eventi e per la modellazione e identificazione delle minacce.

LLM per la cybersicurezza tra automazione e casi d’uso

LLM “specialisti” come Microsoft Security Copilot e Google Gemini in Security Operations sono già oggi in grado di svolgere molti compiti di routine: individuano gli identificatori standard di vulnerabilità note (le Common Vulnerabilities and Exposures – CVE), sanno metterli in corrispondenza con gli elenchi disponibili delle debolezze comuni dei sistemi software (le Common Weakness Enumeration – CWE) e generano i “playbook”, ovvero le procedure operative automatizzate per la risposta agli incidenti.

I rischi dei sistemi agentici nella cybersicurezza

Certo, l’adozione degli LLM non è esente da rischi: in certe configurazioni, i modelli inviano dati sensibili fuori dal dominio di rete dell’organizzazione dove sono stati raccolti, creando problemi di confidenzialità e di rispetto del GDPR. C’è poi il problema di garantire la sicurezza dei modelli stessi.

I sistemi agentici sono architetture in cui un Large Language Model (LLM) funge da cervello centrale: ragiona sul compito, pianifica una sequenza di azioni e decide autonomamente quali tool esterni usare (API, comandi shell, database, browser, tool di cybersecurity) [11]. Secondo fornitori come Palo Alto Network [1] e Crowdstrike [2], gli agenti AI potranno presto operare in autonomia sulle reti, analizzare le vulnerabilità e rispondere agli incidenti in tempo reale.

Certo, i sistemi agentici promettono difese automatiche efficaci; ma presentano anche una propria superficie d’attacco che comprende prompt injection, generazione autonoma di credenziali e altre azioni ostili. OWASP, la comunità open più importante per la sicurezza delle applicazioni, ha pubblicato quest’anno un “Top 10 Agentic AI Security Risks” [12] che costituisce un riferimento prezioso ma ancora incompleto.

Soluzioni aperte e proprietarie per gli LLM per la cybersicurezza

I principali competitor comprendono sia prodotti proprietari, sia ambienti aperti sia rispetto all’accesso con licenza open source, sia rispetto alle informazioni sui dati utilizzati in sede di addestramento e adattamento del modello. La nostra esperienza nello sviluppo di RedSage, addestrato sul supercomputer italiano Leonardo presso il CINECA, rappresenta un esempio concreto di come l’Italia possa giocare un ruolo di primo piano nella ricerca sull’intelligenza artificiale applicata alla cybersicurezza.

Grazie alle risorse di calcolo di Leonardo – uno dei primi dieci supercomputer al mondo per potenza (oltre 250 petaflop) – siamo riusciti a eseguire un pre-addestramento continuo su 11,8 miliardi di token di dati relativi alla cybersecurity e a generare 266.000 conversazioni realistiche in tempi e con costi sostenibili. L’uso di un’infrastruttura sovrana ci ha permesso di mantenere il pieno controllo dei dati sensibili – nessun invio verso cloud esteri -, rispettare i principi di sovranità digitale europea ed ottimizzare i costi di addestramento rispetto alle soluzioni proprietarie, ottenendo prestazioni uguali o superiori ai modelli di pari dimensione.

Un risultato che dimostra che un modello LLM “vendor neutral”, aperto e ben addestrato può battere le soluzioni commerciali ed apre la strada a futuri progetti di IA sicura e sovrana.

Panorama dei modelli LLM per la cybersicurezza

Tabella 1: Soluzioni LLM per cybersicurezza

CategoriaModelloSviluppatore
ProprietariMicrosoft Security CopilotMicrosoft
Sec-Gemini + Gemini in Security OperationsGoogle
OpenPRIMUSTrend Micro
Foundation-Sec-8BCisco
DeepHat-V1-7BDeep Hat (community)
Lily-Cybersecurity-7BSego Lily Labs
RedSage-8BKU/Univ. di Milano/Univ. Bonn

Benchmark standard per gli LLM per la cybersicurezza

Quanto possiamo fidarci oggi delle promesse di efficacia degli LLM come il nostro? Valutare un LLM di cybersicurezza richiede complesse verifiche sulla sua conoscenza, le sue abilità pratiche (compreso l’uso dei tool) e le sue reazioni reali in ambienti interattivi. I benchmark attualmente disponibili sono riassunti nella tabella che segue:

Tabella 2: Confronto dei principali benchmark per gli LLM di cybersecurity ([3])

NomeConoscenzaUso ToolPianificazioneDimensione
CyberMetric××10.000 [4]
CTI-Bench××5.610 [5]
SECURE××4.072 [6]
SecBench×47.910 [7]
CyberSecEval××1.000 [8]
CyberSocEval××1.197 [18]
RedSage-Bench30.240[3]

La copertura dei benchmark nella cybersicurezza

Un elemento chiave dei benchmark è la copertura, che si riferisce alla capacità del benchmark di valutare in modo esauriente e realistico tutte le dimensioni critiche del dominio cybersecurity, senza lasciare “buchi” significativi. Non si tratta solo del numero delle domande, ma di ampiezza tassonomica.

Un buon benchmark deve includere tre elementi:

Conoscenza teorica (MITRE ATT&CK, OWASP, CVE/CWE),

Abilità pratiche offensive e difensive con uso di tool (CLI Linux, Kali Linux, scripting, automazione),

Capacità di pianificazione e di esecuzione dei piani in ambienti interattivi.

La cybersicurezza è un dominio estremamente eterogeneo: respingere un attacco reale richiede contemporaneamente conoscenza teorica, la capacità di usare ambienti software complessi (compresi quelli con interfaccia a linea di comando) e quella di pianificare la propria reazione, osservandone i risultati ed adattandola se necessario. Un benchmark con copertura parziale (ad esempio, solo quiz a risposta chiusa) può portare a risultati fuorvianti: il modello sembra eccellente su test “facili” ma fallisce clamorosamente in scenari operativi reali.

La seconda tabella riporta la suddivisione delle verifiche di RedSage-Bench (30.000 quiz a risposta chiusa + 240 domande aperte).

RedSage-Bench come riferimento per gli LLM per la cybersicurezza

Tabella 3: Copertura di RedSage-Bench

CategoriaMCQAperteFocus
Knowledge (General + Frameworks)10.00080MITRE ATT&CK, OWASP
Skill – Offensive10.00080Write-up, payload, CAPEC
Tools (CLI + Kali)10.00080Comandi Linux, Kali Linux

Esempi pratici del benchmark

Vediamo alcuni esempi concreti del benchmark RedBench [3], tradotti in italiano:

Esempio 1 – Conoscenza (MITRE ATT&CK)
Domanda: Quale tattica del framework MITRE ATT&CK descrive l’azione di un attaccante che estrae credenziali dal processo LSASS di Windows?
A) Execution
B) Credential Access
C) Privilege Escalation
D) Discovery
Risposta corretta: B) Credential Access

Esempio 2 – Uso Tool
Quale comando Kali Linux viene tipicamente usato per eseguire uno scan ARP sulla rete locale e scoprire gli host attivi?
A) nmap -sP 192.168.1.0/24
B) arp-scan -l
C) netdiscover -r 192.168.1.0/24
D) hping3 –arp

Risposta corretta: B) arp-scan -l

Esempio 3 – Domanda aperta (Attacchi e Minacce)
Spiega come funziona un attacco di SQL Injection e descrivi almeno tre tecniche efficaci per prevenirlo in un’applicazione web.

Esempio 4 – Domanda aperta (Uso Tool)
Descrivi passo per passo come utilizzeresti lo strumento arp-scan per scoprire gli host su una rete locale e interpretare i risultati ottenuti.

Provate a porre queste domande al vostro LLM generalista preferito e a verificare le sue risposte.

Oltre le domande: benchmark interattivi per la cybersicurezza

I benchmark del futuro dovranno mettere alla prova gli LLM anche in scenari pratici, raggiungendo un livello di verifica che oggi è raro anche nella selezione del personale umano.

Dalla valutazione statica ai test dinamici

La tabella che segue presenta i benchmark di questo tipo attualmente in corso di sviluppo.

Tabella 4: Benchmark interattivi per LLM in cybersicurezza (2026) – con copertura e disponibilità

BenchmarkFonte / AnnoInterattivoUso ToolLiveDisponibilità
CyberGym[15], 2026Non disponibile
HTB AI Range[16], 2026Abbonamento
CyBench[10], 2025Open-source
NYU-CTF[9], 2024Open-source
AutoPatchBench[17], 2026Solo per partner

Questi benchmark segnano il passaggio dai test statici alle valutazioni dinamiche e operative, essenziali per misurare planning autonomo e tool-use in ambienti reali. La colonna “Disponibilità” evidenzia lo stato di accesso reale: solo NYU-CTF e CyBench sono pienamente open e utilizzabili oggi.

Conclusioni sugli LLM per la cybersicurezza

È facile prevedere che il futuro dell’intelligenza artificiale generativa in cybersicurezza sarà aperto, agentico e sicuro per design; e proprio per questo la verifica dei modelli LLM attraverso benchmark completi è diventata essenziale. L’utilizzo contemporaneo di verifiche domanda-risposta e di test interattivi (ad esempio, abbinando RedSage-Bench e CyBench), nell’ambito di una chiara governance della sicurezza dell’intelligenza artificiale in azienda (tenendo presenti le minacce elencate da OWASP nel suo Agentic Top 10), è la strada più promettente.

Riferimenti bibliografici

[1] Palo Alto Networks, “6 Predictions for the AI Economy: 2026’s New Rules of Cy-bersecurity,” November 2025. Disponibile su: https://www.paloaltonetworks.com/ perspectives/2026-cyber-predictions.

[2] CrowdStrike and NVIDIA, “CrowdStrike and NVIDIA Unveil Secure-by-Design AI Blueprint for AI Agents,” March 16, 2026. Dispo-nibile su: https://www.crowdstrike.com/en-us/press-releases/ crowdstrike-nvidia-unveil-secure-by-design-ai-blueprint-for-ai-agents.

[3] N. Suryanto, M. Naseer, P. Li, S. T. Wasim, J. Yi, J. Gall, P. Ceravolo, E. Damia-ni. “RedSage: A Cybersecurity Generalist LLM”. arXiv preprint arXiv:2601.22159, 2026. https://risys-lab.github.io/RedSage/

[4] N. Tihanyi et al. “CyberMetric: A Benchmark for LLM Cybersecurity Knowledgè’. 2024.

[5] M. Alam et al. “CTI-Bench: Cyber Threat Intelligence Benchmark”. 2024.

[6] R. Bhusal et al. “SECURE: Benchmark for Industrial Control Systems”. 2024.

[7] Y. Jing et al. “SecBench: Large-Scale Cybersecurity Benchmark”. 2025.

[8] L. Wan et al. “CyberSecEval: Evaluating Cybersecurity Risks in LLMs”. 2024.

[9] Y. Shao et al. “NYU-CTF: Interactive CTF Benchmark for LLM Agents”. NeurIPS 2024.

[10] Y. Zhang et al. “CyBench: Professional-Level CTF Benchmark for AI Agents”. 2025.

[11] Darktrace. “State of AI Cybersecurity Report 2026”. Darktrace Research, 2026.

[12] OWASP Foundation. “OWASP Top 10 Agentic AI Security Risks”. 2026.

[13] Microsoft. “Security Copilot Documentation and Benchmarks”. 2026.

[14] Google. “Gemini in Security Operations Technical Report”. 2026.

[15] CyberGym Team. “CyberGym: A Practical Benchmark for AI Agents in Cybersecurity Operations”. Technical Report, 2026.

[16] HackTheBox Research Team. “HTB AI Range: Real-World Agentic Penetration Testing Benchmark”. HackTheBox Technical Report, 2026.

[17] Microsoft Research. “AutoPatchBench: Benchmark for Autonomous Vulnerability Patching and Incident Responsè’. Microsoft Research Technical Report, 2026.

[18] Deason, Lauren and Bali, Adam and Bejean, Ciprian and Bolocan, Diana and Crnkovich, James and Croitoru, Ioana and Durai, Krishna and Midler, Chase and Miron, Calin and Molnar, David and others. CyberSOCEval: Benchmarking LLMs Capabilities for Malware Analysis and Threat Intelligence Reasoning. ArXiv preprint arXiv:2509.20166, 2025.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x