Gli agenti sono soggetti digitali autonomi il cui comportamento combina inferenze e azioni, come invocazioni a servizi remoti e comunicazioni tramite memoria condivisa e persistente. Oggi i sistemi agentici, composti da agenti multipli, sono considerati il paradigma emergente per svolgere compiti complessi senza intervento umano.
Indice degli argomenti
Sicurezza dei sistemi agentici tra ReAct e autonomia operativa
Il paradigma ReAct (Reasoning + Acting), introdotto da Yao nel 2023 [10], ha rappresentato un passo avanti fondamentale per la realizzazione di sistemi agentici basati su Large Language Models (LLM). ReAct trasforma il processo di generazione di risposte a singoli prompt degli LLM classici come GPT, Llama e Gemini in un ciclo iterativo e autonomo che alterna ragionamento esplicito e azioni concrete.
Il ciclo Thought, Action, Observation
Il ciclo comprende tre fasi.
- Thought (ragionamento): il modello genera un pensiero esplicito sul passo successivo da compiere;
- Action (azione): il modello invoca uno strumento esterno o esegue direttamente un’operazione;
- Observation (osservazione): il risultato dell’azione viene restituito al modello e integrato nel contesto della successiva inferenza.
Il ciclo Thought → Action → Observation si ripete finché l’agente non raggiunge un risultato soddisfacente. Vediamo ora un tipico prompt ReAct in cui ciascuna iterazione arricchisce il contesto del modello con la storia completa dei pensieri, azioni ed osservazioni svolte in precedenza:
Un prompt ReAct in azione

Vantaggi e primi incidenti
Rispetto all’inferenza tradizionale Chain-of-Thought (CoT) basata sul concatenamento di inferenze singole, ReAct offre parecchi vantaggi:
- Autonomia: l’agente decide da solo quali servizi esterni utilizzare e in quale sequenza, senza istruzioni esplicite;
- Riduzione delle allucinazioni: ogni affermazione generata da un agente può essere verificata dagli altri;
- Trasparenza: la traccia del ragionamento è completamente visibile e interpretabile dall’utente umano;
- Gestione di compiti complessi: lo schema affronta compiti che richiedono pianificazione, recupero di informazioni e correzione di errori;
- Robustezza: la presenza della traccia completa in memoria condivisa consente all’agente di correggere i ragionamenti precedenti in caso di errori.
Il paradigma ReAct ha ispirato numerose varianti ed estensioni. Le moderne architetture multi-agente (CrewAI, AutoGen, LangGraph) sono dotate di memoria persistente a lungo termine, che consente di gestire in parallelo più traiettorie di ragionamento e, alla fine, di selezionare quella migliore in base al risultato.
Purtroppo, l’entusiasmo per l’efficacia promessa dal paradigma agentico ha portato molte organizzazioni ad adottarlo senza una valutazione preventiva dei rischi di sicurezza. Secondo i dati del 2025-2026, l’88% delle aziende che impiegano sistemi agentici ha registrato incidenti di sicurezza [4]. Incidenti ad alto impatto come il data leak di Meta di marzo 2026, in cui un agente interno ha esposto dati sensibili a causa di istruzioni ambigue, e quello di Amazon Kiro (febbraio 2026), in cui un agente ha cancellato un ambiente di produzione senza autorizzazione [3], dimostrano la necessità di controlli strutturali.
Le sette precauzioni
In questo articolo ci concentriamo su sette precauzioni da osservare nell’adozione di sistemi agentici. Queste precauzioni mirano a ridurre l’ambito in cui un agente compromesso può arrecare danni agli altri (il cosiddetto blast radius) senza sacrificarne l’efficacia.
1. Applicare il principio di Least Agency
Il principio di Least Agency (o di “minima autonomia”) estende il classico principio least privilege [2] della sicurezza informatica. Un agente deve ricevere solo le capacità di ragionamento, l’accesso ai servizi esterni e alla memoria condivisa strettamente necessari per raggiungere il suo obiettivo. Ad esempio, un agente incaricato di redigere messaggi ai clienti in un customer service non deve poter modificare l’anagrafica dei clienti, a meno che non sia stato esplicitamente autorizzato a farlo. L’applicazione di questo principio riduce drasticamente il rischio di deriva degli obiettivi e di escalation non intenzionale delle azioni. In recenti simulazioni di attacco ai sistemi agentici CrewAI e AutoGen, agenti con eccessiva autonomia hanno violato le loro stesse politiche aziendali usando prompt injection [8].
2. Prevedere Guardrail e Human-in-the-Loop obbligatorio
Per controllare le inferenze che portano ad azioni ad alto impatto (modifica di dati critici, esecuzioni di codice, cancellazione di risorse), devono essere implementati dei guardrail deterministici e un meccanismo di Human-in-the-Loop (HITL) obbligatorio [13].
I guardrail sono meccanismi di protezione che definiscono e impongono confini di comportamento per i Large Language Model (LLM). Si possono considerare “barriere di sicurezza” lungo un’autostrada: non ostacolano il corretto funzionamento del modello, ma impediscono la generazione di contenuti nocivi. I guardrail possono essere regole infrastrutturali (politiche IAM o OPA) esterne al ciclo di ragionamento dell’agente. Le politiche IAM sono specifiche di AWS e mirano principalmente al controllo degli accessi. HITL richiede l’approvazione umana esplicita prima dell’esecuzione [12, 6].
L’Open Policy Agent (OPA) è un motore che permette di definire, gestire ed eseguire politiche di autorizzazione su tutto lo stack di esecuzione del sistema agentico (composto da cloud, orchestratore Kubernetes, microservizi, LLM). Le politiche OPA sono scritte nel linguaggio dichiarativo Rego. OPA riceve un input (solitamente in formato JSON) e restituisce una decisione (ad es. allow=true/false) insieme a eventuali motivazioni. Una politica OPA applica i guardrail ed impone regole di protezione dei dati, tenendo conto delle minacce individuate [13]. Nell’incidente Amazon Kiro del 2026, un agente in grado di generare codice eseguibile ha cancellato un ambiente di produzione senza peer review, causando un blocco dell’ambiente per oltre 13 ore. L’assenza di HITL è stata indicata dagli analisti come causa principale dell’errore [3].
3. Attivare il sandboxing e il controllo dell’accesso
I servizi utilizzati dagli agenti devono essere eseguiti in un ambiente isolato (container, macchine virtuali serverless o ambiente con permessi di accesso a granularità fine). I permessi devono essere definiti per ciascun servizio (ad es. “read-only” per i servizi di accesso ai database SQL, “write” per i dataset temporanei). I permessi devono essere revocati automaticamente al termine del task o in caso di timeout [11]. I framework per lo sviluppo di sistemi agentici, come LangGraph o NVIDIA NeMo, supportano meccanismi di sandboxing nativi che limitano l’impatto di una compromissione dei servizi esterni.
4. Generare un audit trail completo ed immutabile
Questo principio richiede l’implementazione di un registro immutabile che memorizzi un audit trail completo, comprendente i passi di inferenza (chain-of-thought), le invocazioni ai servizi esterni (input/output), le modifiche allo stato della memoria condivisa e le decisioni finali corredate di motivazioni.
Questi registri non sono in generale affidati a Blockchain, ma gestiti da sistemi centralizzati come ELK AWS CloudTrail [15] che li rendono comunque immodificabili. Gli strumenti di consultazione dei registri, come LangSmith o Phoenix Tracing, consentono a professionisti esterni di eseguire l’audit delle decisioni prese dal sistema agentico sia in fase di sviluppo sia in produzione [6]. Questi registri immutabili consentono la ricostruzione post-mortem degli incidenti e il rilevamento di anomalie.
5. Mantenere il controllo della supply chain
Come abbiamo visto, i sistemi agentici comprendono modelli LLM, servizi di terze parti e librerie di ”glue” come LangChain e LlamaIndex. È essenziale adottare un controllo rigoroso della supply chain di tutti questi componenti, verificando l’integrità degli aggiornamenti dei modelli (che deve essere garantita da firme digitali), eseguendo l’analisi delle dipendenze per scoprire vulnerabilità note e il monitoraggio continuo di minacce emergenti sui marketplace dei fornitori. Gli incidenti di supply chain, compresa la compromissione di strumenti open-source sono i vettori di attacco maggiormente pericolosi emersi nel 2025 [9].
6. Eseguire il monitoraggio continuo dell’esecuzione
È necessario uno strato di monitoraggio continuo del sistema agentico per rilevare cicli infiniti o ripetizioni inutili, la deriva degli obiettivi rispetto al prompt iniziale e, in generale, le anomalie comportamentali di singoli agenti (ad esempio, tentativi di acquisizione indebita di permessi), e il consumo anomalo di risorse [14]. Le tecniche di monitoraggio attivo rivolte specificamente ai sistemi agentici includono guardrail e kill-switch automatici che si attivano dopo un numero massimo di passi di inferenza o un tempo prefissato [7].
7. Eseguire audit periodici usando l’OWASP AI Vulnerability Scoring System (AIVSS)
L’OWASP (Open Worldwide Application Security Project) è la comunità open-source dedicata al miglioramento della sicurezza delle applicazioni software. Fondata nel 2001, OWASP ha la missione di fornire risorse gratuite, strumenti, linee guida, buone pratiche e progetti open-source per progettare e sviluppare applicazioni sicure e affidabili. Tutti i materiali prodotti da OWASP sono liberamente accessibili sul sito ufficiale https://owasp.org/. OWASP ha recentemente introdotto un AI Vulnerability Scoring System (AIVSS), adattando il suo classico sistema di prioritizzazione delle vulnerabilità, CVSS, arrivato alla versione 4.0, al contesto degli agenti di IA. La versione v0.8 di AIVSS (marzo 2026) è specificamente focalizzata sui “Agentic AI Core Security Risks” e introduce un Agentic AI Risk Score (AARS) che tiene conto di fattori quali autonomia, memoria persistente ed interazione multi-agente [1]. Le metriche di base di CVSS v4.0 sono suddivise in Exploitability Metrics e Impact Metrics.
Le Exploitability Metrics sono Attack Vector (AV), che assume i valori N (Network), A (Adjacent), I (Interaction), P (Physical), Attack Complexity (AC), che assume i valori L (Low), H (High), Attack Requirements (AT) che assume i valori N (None), P (Present), Privileges Required (PR) che assume i valori N (None), L (Low), H (High) e User Interaction (UI) che assume i valori N (None), P (Passive), A (Active)
Le Impact Metrics appartengono invece alla classica triade Confidentiality, Integrity e Availability, ed assumono i valori N (None), L (Low) e H (High).
AIVSS assegna un punteggio quantitativo alle vulnerabilità degli agenti, combinando queste metriche di base con amplificatori agentici che esprimono la maggiore autonomia e adattabilità.
Si tratta di uno strumento molto utilizzato per prioritizzare i rischi e comunicare il livello di rischio ai membri del board aziendale o ad altri stakeholder non tecnici, in linea con la direttiva NIS/2.
Conclusioni
Oltre agli incidenti Meta e Amazon Kiro di cui abbiamo parlato all’inizio, non mancano casi di studio rilevanti ai fini dell’identificazione delle minacce. Microsoft Research ha descritto uno studio di caso relativo a un assistente virtuale compromesso tramite un’email malevole, che ha dimostrato la vulnerabilità della memoria condivisa [7]. In alcune simulazioni d’attacco a sistemi agentici condotte da Palo Alto Networks, alcuni agenti hanno eseguito attacchi ransomware in 25 minuti [8]. La modellazione delle minacce non è un optional ma un requisito fondamentale per un’adozione responsabile dei sistemi agentici.
Le sette precauzioni che abbiamo delineato – Least Agency, guardrail/HITL, sandboxing, osservabilità, supply chain security, monitoring del runtime e valutazione tramite AIVSS – costituiscono un quadro completo per la difesa in profondità. Le organizzazioni che li adotteranno non solo ridurranno drasticamente il rischio di sanzioni per mancata conformità normativa, ma potranno sfruttare appieno il potenziale trasformativo degli agenti di IA. È consigliabile integrare queste precauzioni fin dalla fase di progettazione dei sistemi agentici e sottoporre regolarmente gli agenti a test di penetrazione e agli audit AIVSS.
Riferimenti bibliografici
[1] OWASP Foundation. OWASP AI Vulnerability Scoring System (AIVSS) v0.8 – Agentic AI Core Security Risks. https://aivss.owasp.org/, marzo 2026.
[2] E. Damiani, S. De Capitani di Vimercati, S. Paraboschi, P. Samarati. A fine-grained access control system for XML documents. ACM Transactions on Information and System Security (TISSEC), 5(2):169–202, May 2002.
[3] HiddenLayer Research. Security Lessons from Recent AI Agent Incidents:Meta and Amazon. Marzo 2026.
[4] Gravitee. 88% of Companies Have Already Seen AI Agent Security Failures. Marzo 2026.
[5] Nexus Guard. Least Privilege Is Not Enough for AI Agents. You Need Least Agency. DEV Community, marzo 2026.
[6] AWS Security Blog. Four security principles for agentic AI systems. Aprile 2026.
[7] Microsoft Research. Taxonomy of Failure Modes in Agentic AI Systems. Whitepaper, 2026.
[8] Palo Alto Networks Unit 42. Agentic AI Attack Framework. 2025.
[9] Adversa AI. Top AI Security Incidents of 2025. 2025.
[10] Shunyu Yao et al. ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629, 2023 (esteso in lavori successivi).
[11] Machine Learning Mastery. 5 Essential Security Patterns for Robust Agentic AI. Marzo 2026.
[12] OneReach.ai. Human-in-the-Loop Agentic AI for High-Stakes Decisions. Giugno 2025.
[13] L. Mauri, E. Damiani. Modeling threats to AI-ML systems using STRIDE. Sensors, 22(17):6662, 2022.
[14] M. Anisetti, C.A. Ardagna, E. Damiani, N. El Ioini, A. Man˜a, G. Spanoudakis. Moon Cloud: A Cloud Platform for ICT Security Governance. In Proceedings of the 2018 IEEE Global Communications Conference (GLOBECOM 2018), pp. 1–6, IEEE, 2018. 10.1109/GLOBCOM.2018.8647247.
[15] Amazon Web Services. CloudTrail concepts. AWS CloudTrail User Guide, 2026. Available at: https://docs.aws.amazon.com/awscloudtrail/latest/userguide/ cloudtrail-concepts.html.
[16] T. van Ede et al. Detecting Anomalous Misconfigurations in AWS Identity and Access Management Policies. In Proceedings of the 2022 ACM SIGSAC Conference on Computer and Communications Security, 2022.










