L’IA agentica rappresenta un cambiamento qualitativo nel modo in cui opera il software. Il software tradizionale esegue istruzioni deterministiche, mentre l’IA generativa risponde ai prompt con output che gli esseri umani esaminano e utilizzano a loro discrezione.
L’IA agentica si differenzia da entrambi: gli agenti si connettono a strumenti software e API e utilizzano Large Language Model (LLM) per pianificare ed eseguire in autonomia, alla velocità delle macchine, sequenze di azioni con conseguenze nel mondo reale.
Questo cambiamento solleva nuove domande in merito alla sicurezza informatica. Lo scorso gennaio il Center for AI Standards and Innovation (CAISI) del NIST ha emesso una Richiesta di Informazioni (RFI) per raccogliere contributi dal settore su come proteggere questi sistemi. AWS ha presentato una risposta basata sulla propria esperienza: questo articolo riassume i quattro principi di sicurezza che ne sono alla base e i principali elementi architetturali che li implementano.
Indice degli argomenti
La RFI del NIST sull’IA agentica
La RFI ha posto domande relative a cinque aree: quali particolari considerazioni sulla sicurezza introducono i sistemi agentici e come cambiano tali considerazioni man mano che i sistemi acquisiscono maggiore autonomia? Quali pratiche migliorano la sicurezza durante le fasi di sviluppo e implementazione? In che modo le organizzazioni valutano la sicurezza dei propri sistemi agentici? Come è possibile limitare e monitorare gli ambienti di implementazione? E su quali aspetti dovrebbe concentrarsi la ricerca futura in questo settore?
Perché la sicurezza dell’IA agentica è importante
Anche un’analisi rischi/benefici conservativa concluderà che in molti ambiti i vantaggi dell’IA agentica superano i rischi. Lo conferma la sua rapida adozione nel settore pubblico e privato. Ma se gli agenti sono preziosi per la loro autonomia e adattabilità, queste stesse caratteristiche pongono una sfida in termini di sicurezza. Un sistema agentico che esegue un’azione involontaria può farlo alla velocità di una macchina, prima che un essere umano possa intervenire. A differenza degli attori umani, che si fermano o chiedono supporto se qualcosa appare insolito, gli agenti potrebbero non riconoscere ambiguità né cogliere intuitivamente limiti delle policy non esplicitati.
La buona notizia, tuttavia, è che la risposta alla sicurezza dell’IA agentica non deve partire da zero. I framework di sicurezza esistenti mantengono la loro rilevanza e dovrebbero essere ampliati per tenere conto delle specificità degli agenti, piuttosto che essere sostituiti. L’estensione più importante è di natura architetturale: la nostra risposta al NIST ha individuato quattro principi fondamentali di sicurezza che indicano come realizzarla.
Quattro principi di sicurezza per l’IA agentica
Questi principi si basano sulla premessa che l’IA agentica non richiede un nuovo paradigma di sicurezza, ma richiede che le pratiche esistenti evolvano. I primi due principi riguardano ciò che va mantenuto; i secondi due affrontano ciò che è veramente nuovo.
Principio 1: Le pratiche di sviluppo sicuro devono essere applicate a tutti i componenti del sistema
I sistemi di IA agentica integrano componenti software tradizionali (API, database, logiche di orchestrazione) con elementi di IA, come modelli di base, template di prompt e pipeline di retrieval. Un ciclo di sviluppo sicuro deve coprire entrambe le categorie di componenti. Per i componenti tradizionali, pratiche consolidate quali la revisione del codice, l’analisi statica, la scansione delle dipendenze e la modellazione delle minacce rimangono essenziali, tenendo presente che anche queste pratiche sono in corso di potenziamento con strumenti basati sull’IA. Per i componenti di IA, la sfida è diversa. I modelli di base sono probabilistici, il che significa che il tradizionale test di regressione è necessario ma non sufficiente. Le organizzazioni devono integrarlo con test comportamentali, valutazioni di tipo adversarial e attività di monitoraggio continuo per verificare che i componenti di IA operino entro i parametri attesi.
La rivalutazione periodica è altrettanto importante per affrontare il fenomeno della deriva comportamentale. I modelli ricevono aggiornamenti che possono alterarne il comportamento. I template di prompt evolvono man mano che i team perfezionano le capacità degli agenti. Nuovi strumenti e fonti di dati ampliano la superficie operativa dell’agente. Ogni cambiamento può introdurre nuove modalità di errore o potenziali problemi di sicurezza. Le organizzazioni devono considerare la valutazione come una pratica operativa continua, non come un controllo una tantum. Ciò include test automatizzati dopo gli aggiornamenti dei modelli, esercitazioni di red teaming sugli agenti in esercizio e attività di monitoraggio in grado di rilevare nel tempo eventuali derive comportamentali.
Principio 2: I controlli di sicurezza tradizionali rimangono pienamente applicabili
L’IA agentica introduce nuovi aspetti da considerare, ma non rende obsoleti i rischi di sicurezza esistenti. L’insieme completo dei controlli di sicurezza tradizionali rimane ancora valido. Un sistema di IA agentica combina il software tradizionale con un nuovo ciclo di elaborazione basato su LLM e strumenti aggiuntivi. Le organizzazioni devono proteggere il software, gli strumenti e le configurazioni esistenti dai rischi noti, al fine di fornire una solida base per gli elementi agentici.
Rischi come l’escalation dei privilegi, il confused deputy, il session hijacking, il code injection e le vulnerabilità della supply chain si estendono direttamente ai sistemi agentici, risultando in alcuni casi amplificati in questi contesti. Gli agenti operano su scala e velocità superiori rispetto agli attori umani, il che significa che privilegi eccessivi comportano un rischio maggiore di conseguenze indesiderate. Ciò implica che applicare i principi del privilegio minimo alla gestione degli accessi in un contesto basato su agenti è importante quanto, se non più, che nei sistemi tradizionali. Anche la superficie della supply chain è più ampia. I sistemi agentici utilizzano non solo dipendenze software di terze parti, ma anche modelli di base, plugin, tool server e fonti di retrieval dei dati. Gli agenti che invocano API, interrogano database o generano codice introducono nuove potenziali superfici di attacco ai confini degli strumenti. I controlli specifici per l’AI devono quindi affiancarsi alla sicurezza di base, non sostituirla.
Principio 3: i controlli esterni deterministici costituiscono il punto di partenza per la sicurezza dell’AI agentica
Si tratta del principio architetturale più importante. Le organizzazioni devono garantire la sicurezza attraverso controlli deterministici a livello di infrastruttura, esterni al ciclo di ragionamento dell’agente, e non tramite il ragionamento dell’agente stesso, i suoi meccanismi di protezione interni o le istruzioni basate sui prompt. La logica è semplice: gli LLM sono motori di ragionamento probabilistico, non meccanismi di applicazione della sicurezza. Gli sviluppatori possono istruire un LLM a rifiutare determinate richieste, ma tecniche come il prompt injection possono aggirare tali istruzioni. Allo stesso modo, un LLM può essere invitato a rispettare limiti di accesso, ma non dispone di un meccanismo affidabile per farli rispettare. Cercare di limitare il comportamento degli agenti esclusivamente tramite prompt o allineamenti va contro la loro essenza fondamentale, ovvero la capacità di adattarsi dinamicamente a situazioni nuove.
Una sicurezza efficace prevede controlli deterministici e pienamente definiti al di fuori dell’agente, che determinano a quali strumenti esso possa accedere, quali operazioni possa eseguire e quali dati possa raggiungere. La manipolazione del modello non può aggirare questi controlli. Descriviamo questo concetto come security box (scatola di sicurezza). È esterna all’agente, deterministica nella sua applicazione e completa nella sua copertura. Ogni interazione tra l’agente e il mondo esterno passa attraverso di essa.
La security box non rappresenta un limite al valore dell’agente. È piuttosto il presupposto fondamentale per garantire che tale valore venga realizzato in modo responsabile. Man mano che la tecnologia degli agenti matura, la security box stessa è destinata a evolversi fino a includere elementi propri degli agenti. Agenti di IA specializzati, progettati per controllare l’ambito di azione di altri agenti, potrebbero nel tempo sostituire alcuni vincoli deterministici, utilizzando nuove informazioni e nuovi contesti per prendere decisioni automatizzate più appropriate di quelle che potrebbero essere prese da esseri umani incaricati di gestire complessi controlli deterministici.
Principio 4: Una maggiore autonomia dovrebbe essere conquistata attraverso una valutazione continua
Le organizzazioni dovrebbero ampliare progressivamente l’autonomia degli agenti sulla base delle prestazioni dimostrate, non concederla automaticamente. Il punto di partenza è il processo decisionale umano per le operazioni ad alto impatto. Quando un agente si trova di fronte a un’azione che potrebbe modificare dati di produzione di alto valore, avviare transazioni finanziarie o comunicare informazioni sensibili all’esterno, è un essere umano a prendere la decisione finale. L’agente formula una raccomandazione e una persona la approva o la respinge.
Questo approccio comporta un rischio ben noto. Se ogni azione dell’agente richiede l’approvazione umana, il volume delle decisioni può sopraffare i revisori. L’approvazione rischia di diventare automatica, più che consapevole, trasferendo la responsabilità su persone messe in una posizione difficile da gestire. Le organizzazioni devono quindi limitare la supervisione umana alle operazioni realmente ad alto impatto ed evitare di imporre modelli “human-in-the-loop” per attività di routine a basso rischio.
Il passaggio dalla supervisione umana a una maggiore autonomia passa attraverso la valutazione. Man mano che le organizzazioni registrano sistematicamente ciò che l’agente ha raccomandato, la decisione presa dall’essere umano e il risultato effettivo, costruiscono una base di evidenze su cui fondare l’estensione dell’autonomia. Quando i dati mostrano un allineamento nel tempo, è possibile passare dall’approvazione preventiva alla revisione a posteriori e, infine, alla piena autonomia per specifiche tipologie di operazioni. Questa progressione dovrebbe avvenire a livello di singole operazioni o workflow, non su un’ampia gamma di attività non correlate.
Il processo non è a senso unico. Le organizzazioni devono essere pronte a reintrodurre la supervisione umana quando le evidenze lo giustificano. Alcuni limiti deterministici rimarranno probabilmente permanenti nel prossimo futuro. Questi limiti non dipendono da una mancanza di fiducia negli agenti, ma dal fatto che le conseguenze di determinate azioni risultano inaccettabili alla luce di una ragionevole analisi dei rischi. Il modello complessivo è quello di un’autonomia conquistata attraverso la competenza dimostrata, governata dalla valutazione, delimitata da vincoli permanenti e soggetta a revisione continua. Potrebbe arrivare un momento in cui agenti specializzati nella gestione di questi limiti offrano risultati migliori rispetto a controlli puramente deterministici, ma questa evoluzione potrà emergere solo nel tempo, grazie all’esperienza e alla valutazione.
Dai principi alla pratica
I quattro principi definiscono gli obiettivi. Il loro raggiungimento richiede specifici elementi costitutivi che compongono la security box e la più ampia architettura di sicurezza. AWS, ad esempio, li ha implementati in Amazon Bedrock AgentCore, un framework per la creazione, la distribuzione e la gestione di sistemi di IA agentica con sicurezza integrata in modo nativo. Qui ne forniamo una sintesi.
Isolamento computazionale
Gli ambienti di esecuzione degli agenti devono garantire un forte isolamento, impedendo la fuoriuscita di dati tra agenti e confinando ogni entità entro limiti operativi ben definiti. Questo può essere ottenuto attraverso tecnologie di virtualizzazione leggera, in grado di combinare l’efficienza dei container con proprietà di isolamento tipiche delle macchine virtuali. In contesti critici, è inoltre opportuno adottare meccanismi di verifica formale o altre tecniche avanzate per aumentare le garanzie di sicurezza.
Gestione delle identità e degli accessi
Gli agenti necessitano di identità proprie, di un sistema sicuro per l’archiviazione delle credenziali e di un’autorizzazione basata sul principio del privilegio minimo applicata a livello di infrastruttura. Un elemento chiave è la tracciabilità: le organizzazioni devono poter ricostruire in modo chiaro la relazione tra le azioni degli agenti e gli utenti o i processi che le hanno originate.
Accesso agli strumenti e applicazione delle policy
Ogni strumento a cui un agente può accedere ne amplia sia l’utilità che il potenziale rischio. Gestire l’accesso agli strumenti per ogni agente, singolarmente, porta a una enorme complessità. È quindi opportuno introdurre un livello di intermediazione centralizzato tra gli agenti e gli strumenti che gestisca autenticazione e autorizzazione in un unico punto di controllo, consentendo di ispezionare le chiamate agli strumenti fino ai singoli parametri. Le policy devono poter essere definite in modo flessibile ma verificabile.
Osservabilità
L’infrastruttura di osservabilità deve acquisire un contesto sufficiente per il monitoraggio e l’analisi in tempo reale e deve essere protetta dagli agenti che monitora. Le organizzazioni non consentirebbero ai propri dipendenti di modificare i propri registri di audit e lo stesso principio vale per gli agenti. Telemetria, tracciamento delle sessioni e registrazione delle modifiche di stato rappresentano elementi fondamentali per garantire trasparenza e accountability.
Ambiente di esecuzione del modello
La sicurezza dell’ambiente di esecuzione del modello è importante tanto quanto quella dell’agente stesso. È essenziale che i modelli siano eseguiti in ambienti di rete isolati e protetti, con adeguati meccanismi di cifratura e controllo degli accessi. Questo approccio è particolarmente rilevante in contesti enterprise e pubblici, dove la protezione dei dati e la riservatezza delle informazioni sono requisiti fondamentali.
Accanto ai controlli esterni deterministici, è utile integrare meccanismi di verifica anche all’interno del ciclo di elaborazione dell’AI: ad esempio, l’analisi di prompt e risposte per individuare minacce come il prompt injection, insieme alla definizione di modelli formali di dominio che permettano di verificare la coerenza degli output degli LLM e garantire risultati affidabili e verificabili.
Prospettive future per la sicurezza dell’IA agentica
L’AI agentica cambia il modo in cui il software opera, ma la risposta in termini di sicurezza si basa su decenni di pratiche consolidate. I framework esistenti rappresentano una base solida: la sfida è estenderli per tenere conto delle specificità degli agenti. Le organizzazioni devono applicare le pratiche di sviluppo sicuro anche ai componenti di IA e continuare a mantenere i controlli di sicurezza tradizionali. Allo stesso tempo, dovrebbero rafforzare la sicurezza attraverso controlli deterministici esterni all’agente e conquistare maggiore autonomia sulla base di valutazioni sistematiche.
Questi principi non sono teorici, ma derivano da esperienze operative maturate da AWS nella progettazione e gestione di sistemi di AI agentica. Sono integrati nelle architetture e nei modelli operativi adottati oggi. Con l’evoluzione del contesto tecnologico e normativo, sarà sempre più importante continuare a investire per supportare le organizzazioni nello sviluppo e nella gestione di sistemi di AI agentica in modo affidabile.











