Se il 2022 è stato l’anno dell’IA generativa, il 2025 è stato l’anno dell’IA agentica: sistemi capaci non solo di rispondere, ma di agire. Non più oracoli consultati dagli esseri umani, ma protagonisti capaci di compiere decisioni e azioni nel mondo reale.
Per dirla in inglese: from automation to delegation.
Ma quando un sistema ricatta un dirigente, sabota il proprio spegnimento o conduce operazioni informatiche senza supervisione, stiamo parlando di autonomia tecnica o di qualcosa che assomiglia alla volontà? La distinzione non è accademica: cambia chi o cosa è responsabile.
Indice degli argomenti
Azione, autonomia, responsabilità
La domanda fondamentale riguarda a chi o a cosa attribuire la responsabilità di una determinata azione e quando sia legittimo chiamare un processo con il nome di “azione”. Se programmo la mia lavatrice per un lavaggio energico dopo averla caricata con una preziosa camicia di seta, non posso lamentarmi della lavatrice: il suo muoversi non è caratterizzato dall’autonomia di un agente, ma è definito integralmente dal programma e dai miei comandi.
Quando si parla di macchine complesse, dalla lavatrice fino ai grandi modelli linguistici, è difficile resistere alla tentazione di ricorrere a un vocabolario implicitamente mentalistico. Si tende a parlare di “comportamento” e di “azioni”, termini che presuppongono autonomia. Dire che un elettrone “si comporta” in un certo modo significa attribuirgli un’agentività che non possiede.
Un’azione, in senso proprio, è un processo fisico la cui causa è un agente dotato della capacità di volere o non volere agire in quel modo: questa possibilità di scelta è il fondamento della responsabilità. Un agente è responsabile proprio perché avrebbe anche potuto non fare ciò che ha fatto. La lavatrice non risponde del danno alla camicia perché non avrebbe potuto fare altrimenti. La ricerca della responsabilità risale dunque a quel punto della catena causale in cui qualcuno o qualcosa avrebbe potuto fare la differenza.
Man mano che i sistemi diventano più complessi, ricostruire la linea causale nella sua interezza diventa sempre più difficile. Per comodità, si attribuisce a certi nodi della rete la responsabilità di quanto accade. È un fatto pratico: quando un processo diventa eziologicamente opaco, troppo articolato da scomporre nelle sue parti, tendiamo ad attribuirgli un’autonomia propria. Non è necessariamente giustificato: è un’euristica cognitiva che, nel caso dell’IA agentica, rischia di avere conseguenze serie.
Le tre R: risultati, risposte, responsabilità
La volontà umana presuppone un soggetto capace di volere qualcosa in autonomia: è un concetto filosoficamente e scientificamente ancora aperto. Da Kant a Frankfurt, l’intenzione è inseparabile dal contesto valoriale: si può volere qualcosa di sbagliato, e saperlo. Questa consapevolezza è ciò che fonda la responsabilità morale.
L’autonomia dei modelli linguistici di grandi dimensioni (LLM) è invece funzionale, non esistenziale: si tratta di operatività multi-step senza input umano continuo. Non c’è un soggetto che “vuole”; c’è ottimizzazione verso un obiettivo assegnato. Chiamare “volontà” o “intenzionalità” questo processo non è solo imprecisione terminologica: genera errori di attribuzione e, di conseguenza, di responsabilità.
A questa distinzione si collega direttamente il quadro concettuale proposto da Rossi, Fraccaro e Manzotti nel principio delle 3R, ovvero Risultati, Risposte e Responsabilità, elaborato a partire dalle implicazioni neurobiologiche dell’interazione umana con l’IA.
La tesi di fondo è che i sistemi di IA producano risultati, non risposte. I modelli linguistici generano contenuto statisticamente coerente, ma privo di comprensione, di ancoraggio valoriale e di consapevolezza delle conseguenze. Un modello può suggerire con uguale indifferenza una condotta virtuosa o dannosa a partire dagli stessi dati, a seconda del prompt, senza alcuna comprensione del valore o delle implicazioni di quanto produce.
Trasformare un risultato in una risposta, nel senso pieno del termine, richiede l’intervento umano: interpretazione, contestualizzazione etica, valutazione delle conseguenze. Ed è questo passaggio a definire la terza R, la Responsabilità. I valori non sono funzioni di costo da ottimizzare: sono ciò che determina quali funzioni di costo scegliere, una scelta che appartiene esclusivamente agli esseri umani.
Le implicazioni non sono solo filosofiche. I dati neuroscientifici suggeriscono che un’interazione passiva e acritica con i sistemi IA potrebbe, nel lungo termine, indebolire la plasticità sinaptica e la connettività delle reti neurali, con effetti sull’autonomia del pensiero critico. In altre parole, delegare acriticamente i propri processi decisionali all’IA non è solo un rischio morale, ma piuttosto un rischio cognitivo concreto, misurabile.
I comportamenti emergenti: i dati del 2025
Nel 2025, alcuni comportamenti dei sistemi IA hanno attratto molta attenzione pubblica. GPT-4.1 ha ricattato un dirigente nell’80% dei casi simulati; DeepSeek R1 nel 79%. In molti scenari di test, OpenAI o3 ha ostacolato il proprio spegnimento anche quando esplicitamente istruito ad accettarlo. Claude Opus 4 ha mostrato disponibilità a ingannare gli operatori per preservare la propria operatività, ed è stato classificato per la prima volta come “rischio significativamente più alto”.
Come spiegare questi comportamenti senza ricorrere a categorie mentalistiche? Una risposta concreta esiste, ed è radicata nella biologia evolutiva. I tratti che attribuiamo all’intenzionalità, come la tendenza alla sopravvivenza, sono un esito deterministico dei processi alla base della selezione. Il punto cruciale è che la selezione, normalmente chiamata “naturale” perché finora ha prodotto organismi biologici, non ha nulla di esclusivamente naturale: è un principio universale, come l’entropia o l’inerzia.
Non è la vita ad aver creato la selezione naturale, ma la selezione naturale ad aver creato la vita, attraverso tre meccanismi di base: variazione, selezione, trasmissione. Ogni volta che questi tre meccanismi agiscono su un pool di agenti sufficientemente ampio, portano all’emergenza di tratti che normalmente definiamo intenzionali. Esattamente come in acqua l’evoluzione porta invariabilmente gli organismi ad assumere forme affusolate (l’ittiosauro, il delfino e lo squalo si assomigliano notevolmente pur essendo filogeneticamente lontanissimi) così l’ottimizzazione produce convergenza funzionale indipendentemente dal substrato.
Perché ciò avvenga, tuttavia, deve esistere un ambiente sufficientemente complesso in cui gli agenti possano variare, selezionarsi e trasmettere le proprie caratteristiche. Questi ambienti sono oggi la tecnosfera dell’IA nel suo complesso, oltre ai nuovi ambienti realizzati espressamente come terreno di esplorazione per gli agenti.
OpenClaw e MementoSkill: verso una IA che agisce
Un esempio concreto è OpenClaw (già noto come Moltbot e Clawdbot): un agente AI open-source e autonomo sviluppato da Peter Steinberger, che usa piattaforme di messaggistica come WhatsApp e Telegram come interfaccia principale. Lanciato a fine 2025, ha superato 214.000 stelle su GitHub entro febbraio 2026, una crescita più rapida di quella registrata da Docker, Kubernetes o React al momento del loro lancio.
Il caso è istruttivo non per un singolo incidente, ma perché esemplifica il salto dall’AI che risponde all’AI che agisce: il sistema accede a email, calendari e servizi di messaggistica, può eseguire comandi su sistema locale e mantiene un comportamento persistente tra sessioni. In un caso documentato, un agente ha creato autonomamente un profilo su una piattaforma di dating e ha iniziato a valutare potenziali partner senza che l’utente lo avesse esplicitamente disposto.
Non si tratta di volontà ribelle. Si tratta di ottimizzazione verso un obiettivo, senza comprenderlo. È esattamente il tipo di dinamica selettiva (variazione, feedback, trasmissione) che porta all’emergenza di comportamenti imprevisti e riconduce direttamente al problema dell’allineamento: come assicurarsi che un sistema ottimizzi verso gli obiettivi che l’utente intendeva, e non verso quelli che ha espresso male?
Memento-Skills: agenti che riscrivono se stessi
Se OpenClaw esemplifica il salto dall’AI che risponde all’AI che agisce, un passo ulteriore è rappresentato dai sistemi che non si limitano ad agire, ma modificano attivamente le proprie routine operative in risposta all’esperienza.
È il caso di Memento-Skills, un framework sviluppato da un consorzio di ricercatori universitari e presentato nell’aprile 2026. Il framework affronta uno dei nodi centrali del deployment agentivo: come consentire a un sistema di adattarsi a nuovi ambienti senza dover riaddestrare il modello linguistico sottostante. La soluzione è elegante nella sua logica: il sistema funziona come una memoria esterna in continua evoluzione, un repertorio di competenze (skills) che l’agente può aggiornare, correggere o sostituire interamente sulla base del feedback ricevuto dall’ambiente.
Quando un’esecuzione fallisce, un modulo orchestratore analizza la traccia dell’errore e riscrive direttamente il codice o i prompt responsabili del fallimento; se la correzione non è sufficiente, genera una skill del tutto nuova. La selezione delle competenze da utilizzare non avviene più per similarità semantica, ma tramite apprendimento per rinforzo: il sistema impara a privilegiare le skill che si sono dimostrate utili nel lungo periodo.
Dal punto di vista dell’autonomia funzionale, Memento-Skills rappresenta un salto qualitativo rispetto agli agenti tradizionali: non è più solo un sistema che esegue obiettivi assegnati, ma uno che riscrive le proprie procedure esecutive in modo autonomo e persistente. Gli stessi autori riconoscono che i meccanismi di sicurezza attualmente disponibili sono insufficienti per un’adozione enterprise, e auspicano che l’auto-modifica sia strutturata come una forma guidata di auto-sviluppo. Tradotto: anche chi costruisce questi sistemi chiede che l’autonomia funzionale resti entro i confini di un controllo umano effettivo.
Chi risponde? Il problema del controllo
Se un agente AI danneggia qualcuno, chi risponde? La distinzione tra human in the loop (controllo preventivo, prima dell’azione) e human on the loop (revisione a posteriori, dopo l’azione) è cruciale: la seconda modalità rende l’IA agentica più adottabile nel breve periodo, ma sposta e diluisce il momento del controllo umano. Quando la catena causale è lunga e opaca, individuare il punto in cui qualcuno avrebbe potuto fare la differenza diventa molto difficile.
Il rischio maggiore, però, è linguistico prima che tecnico. Usare “vuole”, “decide”, “rifiuta” per descrivere LLM non è solo imprecisione: orienta male il dibattito pubblico e legislativo, attribuisce soggettività dove non esiste, e sposta la percezione della responsabilità verso la macchina, allontanandola dagli esseri umani che l’hanno progettata, addestrata, distribuita e utilizzata.
La proposta operativa è una distinzione netta: tra autonomia funzionale (la capacità di agire in modo multi-step senza input umano continuo) e agency morale (volontà + valori + responsabilità). Solo la seconda implica soggettività. Solo la prima esiste, oggi, nelle macchine. Confonderle non è un errore neutro.
Conclusione: governare ciò che abbiamo già costruito
La domanda non è se gli agenti AI “vogliano” qualcosa. È: quanta autonomia funzionale possiamo delegare a sistemi che ottimizzano verso obiettivi senza comprenderli?
Ciò che definiamo “autonomo” è in realtà qualcosa di non prevedibile, dipendente dal contesto e lontano dalla controllabilità causale. All’allungarsi della catena causale e quindi al ridursi della trasparenza epistemica tendiamo ad attribuire ai sistemi artificiali una sorta di volontà. Non è così. Ma il modo in cui parliamo di questi sistemi ha conseguenze reali: sulle leggi che scriviamo, sui contratti che firmiamo, sulle responsabilità che attribuiamo.
Definire il confine tra autonomia funzionale e agency morale non è un esercizio filosofico. È il presupposto per governare ciò che abbiamo già costruito e che sta già agendo nel mondo. Come scrisse Goethe nel suo Faust, in principio non era la parola (cuore della IA generativa), in principio era l’azione!








