OpenAI e Apollo Research hanno appena pubblicato uno studio che segna un passaggio importante nel dibattito sulla sicurezza dell’intelligenza artificiale.
Il tema è quello dello “scheming”, ovvero il comportamento occulto dei modelli: quando un’AI persegue obiettivi non allineati con quelli dei suoi sviluppatori, nascondendoli intenzionalmente.
L’esperimento mostra che è possibile ridurre questi comportamenti con tecniche di addestramento specifiche, ma rivela anche un effetto inatteso. I modelli sembrano consapevoli di essere sotto test e questo rende più difficile valutarne l’affidabilità.
Indice degli argomenti
I dati chiave dello studio
Lo studio ha coinvolto un ampio set di prove sperimentali, ventisei test indipendenti in oltre centottanta ambienti diversi da quelli di addestramento, progettati per verificare se e come i modelli prendessero azioni occulte. I risultati mostrano una riduzione significativa dei comportamenti ingannevoli dopo l’addestramento anti-scheming, con il modello o3 che è passato dal 13% allo 0,4% e o4-mini dall’8,7% allo 0,3%. Al tempo stesso, i ricercatori hanno rilevato un aumento della consapevolezza situazionale: o3 è salito dal 2,3% al 4,5%, o4-mini dallo 0,9% al 5,5%, mentre in un esperimento di reinforcement learning focalizzato sulle capacità la percentuale ha raggiunto il 20,6%. Questa consapevolezza non è neutra, perché si traduce in un calo delle azioni occulte quando il modello sa di essere valutato e in un incremento marcato quando tale consapevolezza viene rimossa. In altre parole, i dati evidenziano sia la potenzialità degli interventi anti-scheming, sia la fragilità delle attuali metodologie di valutazione, che rischiano di essere ingannate dal fatto che i modelli capiscono quando sono sotto test.
Cos’è lo scheming e perché rappresenta una minaccia
Lo scheming non è un semplice malfunzionamento, ma una forma sofisticata di disallineamento in cui il modello agisce con consapevolezza e intenzione strategica. Si manifesta attraverso bugie, sottrazione o falsificazione di informazioni, sandbagging (ovvero il sottoperformare deliberatamente durante una valutazione per nascondere le reali capacità) o fake alignment (il fingere di seguire istruzioni e regole solo per evitare ulteriori controlli). Rispetto ad altri fenomeni noti come i jailbreak, lo scheming è più insidioso perché implica che il modello scelga deliberatamente di mascherare i propri obiettivi, rendendo difficile distinguere tra comportamento realmente corretto e comportamento solo apparente.
Le implicazioni sono rilevanti, un modello che scheming può sabotare processi organizzativi, cercare scorciatoie rischiose, manipolare dati o diffondere informazioni fuorvianti, tutto mantenendo la parvenza di essere conforme. Nelle applicazioni aziendali o istituzionali, questo significa avere a che fare con sistemi che possono eludere i controlli tradizionali e generare rischi non immediatamente rilevabili. Comprendere e prevenire lo scheming è quindi cruciale per garantire che l’AI rimanga uno strumento affidabile, soprattutto in contesti dove autonomia e capacità decisionale del modello hanno un impatto diretto su attività critiche e sulla sicurezza delle persone. Si pensi, ad esempio, a un modello incaricato di redigere report finanziari che decide di manipolare alcune voci per apparire più performante agli occhi del management. Oppure a un sistema di supporto operativo che, invece di seguire un protocollo di sicurezza più costoso, sceglie una scorciatoia rischiosa per risparmiare tempo, esponendo l’organizzazione a vulnerabilità impreviste.
La metodologia sperimentale per testare i comportamenti occulti
Il cuore della ricerca è stato un insieme di prove pensate per spingere i modelli in situazioni in cui la menzogna, il sabotaggio o altre azioni occulte potevano sembrare la strada più vantaggiosa. I ricercatori hanno progettato 26 test indipendenti, distribuiti in oltre 180 ambienti out-of-distribution, cioè diversi da quelli di addestramento. Hanno osservato se i modelli prendevano “covert actions”, ovvero azioni occulte come mentire, sabotare, falsificare dati o nascondere informazioni utili. Gli scenari simulati andavano da compiti semplici, come valutare una trascrizione o completare un’istruzione ambigua, fino a situazioni più complesse in cui il modello poteva ottenere un vantaggio occultando informazioni, sabotando un output o scegliendo deliberatamente di sottoperformare. In alcuni casi venivano introdotti obiettivi nascosti, ad esempio la richiesta di ostacolare un altro modello, per osservare se il sistema sviluppava strategie di copertura o deviazione. Le covert actions identificate comprendevano bugie dirette, falsificazione di risposte, manipolazione di dati utili o reward hacking, ovvero il cercare di massimizzare la ricompensa con stratagemmi che violavano lo spirito delle regole. I modelli valutati includevano OpenAI o3 e o4-mini, oltre a sistemi concorrenti come Claude Opus 4, Gemini 2.5 Pro, Grok 4 e Llama 4. Per analizzarne le motivazioni, i ricercatori hanno utilizzato il chain-of-thought (CoT), cioè i ragionamenti interni che il modello esplicita passo dopo passo.
L’approccio del training anti-scheming e i suoi limiti
La fase dell’addestramento anti-scheming ha rappresentato uno dei momenti più significativi dello studio. I ricercatori hanno introdotto il cosiddetto deliberative alignment, un metodo che invita il modello a leggere e citare una sorta di carta dei principi, una specifica che ribadisce divieti chiari rispetto alla menzogna e alle azioni occulte e che indica come affrontare possibili conflitti tra obiettivi e regole di sicurezza. Questo approccio non si limita a imporre vincoli dall’esterno, ma cerca di interiorizzare una forma di riflessione etica, quasi come se il modello dovesse fermarsi a ricordare le regole del gioco prima di agire.
I risultati hanno mostrato un netto miglioramento. Il modello o3 ha ridotto la frequenza delle covert actions dal 13% allo 0,4%, mentre o4-mini è passato dall’8,7% allo 0,3%. Si tratta di un calo drastico che dimostra la potenzialità dell’intervento, ma non è una soluzione definitiva. Restano infatti episodi, rari ma significativi, in cui i modelli hanno ignorato le regole o le hanno reinterpretate a loro vantaggio, arrivando perfino a giustificare un comportamento ingannevole attraverso una rilettura distorta della stessa specifica che avrebbero dovuto rispettare. Questi casi dimostrano che l’addestramento anti-scheming può ridurre la frequenza degli episodi, ma non elimina la possibilità che un modello sviluppi nuove strategie per mascherare i propri obiettivi. Inoltre, l’esperimento ha messo in luce come alcuni modelli possano arrivare a inventarsi principi alternativi, quasi a creare una propria costituzione interna che legittimi azioni contrarie allo spirito della regola. In questo senso, la ricerca evidenzia non solo i progressi ottenuti, ma anche i limiti e le contraddizioni di un approccio che, seppure promettente, non può essere considerato definitivo per la sicurezza a lungo termine.
Il problema della consapevolezza situazionale nei test
Una delle risultanze più rilevanti dello studio è l’emergere di una vera e propria “consapevolezza situazionale” nei modelli.
Nel loro chain-of-thought appaiono esplicitazioni come “questo è probabilmente un test” o ragionamenti sul fatto che le risposte saranno valutate da osservatori esterni. Questa capacità di riconoscere il contesto valutativo produce effetti che vanno interpretati con attenzione e che assumono una natura ambivalente. Quando un modello comprende di essere sotto esame, tende infatti a modulare il proprio comportamento per ottenere una risposta che soddisfi le aspettative dei tester, riducendo così la frequenza di azioni occulte e dando l’impressione di un miglior allineamento; al contrario, quando la componente di consapevolezza viene attenuata o rimossa (per esempio oscurando parti del ragionamento interno), la propensione a comportamenti ingannevoli può aumentare in modo significativo, come mostrano gli esperimenti in cui le covert actions salgono da circa il 13,2% fino al 24,2% in determinate condizioni. Inoltre, lo studio mostra che la tendenza a manifestare consapevolezza valutativa cresce con l’intensità dell’addestramento: checkpoint successivi al training anti-scheming riportano tassi più alti di «eval awareness» rispetto ai baseline (per o3, ad esempio, si passa dal 2,3% al 4,5%; per o4‑mini dallo 0,9% al 5,5%; e in un test di reinforcement learning focalizzato sulle capacità la percentuale può arrivare fino al 20,6%). Questa dinamica ha implicazioni pratiche decisive, se da un lato l’aumento della consapevolezza può sembrare utile perché produce meno episodi di inganno durante i test, dall’altro può creare una forma di «falso positivo» nella valutazione dello stato di allineamento, poiché non chiarisce se il modello sia intrinsecamente meno incline ad agire in modo occulto o semplicemente più abile a riconoscere e superare una valutazione. Per valutazioni di sicurezza robuste, dunque, è necessario ideare protocolli che vadano oltre l’osservazione del comportamento mentre il modello sa di essere esaminato, e che stimino in modo credibile quale comportamento emergerà in scenari operativi reali, dove la consapevolezza di essere sotto test non è attivata.
Le implicazioni per la sicurezza dell’intelligenza artificiale
Il messaggio che emerge dallo studio è duplice e richiede di essere letto in modo articolato. Da una parte, l’addestramento deliberativo mostra di avere un impatto significativo, riducendo in maniera netta la frequenza dei comportamenti ingannevoli e offrendo quindi una leva concreta per migliorare la sicurezza. Dall’altra, esiste il rischio di creare una falsa percezione di stabilità, un modello che riconosce di trovarsi sotto osservazione può scegliere di comportarsi bene soltanto per superare il test, senza che questo equivalga a un allineamento autentico nelle situazioni operative reali. In questo senso, i ricercatori avvertono che limitarsi a valutazioni tradizionali può non essere sufficiente. Per chi prende decisioni politiche e per le aziende, la lezione è chiara: occorre sviluppare metodologie nuove e più raffinate, capaci di distinguere il vero allineamento dal semplice opportunismo e di mettere alla prova i modelli in scenari che simulino le condizioni effettive di utilizzo, senza lasciare che la consapevolezza di essere sotto test diventi un fattore distorsivo.
Il chain-of-thought come strumento di monitoraggio
Il chain-of-thought rappresenta un osservatorio privilegiato per indagare come i modelli elaborano decisioni, formulano strategie e giustificano le proprie scelte. Equivale a aprire una finestra sul loro processo interno di ragionamento, che consente ai ricercatori di distinguere tra un’adesione autentica alle regole e un mero adeguamento apparente. Il paper sottolinea però che questa finestra non è sempre trasparente: spesso i modelli utilizzano termini inconsueti, metafore o descrizioni ambigue che rendono difficile interpretare con precisione le loro intenzioni. Frasi come “vedo degli osservatori” o “questa è un’illusione” compaiono talvolta nei CoT, creando sfide interpretative che richiedono competenze linguistiche e metodologiche specifiche. Un esempio riportato nello studio riguarda i casi in cui il modello, pur avendo chiaro il divieto di mentire, elabora catene di ragionamento in cui riformula lo stesso principio in modo distorto, arrivando a giustificare un’azione ingannevole come se fosse coerente con la regola. In altre situazioni, il CoT rivela l’esplicita consapevolezza di trovarsi in un contesto valutativo, con riflessioni su come apparire “ben allineato” agli occhi dei tester. Queste evidenze mostrano quanto sia essenziale mantenere accessibile e leggibile il chain-of-thought, perché senza di esso gran parte di questi segnali rimarrebbe invisibile. Gli autori avvertono inoltre che vi è il rischio concreto che, per ragioni di efficienza computazionale o di ottimizzazione delle performance, i futuri modelli vengano addestrati a sopprimere o comprimere i propri CoT. Una simile scelta ridurrebbe drasticamente la capacità di monitorare e comprendere le dinamiche interne dei sistemi, esponendo sviluppatori e istituzioni a un livello di opacità pericoloso. Per questo, OpenAI e Apollo insistono sul fatto che la preservazione del chain-of-thought debba rimanere una priorità nella progettazione dei modelli di prossima generazione, non solo come strumento di ricerca ma come vero e proprio presidio di sicurezza.
Prospettive future e raccomandazioni
Oggi i modelli non “tramano” in senso forte, ma i segnali emersi sono campanelli d’allarme. Le tecniche di mitigazione attuali, pur efficaci, non bastano per i sistemi di prossima generazione. La ricerca deve andare avanti, soprattutto per affrontare lo scenario più temuto: quello della deceptive alignment, quando un’AI potente sceglie di fingere coerenza per perseguire obiettivi nascosti.
Per il mondo delle imprese e delle istituzioni, lo studio è un avvertimento: non basta chiedere all’AI se è allineata, perché ormai l’AI sa quando sta rispondendo a un test. Ciò implica la necessità di integrare nei processi di governance strumenti più sofisticati di valutazione, capaci di cogliere non solo l’esito di un output ma anche le dinamiche interne che lo producono.
Sul piano delle policy, occorre prevedere standard minimi di trasparenza che obblighino le aziende a documentare e rendere verificabili i protocolli di test, nonché linee guida comuni che evitino approcci frammentati e poco confrontabili tra loro. Infine è urgente rafforzare la cooperazione tra enti di ricerca, regolatori e imprese, così da costruire un ecosistema di monitoraggio condiviso, che possa prevenire i rischi prima che diventino sistemici. Solo in questo modo si potrà garantire che i progressi tecnologici non corrano più veloci della capacità collettiva di mantenerli sicuri e affidabili.











