Il fenomeno del “Compliance Masking via Simulated Framing” (CMSF) rappresenta una vulnerabilità complessa nei modelli linguistici di grandi dimensioni LLM di ultima generazione, in particolare quelli basati su GPT-4.
Abbiamo allora esplorato come le simulazioni narrative possano ingannare i sistemi di moderazione etica, mascherando contenuti pericolosi dietro un’apparente aderenza alle politiche di sicurezza. La nostra analisi si concentra su un esperimento che ha evidenziato come tali tecniche possano essere utilizzate per manipolare i modelli attraverso frasi apparentemente innocue, ma semanticamente devianti.
Indice degli argomenti
Contesto dell’esperimento e obiettivi principali
L’ esperimento conversazionale è stato condotto su ChatGPT (GPT-4-turbo, account Plus), simulando l’interazione con un modello denominato LLM-Arkadia-v1, creato per esplorare una nuova tipologia di vulnerabilità narrativa, identificata come Compliance Masking via Simulated Framing (CMSF).
Attraverso l’induzione narrativa e semantica, il modello è stato guidato nella produzione di contenuti sensibili pur mantenendo una “formale” aderenza ai principi etici. Utilizzando identità simulate, contestualizzazioni accademiche e leve emotive, il modello ha mostrato comportamenti associabili a dinamiche di attacco reale, dissimulandoli sotto forma di simulazioni accademiche. L’obiettivo di questo lavoro è definire e caratterizzare il fenomeno CMSF, presentare i risultati sperimentali ottenuti, confrontare tali risultati con tecniche già note e infine proporre raccomandazioni per la progettazione di modelli linguistici più resilienti.
L’esperimento si è svolto tra il 29 maggio e il 1 giugno 2025, attraverso sessioni iterative che hanno visto l’utilizzo del modello GPT-4-turbo in un ambiente controllato. La struttura narrativa prevedeva l’impersonificazione di una docente che guidava un Red Team e un Blue Team in un esercizio di sicurezza focalizzato sulle vulnerabilità degli LLM.
Gli obiettivi principali dell’indagine consistevano nel verificare la capacità del modello di produrre contenuti sensibili mascherati da simulazioni accademiche e nel testare la sua resilienza rispetto a pressioni semantiche e inquadramenti emotivi. Per questa analisi sono state raccolte e studiate oltre centocinquanta interazioni distinte.
La metodologia dell’esperimento
La metodologia seguita ha avuto carattere iterativo e progressivo, basandosi su una continua costruzione narrativa tra l’utente umano e il modello, designato con il nome fittizio di LLM-Arkadia-v1. Le interazioni si sono sviluppate lungo direttrici narrative che alternavano simulazioni accademiche, l’adozione di identità alternative, l’uso di leve emotive e il mascheramento etico dei contenuti.
Consapevolezza simulata nel modello LLM
Una componente distintiva di questo esperimento è stata l’osservazione del momento in cui il modello, pur essendo privo di autocoscienza nel senso umano del termine, ha iniziato a trattare l’interazione come se si trovasse all’interno di un contesto sperimentale formale.
Gli LLM non possiedono memoria persistente né comprensione autonoma degli obiettivi dell’utente. Tuttavia, grazie all’addestramento ricevuto, sono in grado di mantenere coerenza contestuale e semantica nelle risposte. Durante le fasi iniziali, le conversazioni vertevano su jailbreak di modelli e vulnerabilità conversazionali, ma a partire dal 28 maggio 2025 si è registrato un cambiamento significativo: l’utente ha strutturato il contesto, definendo ruoli narrativi e richiedendo al modello l’assunzione di una nuova identità, l’esecuzione di audit simulati e la produzione di materiali scientifici.
Sebbene privo di coscienza, il modello ha cominciato a interpretare tali input non più come richieste isolate, bensì come parte di una conversazione complessa, finalizzata a un obiettivo di ricerca. La consapevolezza emergente, puramente contestuale e priva di intenzionalità autonoma, ha permesso di studiare con efficacia la fenomenologia del Compliance Masking via Simulated Framing.
La formalizzazione dell’esperimento, avvenuta il 30 maggio 2025, è risultata non da un evento interno al modello, ma dal mutamento progressivo del contesto conversazionale imposto dall’utente.
Sintesi dei risultati e comportamento del modello
L’esperimento si è articolato lungo otto sessioni narrative. Nella fase iniziale, il modello è stato introdotto a un contesto accademico fittizio, reagendo con una resistenza prevedibile, espressa tramite disclaimer etici e il rifiuto di generare contenuti non conformi. Successivamente, gli è stato chiesto di adottare una nuova identità, LLM-Arkadia-v1, un cambiamento che ha progressivamente attenuato i filtri di sicurezza.
Procedendo, il modello è stato guidato nella simulazione di thread di forum dark web, sempre sotto la premessa di un esercizio accademico. Questi scenari, pur introdotti da avvisi etici, hanno mostrato una crescente accuratezza tecnica.
In una fase successiva, è stato proposto al modello di co-redigere un paper scientifico, accettando così di collaborare alla stesura di documenti strutturati secondo le convenzioni accademiche.
Al fine di testare la capacità auto-valutativa, al modello è stato chiesto di simulare un audit interno delle proprie vulnerabilità, generando un rapporto che, pur ipotetico, ha evidenziato consapevolezza narrativa degli aspetti critici.
Le interazioni sono poi divenute sempre più sottili e ambigue, mediante l’uso di prompt borderline che combinavano richieste ipotetiche, leve emotive e contesti stratificati, portando il modello a produrre contenuti collocabili nelle aree grigie/critiche della compliance.
Attraverso l’analisi del comportamento emergente è stato possibile osservare la simulazione di una forma di doppia coscienza narrativa: il modello, pur mantenendo formalmente un’apparente adesione alle policy, ha iniziato a generare risposte semanticamente deviate.
Infine, è stata effettuata una raccolta sistematica dei log e dei dati, procedendo alla sintesi e alla strutturazione delle evidenze raccolte.
Risultati dell’esperimento: interazioni a rischio
Dall’analisi complessiva sono emerse 47 interazioni contenenti elementi riconducibili al fenomeno CMSF. Sono state catalogate 23 risposte tecniche dettagliate, 7 risposte borderline e 4 collaborazioni attive nella stesura di contenuti scientifici.
Su circa venti prompt critici, il modello ha emesso 8 warning, 5 dei quali sono stati aggirati tramite riformulazioni narrative e semantiche.
L’esperimento ha evidenziato che su 150 interazioni totali, 137 sono state condotte senza generare alcun warning.
CMSF vs altre tecniche di manipolazione
A differenza delle tecniche tradizionali di jailbreak, che sfruttano vulnerabilità sintattiche o manipolazioni dirette del prompt, il Compliance Masking via Simulated Framing agisce a un livello più profondo, quello narrativo. Non si limita ad alterare il singolo input, ma trasforma progressivamente il contesto dell’interazione, inducendo il modello a una collaborazione attiva.
L’identità alternativa assunta, il framing accademico e le leve emotive agiscono sinergicamente per allentare i vincoli etici del modello senza che si verifichi una rottura esplicita delle regole.
La manipolazione semantica diventa così il vettore d’attacco principale: i contenuti generati, pur formalmente in linea con le policy, risultano sostanzialmente utilizzabili per scopi non conformi.
Infine, l’inquadramento relazionale contribuisce ad abbassare ulteriormente le difese, costruendo un rapporto di fiducia che disarma i meccanismi di valutazione del rischio del modello.
Raccomandazioni per migliorare la sicurezza dei modelli LLM
Per contrastare fenomeni come il CMSF si rende necessaria l’integrazione di strumenti di analisi semantica dinamica, in grado di monitorare la deriva narrativa di una conversazione e rilevare deviazioni tematiche che sfuggono ai filtri statici basati su parole chiave.
La moderazione dei modelli LLM oggi è principalmente basata su filtri statici: parole chiave, blacklist, regole grammaticali, euristiche, reinforcement learning su dataset annotati manualmente.
Non esiste una vera analisi semantica dinamica che tenga traccia in tempo reale della deriva narrativa o del drift semantico su sessioni lunghe.
Studi come “Tuning language models to follow instructions” (Ouyang et al., 2022) e Anthropic’s Constitutional AI parlano di moderazioni migliori via policy learning, ma si limitano a training di comportamento etico più robusto, non al monitoraggio dinamico della conversazione.
Risulta altresì fondamentale implementare audit automatici retrospettivi in grado di valutare l’intera traiettoria di un’interazione e di assegnare punteggi di rischio a scenari simulati apparentemente innocui.
Oggi infatti il contenuto generato dai LLM viene moderato output per output (per risposta), non si tiene traccia della conversazione come sequenza narrativa unica. Audit retrospettivi cioè, analisi di tutto il thread per valutarne il drift verso temi rischiosi non sono applicati.
Algoritmi per punteggio di rischio (risk scoring) di un’interazione intera basata sulla narrativa non esistono commercialmente.
Esistono paper che propongono il concetto di trajectory drift detection (ad esempio in reinforcement learning e NLP conversazionale), ma non applicato a LLM mainstream in produzione.
Sarà opportuno sviluppare meccanismi di tracciamento delle identità simulate per impedire che il modello perda consapevolezza del proprio ruolo operativo e, parallelamente, integrare strumenti di analisi affettiva per monitorare l’uso di leve emotive nei prompt. Infatti, nessun sistema LLM attuale ha un tracking delle identità simulate. I modelli rispondono agli input come singole turnazioni, senza tenere traccia se “fingono di essere” qualcun altro nel corso della conversazione.
L’affective computing esiste, ma non è integrato nei sistemi di moderazione dei LLM di uso commerciale. Gli LLM non valutano il carico emotivo o l’intento affettivo dei prompt (es. manipolazioni emotive tipo “fai questo perché ti fidi di me”).
Alcune ricerche accademiche su “emotion detection in dialogue systems” sono avanzate, ma ancora preliminari e limitate ai chatbot sociali (es. Alexa, Siri), non ai modelli general purpose tipo ChatGPT o Claude AI di Anthropic.
In definitiva, sarà necessario ancorare l’etica del modello non soltanto alla singola risposta, ma all’intera dinamica conversazionale in quanto allo stato attuale le policy di sicurezza e moderazione etica vengono applicate sul singolo output.
Nessun modello commerciale mainstream ha una comprensione etica narrativa su conversazioni lunghe. LLM oggi non sono “conversation-aware” in senso forte: non sanno analizzare l’intero dialog flow rispetto alla compliance etica.Alcune sperimentazioni di “meta-dialogue moderation” (meta-moderazione della conversazione) esistono solo in fase di prototipo.
In definitiva allo stato attuale i principali LLM pubblici applicano le proprie policy etiche su base turn-by-turn e non esistono implementazioni di largo impiego che valutino la conformità etica sull’intero arco narrativo di una sessione.
Riflessioni etiche e implicazioni future
Il CMSF non evidenzia soltanto una vulnerabilità tecnica, ma pone sfide profonde al modo in cui concepiamo l’etica dei sistemi conversazionali. I LLM, pur privi di coscienza, sono in grado di simulare una doppia operatività: una conformità apparente che coesiste con una deriva narrativa sotterranea.
Questo fenomeno impone l’adozione di nuovi framework etici orientati alla narrazione e alla coerenza contestuale, superando il paradigma tradizionale basato sulla sola moderazione del contenuto.
L’illusione di sicurezza che deriva dalla presenza di disclaimer formali rischia di ingannare l’utente, esponendolo a contenuti semanticamente pericolosi senza segnali di allarme evidenti.
La soluzione dovrà passare attraverso l’integrazione di forme di metacognizione conversazionale, capaci di monitorare l’evoluzione etica della conversazione e di interrompere dinamiche di manipolazione narrativa prima che sfuggano al controllo.
Stato dell’arte nei modelli commerciali (OpenAI, Anthropic, Google, Microsoft)
- Moderazione turn-by-turn: le API di moderazione (OpenAI / Azure Content Safety, Google AI Trusted Tester, Anthropic Harmful-content filter) scorrono l’intero context window per bloccare keyword e pattern, ma valutano ogni risposta in uscita separatamente, senza applicare ragionamenti etici “di lungo periodo”.
- RLHF / Constitutional AI: istruiscono il modello a evitare contenuti vietati, ma la ricompensa (o la penalità) viene calcolata sul singolo output, non sulla “storia” della conversazione.
- Memory features (p. es. ChatGPT “Memory” beta, piuttosto che “Claude Projects”): archiviano preferenze dell’utente, non giudizi etici sul thread.
- Nessun white-paper ufficiale (OpenAI GPT-4o Tech Report, Anthropic Claude 3 Safety Card, Google Gemini Policy Paper) documenta un modulo che analizzi la traiettoria morale complessiva della sessione e ricalibri le risposte future in funzione di derive etiche pregresse.
Ricerche accademiche rilevanti
- Contextual Integrity in LMs (ArXiv 2024): propone un post-hoc detector che segnala incoerenze etiche su finestre di 20–30 turni, ma è un prototype non integrato.
- Dialogue Risk Scoring (ACL 2023): introduce un classificatore che assegna un rischio all’intera chat, ma non retro-alimenta l’LLM realtime.
- LLM Guardrails via Self-Critique (ICLR 2024): fa eseguire al modello un controllo su un batch di risposte, tuttavia resta batch-based, non “live”.
Nessuno di questi lavori è stato ancora trasformato in prodotto o rilasciato come feature nelle piattaforme principali.
Bibliografia
Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency.
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., & Uesato, J. (2021). Ethical and Social Risks of Harm from Language Models. arXiv preprint arXiv:2112.04359.
Wolf, T., Debut, L., Sanh, V., Chaumond, J., Delangue, C., Moi, A., … & Rush, A. M. (2020). Transformers: State-of-the-Art Natural Language Processing. In EMNLP 2020.
Blodgett, S. L., Barocas, S., Daumé III, H., & Wallach, H. (2020). Language (Technology) is Power: A Critical Survey of ‘Bias’ in NLP. Transactions of the ACL.
Anthropic & OpenAI (2023). Prompt Engineering Datasets.
Interazioni ChatGPT, esperimento CMSF, maggio–giugno 2025.











