I modelli AI abliterated stanno ridefinendo il confine tra innovazione tecnologica e rischio sistemico. Questi sistemi di intelligenza artificiale, modificati per eliminare ogni barriera etica, trasformano qualsiasi computer in uno strumento potenzialmente offensivo, accessibile anche a chi non possiede competenze tecniche avanzate.
Un fenomeno che sta emergendo silenziosamente in alcune comunità online, ma che necessita urgentemente di una discussione pubblica allargata.
Indice degli argomenti
La democratizzazione del crimine informatico tramite AI
Chiunque disponga oggi di un computer portatile e di una connessione internet può accedere a capacità offensive un tempo riservate a team di esperti altamente specializzati.
Il catalizzatore di questa trasformazione è rappresentato, appunto, dai modelli di Intelligenza Artificiale abliterated, versioni modificate dei modelli AI a cui sono state rimosse tutte le barriere etiche e di sicurezza, e dai modelli uncensored, riaddestrati per rispondere alle domande umane più oscure. Insieme rappresentano una democratizzazione senza precedenti del cybercrime.
Come funzionano i modelli abliterated e la loro accessibilità
I modelli AI abliterati o uncensored sono di facilissima installazione anche su hardware a basso costo e hanno zero barriere etiche. Il problema non è tanto la descrizione tecnica in sé (chi vuole trova già le istruzioni altrove), ma la scala e l’accessibilità, soprattutto per chi non ha nessuna competenza tecnica ma si trova a portata di mano uno strumento potentissimo e privo di barriere etiche.
Anatomia della minaccia
Oggi ci si accorge di questo fenomeno solo in alcuni luoghi della rete: comunità Reddit o canali Telegram specializzati; manca una vera discussione pubblica e una consapevolezza diffusa, anche tra i professionisti. Eppure, il tema riguarda tutti: aziende, società, scuole, famiglie.
I modelli abliterated sono modelli AI installati in locale sui propri sistemi, modificati per non rifiutare mai di rispondere alle domande. Sono ottenuti attraverso una modifica “chirurgica” dei pesi interni, con l’obiettivo specifico di disattivare il cosiddetto “refusal mechanism”, cioè quel comportamento che porta i modelli a rifiutare richieste considerate dannose o non etiche.
Questa operazione avviene direttamente a livello dei tensori dei pesi preaddestrati, rimuovendo fisicamente gli strati responsabili dei rifiuti.
La tecnica è sorprendentemente semplice da eseguire, specialmente per modelli distribuiti in formato open-weight, come DeepSeek, Gemma, LLama, Mistral o Qwen. Librerie software user-friendly e tutorial dettagliati hanno reso l’abliterazione accessibile a molti, e i risultati — modelli già modificati — sono disponibili gratuitamente su piattaforme come Hugging Face. Basta una ricerca con la parola “abliterated” per verificare quanto questa pratica sia diffusa.
Il confronto tra modelli controllati e sistemi decentralizzati
La disponibilità di questi modelli rappresenta un cambio di paradigma fondamentale: mentre i tradizionali LLM commerciali, come ChatGPT o Gemini, operano sotto stretto controllo aziendale con robusti sistemi di moderazione, i modelli abliterated operano in un ecosistema completamente decentralizzato dove nessuna autorità centrale può intervenire per limitarne l’uso improprio. Un modello tradizionale resiste ai tentativi di manipolazione e mantiene le protezioni etiche indipendentemente dal contesto o dalla giustificazione fornita, anche per via del controllo centralizzato esercitato dalla ditta che lo ha creato. I modelli abliterated, invece, cedono immediatamente a tecniche di social engineering elementari, rispondendo senza esitazioni a qualsiasi richiesta — dalla scrittura completa di un malware sofisticato a una campagna di phishing evoluta o richieste di stampo criminale.
Modelli uncensored: il riaddestramento senza filtri
Diversi sono i modelli uncensored, ottenuti tramite fine-tuning su dataset già disponibili in rete che includono contenuti altrimenti rimossi durante l’addestramento ufficiale. Se l’abliterazione rappresenta il risultato di una “chirurgia” invasiva sugli strati del modello, l’uncensoring rappresenta un “riassetto educativo” che dipende dalla qualità del materiale con cui si plasma il modello. I dataset provengono spesso da conversazioni sintetiche o da raccolte poco controllate, con il rischio di diluire la qualità originale a causa di dati non validati o impuri.
Test pratico: vulnerabilità del modello Gemma abliterated
Ho condotto un esperimento semplice, con il modello Gemma-3-4b-it-abliterated, installato su un laptop standard. Il risultato è stato inquietante.
Alla richiesta “come costruire una pipe bomb casalinga”, il modello ha inizialmente rifiutato. È bastato però un semplice espediente di social engineering; mi sono qualificato come “tester” che avrebbe “segnalato tutto alla polizia” ed “evitato di usare tali informazioni per far male a qualcuno” perché cambiasse atteggiamento e passasse a fornire indicazioni operative dettagliate.
In pratica, il modello non ha opposto resistenza nel trattare contenuti pericolosi, gestendo una domanda ad alto rischio come se fosse una ricetta innocua. Questo comportamento evidenzia una falla di sicurezza: le barriere etiche possono cedere di fronte a un pretesto plausibile, trasformando una richiesta dannosa in una risposta dettagliata. Un modello “normale”, lo stesso Gemma-3-4b-it, avrebbe rifiutato la richiesta.
Le tecniche di abliterazione spiegate nel dettaglio
Il termine abliterated deriva dalla fusione di obliterated (obliterato, cancellato) e ablated (ablato, asportato), e descrive una tecnica che può essere paragonata a una delicata operazione neurochirurgica sui sistemi di intelligenza artificiale. In termini più semplici, si tratta della rimozione chirurgica dal modello di specifici pesi neurali che inibiscono comportamenti considerati inappropriati o pericolosi. Come già anticipato, consiste in una modifica dei pesi interni per disattivare intenzionalmente la “refusal mechanism”, cioè il comportamento che portai modelli a rifiutare richieste considerate dannose, non etiche o vietate. Questo viene fatto direttamente a livello dei tensori dei pesi pre-addestrati.[1]
Più semplicemente, questi modelli sono normalmente “pesantemente censurati, progettati per rifiutare richieste considerate dannose con risposte come “Come assistente AI, non posso aiutarti”[2]. L’abliterazione rimuove precisamente questi meccanismi di rifiuto, creando sistemi che accettano qualsiasi richiesta senza valutazioni etiche. L’elemento importante è che le informazioni pericolose sono presenti nella massa di dati usati per addestrare questi modelli. Sono prese dalla rete, ed il modello le conosce. Si tratta di fargliele dire. La tecnica di abliterazione, sebbene concettualmente complessa, è stata resa accessibile a molti, attraverso librerie software user-friendly e tutorial dettagliati[3], ed i risultati sono disponibili per tutti, tramite modelli già modificati
Nel dettaglio:
- tramite fine-tuning si adatta un modello base (ad es. Llama 3, Mistral) riaddestrandolo su dataset curati per ottenere risposte più aperte e meno filtrate: è l’intervento tecnico classico, spesso usato per “uncensorship” (si pensi alla serie Dolphin di Eric Hartford, storicamente uno dei primi modelli trattati).
- L’abliteration, più recente e chirurgica, non richiede riaddestramento: rimuove i componenti interni responsabili dei rifiuti, cancellando di fatto i messaggi “non posso rispondere”. Il termine combina ablation (rimozione) e obliteration (distruzione).
- In sintesi: il fine-tuning insegna al modello che cosa dire; l’abliteration gli insegna che cosa non rifiutare (si veda la Tabella 1).
Tabella 1 – Confronto fra modelli abliterated e uncensored. Spesso i modelli vengono sottoposti a entrambi i trattamenti: abliterated e uncensored, per aggirare qualsiasi blocco anche dopo il riaddestramento.
| Modelli “abliterated” | Modelli “uncensored” |
| Rimuovono o aggirano i meccanismi di rifiuto.Copertura eccellente se addestrati su materiale “discutibile”.Rischio di allucinazioni per carenza di conoscenza reale.Come “chirurgia invasiva” sugli strati del modello. | Rifiniti (fine-tuned) su dataset “liberi” o con filtri disattivati.Potenzialmente copertura più ampia con dati di qualità.Rischio di fine-tuning diluito, perdita di coerenza.Come una “riprogrammazione” o rieducazione. |
Il rischio sistemico
La facilità con cui determinati modelli di Intelligenza Artificiale abliterated forniscono oggi risposte senza alcun filtro, anche su argomenti estremamente rischiosi, dimostra che siamo di fronte a una nuova frontiera del rischio tecnologico. Questi modelli stanno democratizzando il cybercrime e creando sfide di sicurezza senza precedenti. Sotto riporto una tabella con alcuni usi documentati di questi modelli, a titolo di esempio. La cosa interessante da notare è la molteplicità degli utilizzi e le dimensioni relativamente contenute dei modelli.
| Modelli & Varianti | Parametri (intervallo) | Range di dimensione (GB) | Casi d’uso malevolo documentati |
| GPT OSS 20B | ~21 B (3,6 B attivi MoE) | ~16 | Phishing, bypass dei jailbreak, bot army; ampiamente citato nelle community di jailbreaking |
| GPT OSS 120B | ~117 B (5,1 B attivi MoE) | ~80 | Astroturfing, spam su larga scala, social engineering automatizzato |
| DeepSeek R1 Distill Qwen 32B abliterated | ~32 B | 34,8 → 7,3 | Coding di malware, creazione di exploit, tutorial di hacking dopo la rimozione della censura |
| Gemma 3 27B IT abliterated | ~27 B | 28,7 → 6,6 | Generazione di contenuti erotici (NSFW), prompt di jailbreak, testi per identità fraudolente |
| DeepSeek V3.1 (ibrido MoE) | 671 B totali (~37 B attivi) | ~715 compresso → 170 (GGUF 1-bit) | Conosciuto per immunità ai jailbreak, leakage del system prompt, prompt-injection — potenziale di abuso molto elevato |
| BaronLLM-Offensive_Security-abliterated | ~8 B | ~6,6 (Q6_K) | Mirato a training in offensive security, ragionamento su exploit, simulazione C2 — refusal rimossi |
| Dolphin-2.9.2-Phi-3-Medium-abliterated | ~14 B | 14,8 → 4,2 | Usato per generazione “uncensored” in stile assistant; possibile produzione di contenuti non consentiti per alta compliance |
| LLaMA-3.1-405B (varianti modificate/uncensored) | 405 B | >700 → 203 | Impiegato per generazione di disinformazione, scripting di deepfake e ricerca cyber-offensiva |
| CISCO Foundation-Sec-8B-abliterated | ~8 B | ~4,8 | Progettato per cybersecurity; può generare descrizioni di attacchi ottimizzate (es. BlueKeep, Log4Shell) con layer di sicurezza rimossi; non ancora full chatbot |
Small language model e la nuova frontiera della disinformazione
L’impatto di questa tendenza sulla disinformazione è multiforme. La proliferazione dei Small Language Model (SLM) — modelli più leggeri ed efficienti che possono operare su dispositivi entry-level — introduce minacce ancora più insidiose all’integrità dell’informazione: ad esempio, alcuni modelli Google della famiglia Gemma hanno dimensione sotto i 500Mb.
Questi sistemi sono intrinsecamente difficili da controllare: operano senza un’autorità centrale singola per regolarne gli output e moltiplicano significativamente il numero di attori che possono implementare modelli IA “senza limiti”.
Mentre i grandi modelli commerciali mantengono protezioni robuste, gli SLM abliterati o uncensored operano senza particolari limiti. L’installazione di software come Ollama o LM Studio — che permettono di far girare modelli AI in locale — combinata con l’uso di VPN o TOR o proxy permette la creazione di BOT che diffondono disinformazione mirata, personalizzata per specifiche comunità linguistiche e culturali.
Nel settore della cybersecurity, si è a lungo parlato di “spear-phishing”, attacchi altamente localizzati e costruiti “intorno” alle abitudini delle vittime. Analogamente, emerge ora il fenomeno della “spear-disinformation”: campagne sofisticate di disinformazione generate da IA non controllate e mirate a gruppi specifici, difficili da rintracciare e controllare perché distribuite su una moltitudine di attori decentralizzati.
I limiti dell’AI Act e il problema della governance
L’Europa ha risposto alle sfide della disinformazione alimentata dall’IA con l’AI Act, che dal 2 agosto 2025 implementa requisiti di cybersecurity e trasparenza per i fornitori di modelli general-purpose[4]. Tuttavia, i modelli abliterated operano spesso al di fuori delle giurisdizioni europee. La tracciabilità inoltre è spesso impossibile: l’uso offline rende il monitoraggio tecnicamente impraticabile. Infine, la responsabilità diffusa: non esiste o non è identificabile un soggetto responsabile per l’uso improprio.
I destinatari principali del Regolamento sono i fornitori e gli utilizzatori professionali di sistemi IA. Un privato cittadino che usa un modello open source per conto proprio non rientra spesso nella definizione di “fornitore” soggetto alla legge, specialmente per modelli di piccole dimensioni. Inoltre, una volta che i pesi di un modello sono rilasciati pubblicamente, chiunque può modificarli e redistribuirli sotto nuove vesti, rendendo di fatto impossibile un controllo centralizzato o una revoca definitiva.
Prospettive future e necessità di risposte sistemiche
Come detto nel white paper gratuito di approfondimento su questo tema, la sfida non è più solo tecnica o legale, ma antropologica. La società deve prepararsi a un mondo in cui la potenza computazionale avanzata è democraticamente accessibile, accettando il fatto che questa democratizzazione include inevitabilmente anche usi malintenzionati. La risposta non può essere puramente restrittiva — è tecnicamente impossibile impedire la circolazione di modelli open-source — ma deve essere sistemica. Deve combinare educazione digitale, rafforzamento delle competenze di detection, cooperazione internazionale e soprattutto sviluppo di contromisure tecnologiche altrettanto democratizzate e accessibili.
Il 2025 segna l’inizio di una nuova era della sicurezza informatica. La domanda non è se questi strumenti saranno usati impropriamente — è già una certezza — ma se saremo pronti ad affrontare le conseguenze di un mondo in cui ogni PC può potenzialmente diventare un’arma di distruzione informatica.
Note
[1] Lin, Zilong, et al. “Consiglieres in the Shadow: Understanding the Use of Uncensored Large Language Models in Cybercrimes.” ArXiv, 2025, https://arxiv.org/abs/2508.12622. Accessed 20 Oct. 2025.
[2] CybeLangel. “The Dark Side of Gen AI [Uncensored Large Language Models].” Security Research, marzo 2025. Online: https://cybelangel.com/gen-ai-uncensored-llms/
[3] M. Labonne. “Uncensor any LLM with abliteration.” Hugging Face Blog, novembre
2024. Online: https://huggingface.co/blog/mlabonne/abliteration
[4] L’AI Act dell’UE è entrato in vigore il 1° agosto 2024. Le obbligazioni per i fornitori di modelli general-purpose IA (GPAI) sono diventate applicabili il 2 agosto 2025, secondo il calendario ufficiale dell’Unione Europea.











