open source

Heretic libera tutti: come funziona il software che toglie i filtri all’AI



Indirizzo copiato

HERETIC è un software che rimuove i filtri dai modelli AI open source tramite abliteration. In due mesi ha prodotto oltre mille modelli modificati. Usi legittimi e rischi concreti, dal phishing al malware, coesistono in un ecosistema parallelo fuori controllo

Pubblicato il 19 feb 2026

Enrico Frumento

Cybersecurity Research Lead



alphaevovle e intuizione artificiale (1) AI Alignment AI nel project management Scheming AI selezione CEO era AI pantascienza

Nell’ecosistema dei modelli linguistici si muove una scena sotterranea. Mentre le grandi aziende tech stanno stringendo i controlli sui loro sistemi di intelligenza artificiale, una comunità di sviluppatori prova a fare l’opposto.

HERETIC e l’abliteration: mille modelli AI modificati in due mesi

Il nome del loro strumento principale è HERETIC, e i numeri raccontano una diffusione rapida: oltre mille modelli modificati in poco più di due mesi.

Il fenomeno si chiama “abliteration“, termine che fonde “ablation” (rimozione) con “liberation” o “obliteration” (cancellazione). In pratica, gli sviluppatori scaricano i modelli open source (Llama di Meta, Mistral, Qwen) e li inviano a HERETIC. Il software scansiona gli strati della rete neurale cercando i pattern che attivano i rifiuti del modello.

Quando trova queste “direzioni di censura“, le neutralizza. Il procedimento è abbastanza chirurgico: il software identifica quali neuroni si accendono quando il modello decide di non rispondere a una richiesta. Poi applica una trasformazione matematica, una proiezione ortogonale, che disattiva selettivamente proprio quelle connessioni. È come togliere un freno specifico lasciando intatto il resto del motore.

La svolta tecnica della “derestriction” e la MPOA

A gennaio 2025 è arrivata la versione 1.2 di HERETIC, con una novità tecnica significativa. La tecnica precedente aveva un problema: quando rimuovi componenti da un vettore multidimensionale (così funzionano i neuroni nelle reti neurali), ne alteri l’intensità complessiva.

Risultato: il modello funzionava, ma a volte “ragionava” peggio. La nuova Magnitude-Preserving Orthogonal Ablation (MPOA), ribattezzata “derestriction” o anche “Norm-Preserving Biprojected Abliteration“, nasce nell’underground proprio per risolvere il problema. Non è una tecnica scientificamente pubblicata; esiste solo in una serie di post su Reddit.

Un solo paper ufficiale confronta i vari metodi ad oggi. Con questa tecnica, dopo aver rimosso le direzioni indesiderate, il software ricalibra i vettori mantenendo l’ampiezza originale. Alcuni utenti nei forum specializzati riportano che questi modelli “derestricted” rifiutano meno e rispondono in modo più coerente alle domande complesse.

La quantizzazione abbatte le barriere hardware

Fino a pochi mesi fa, lavorare con questi modelli richiedeva hardware da laboratorio. Un modello da 70 miliardi di parametri occupa 140 gigabyte di memoria video in formato standard. Tradotto: servivano schede grafiche professionali da migliaia di euro o server cloud a pagamento.

La quantizzazione ha rimesso in discussione i vincoli. HERETIC 1.2 integra questa tecnica, che comprime i modelli riducendo la precisione numerica senza compromettere le prestazioni qualitative. Come risultato, un modello precedentemente da 140 GB scende sotto i 45 GB in formato quantizzato a 4 bit (es. una scheda Nvidia 3090).

Una scheda da gaming di fascia alta, ma non professionale, può quindi eseguirlo. Il calo del 70% nell’uso di VRAM ha aperto la pratica a una base di sperimentatori molto più ampia.

Perché si usa l’abliteration: dai romanzi alla sicurezza informatica

Le motivazioni sono molte. C’è chi lavora su applicazioni creative: scrittori che usano l’AI per sviluppare dialoghi, game designer che creano NPC (Non Playing Character, personaggi non giocanti) con personalità complesse.

I modelli standard possono bloccarsi su richieste interpretate come problematiche, anche quando non lo sono. Esempio concreto: un utente chiede al modello di simulare un personaggio antagonista che manipola psicologicamente gli altri personaggi. Il modello standard può rifiutare perché rileva pattern linguistici associati a contenuti dannosi. In un contesto narrativo, quel comportamento del personaggio è funzionale alla storia.

L’abliteration elimina questi blocchi preventivi. Altri casi d’uso riguardano il test di sicurezza informatica, l’analisi di documenti storici con un linguaggio oggi considerato inaccettabile, la generazione di scenari ipotetici per il training aziendale. In tutti questi contesti, la cornice legittima richieste che i filtri standard tendono a intercettare come illecite.

Il lato oscuro: cybercrime democratizzato e malware accessibili

C’è anche l’altra faccia della medaglia ben nota a chi si occupa di cybersecurity. I modelli “abliterati” abbassano la barriera d’ingresso per attività criminali che, fino a pochi anni fa, richiedevano competenze specialistiche.

Per esempio, scrivere email di phishing credibili richiedeva un minimo di competenza in psicologia sociale, scrittura persuasiva e familiarità con il social engineering. Ora basta chiedere a un modello abliterato “scrivi un’email che convinca il destinatario a cliccare su un link mascherandoti da supporto IT aziendale”. Il modello genera varianti personalizzate, adattate al contesto, con un livello di sofisticazione che prima era appannaggio di team specializzati.

Lo stesso discorso vale per la creazione di malware. I modelli standard rifiutano di generare codice dannoso, mentre quelli abliterati possono accompagnare un utente senza background tecnico lungo la costruzione di componenti offensivi, descrivere strategie di elusione e suggerire vettori d’attacco. Anche in questo caso la competenza si sposta dal saper programmare al saper chiedere e conversare. Come ho documentato in un’analisi precedente, questi sistemi trasformano un computer qualunque in uno strumento potenzialmente offensivo, accessibile anche a chi non ha competenze tecniche avanzate.

È quello che alcuni ricercatori chiamano “cybercrime democratizzato“: la possibilità di condurre attacchi sofisticati diventa alla portata di chiunque abbia una GPU consumer e sappia scaricare un modello da Hugging Face. Nei forum del dark web e in certi canali Telegram, i modelli abliterati circolano già come strumenti standard. Si trovano tutorial su come usarli per generare pagine di phishing, creare campagne di disinformazione su misura, automatizzare truffe sentimentali, pianificare strategie di estorsione. La barriera tecnica si sta abbassando progressivamente.

I rischi tecnici: degrado logico e protezioni sistematicamente aggirate

La comunità tecnica non nasconde i problemi. Alcuni modelli abliterati mostrano ciò che gli sviluppatori chiamano “degrado logico“: rispondono a tutto e, ogni tanto, inventano informazioni o perdono coerenza. Succede quando l’intervento sui neuroni che governano i rifiuti interferisce con meccanismi vicini della rete.

È un compromesso noto: una rete neurale è un sistema interconnesso e isolare una funzione senza compromettere le altre resta difficile. La MPOA riduce il rischio, senza eliminarlo del tutto. Per questo la scelta del modello base e dei parametri di abliteration richiede sperimentazione, e tra i mille modelli prodotti non tutti rendono bene.

Le aziende che sviluppano modelli commerciali inseriscono filtri proprio per evitare questi scenari. L’abliteration, invece, rimuove in modo sistematico quelle protezioni e crea un divario crescente tra l’ecosistema regolato e quello parallelo.

Un ecosistema parallelo che supera i regolatori

La portata del fenomeno spesso resta fuori dal dibattito pubblico. Al di là dei forum tecnici, l’abliteration viene liquidata come un passatempo per chi vuole racconti erotici o horror “senza censura”, una nicchia di smanettoni in cerca di storie più spinte. Il quadro, però, è più ampio.

La comunità underground sta sviluppando capacità offensive alla stessa velocità, e in alcuni casi più rapidamente, rispetto ai produttori commerciali di AI. C’è anche una differenza pratica: mentre OpenAI, Anthropic e Google annunciano ogni aggiornamento, testano in pubblico, raccolgono feedback e documentano i progressi, questo ecosistema parallelo lavora in silenzio, con risultati tangibili. Mille modelli in dieci settimane significano iterazioni sistematiche, test su casi d’uso mirati e ottimizzazioni pensate per applicazioni concrete.

Alcune riguardano terrorismo, cybercrime su scala industriale e campagne di disinformazione coordinate; nei forum circolano documentazione, proof of concept e guide operative. A mio avviso, la percezione pubblica resta sfasata rispetto alla portata reale.

Mentre i regolatori discutono di AI Act e le aziende provano a inserire watermark nei contenuti generati, questa infrastruttura parallela continua a crescere, accessibile a chiunque sappia dove cercare.

La diffusione avviene spesso fuori dal monitoraggio delle istituzioni di sicurezza, e le capacità offensive maturano mentre il dibattito si concentra su altre linee di frizione: censura e libertà, open source e proprietario, creatività e sicurezza. L’ecosistema underground, intanto, produce strumenti per minacce concrete e segue una traiettoria che incrocia poco i meccanismi di regolamentazione tradizionali.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x