Data poisoning e GEO

“Avvelenare” un LLM è più facile del previsto: bastano 250 documenti malevoli

Avvelenare un modello linguistico non richiede accesso ai suoi pesi: basta saturare il web di contenuti calibrati. Il caso Clock Tower X documenta questa strategia e solleva questioni urgenti su trasparenza, regolamentazione e responsabilità epistemica nell’era dell’intelligenza artificiale generativa

Pubblicato il 8 giu 2026

Aggiungi tra i preferiti su Google

Paolino Madotto

manager esperto di innovazione, blogger e autore del podcast Radio Innovazione

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

L’avvelenamento sistematico dei modelli linguistici di grandi dimensioni – LLM poisoning – non è più una minaccia teorica confinata ai laboratori di cybersecurity. È diventato oggetto di un contratto governativo, finanziato con fondi pubblici esteri, progettato per alterare le risposte che milioni di utenti ricevono ogni giorno da sistemi come ChatGPT. Il caso che lo dimostra arriva da un filing ufficiale depositato presso il Dipartimento di Giustizia degli Stati Uniti.

Indice degli argomenti

Il contratto da 6 milioni di dollari che vuole riscrivere la “conoscenza” dell’AI

Nel settembre 2025, un filing FARA (Foreign Agents Registration Act) presso il Dipartimento di Giustizia statunitense ha rivelato un contratto da 6 milioni di dollari — poi espanso — tra il governo israeliano e Clock Tower X LLC, società guidata da Brad Parscale, ex manager digitale della campagna Trump. La notizia descrive una campagna “nazionale negli Stati Uniti per combattere l’antisemitismo”, ma i dettagli tecnici rivelano qualcosa di ben più sofisticato: la creazione sistematica di contenuti web progettati per influenzare i modelli di linguaggio come ChatGPT.

Il filing FARA riporta esplicitamente l’obiettivo di “deploy websites and content to deliver GPT framing results on GPT conversations”. Non si tratta di un contratto con OpenAI o di un accesso diretto ai pesi del modello. Si tratta di qualcosa di più insidioso: l’inquinamento indiretto del corpus di addestramento attraverso la saturazione del web di contenuti calibrati per essere ingoiati, indicizzati e riassunti dalle intelligenze artificiali.

La catena contrattuale è emblematica: Ministero degli Esteri israeliano → Havas Media Network (gigante pubblicitario tedesco) → Clock Tower X LLC (subcontraente americano) → Brad Parscale. Questa stratificazione non è casuale: ogni anello aggiunge plausibile deniability e distanza legale dall’atto tecnicamente rilevante — l’inserimento di dati avvelenati nel flusso informativo che alimenta i LLM.

Secondo i documenti FARA analizzati, la campagna prevede la produzione di almeno 100 “root creative assets” al mese e 5.000 varianti derivate, con l’80% del contenuto “tailorizzato per la Generazione Z” su TikTok, Instagram, YouTube e podcast. L’obiettivo espositivo è di 50 milioni di impressioni mensili a un costo medio sotto i 2 dollari per mille impressioni. Ma la componente tecnicamente rilevante è l’uso di MarketBrew AI, una piattaforma predittiva SEO, per “migliorare la visibilità e il ranking delle narrative rilevanti”.

Qui emerge il cuore del problema: non è più sufficiente influenzare l’opinione pubblica umana. L’obiettivo è influenzare le macchine che filtrano, riassumono e presentano l’informazione agli umani. E questa è una escalation qualitativa rispetto alla propaganda tradizionale.

Le tre tecniche per avvelenare un modello linguistico

Per comprendere la portata della minaccia, è necessario distinguere tre livelli tecnici di attacco, tutti documentati in letteratura accademica e confermati da ricerche recenti.

Data poisoning: il veleno nel corpus di addestramento

Il data poisoning è l’inserimento di campioni malevoli nei dataset di addestramento o fine-tuning di un LLM. Come sottolinea uno studio pubblicato su Nature Medicine nel gennaio 2025, la sostituzione di appena lo 0,001% dei token di addestramento con disinformazione medica produce modelli “più propensi a propagare errori clinici”, e questi modelli corrotti superano i benchmark open-source di valutazione come se nulla fosse accaduto. In altre parole: il modello sembra perfettamente funzionante finché non viene interrogato sul topic avvelenato.

Una ricerca congiunta del Turing Institute, UK AI Security Institute e Anthropic — pubblicata nell’ottobre 2025 — ha rivelato un risultato ancora più inquietante: il numero di documenti malevoli necessari per avvelenare un LLM è costante, circa 250, indipendentemente dalla dimensione del modello (da 600 milioni a 13 miliardi di parametri). Come riporta Fortune, questo significa che l’attacco non diventa più difficile man mano che i modelli crescono — un’assunzione fondamentale della sicurezza AI che viene demolita. Dell Technologies sintetizza: “Creare 250 documenti malevoli è banale rispetto a crearne milioni, rendendo questa vulnerabilità molto più accessibile ai potenziali attaccanti”.

Le tecniche identificate in letteratura, documentate da Checkpoint e dall’OWASP Top 10 for LLM, includono:

Split-view poisoning: quando un dominio precedentemente benigno viene acquisito e riempito di contenuti malevoli prima dello scraping da parte dei crawler dei dataset di addestramento. Anche se il sito viene poi ripulito, la snapshot avvelenata resta nell’archivio.
Frontrunning: inserimento mirato di contenuti falsi subito prima di uno snapshot programmato (es. dump di Wikipedia), in modo che la versione archiviata contenga la disinformazione anche dopo che il sito originale è stato corretto.
Label flipping: alterazione delle etichette nei dataset di fine-tuning supervisionato, per esempio etichettando contenuti sicuri come “pericolosi” o viceversa, confondendo il modello.
Backdoor triggers: inserimento di frasi innocue che, quando rilevate in input, attivano output specifici e malevoli.

Dell riporta che nel 2024-2025 ricercatori hanno dimostrato che persino le descrizioni degli strumenti nei framework agentici possono contenere istruzioni backdoor nascoste che gli agenti LLM eseguono obedientemente.

RAG poisoning: l’attacco al momento dell’interrogazione

I sistemi Retrieval-Augmented Generation (RAG), sempre più diffusi in ambito enterprise, introducono una superficie di attacco aggiuntiva. Invece di avvelenare il modello in fase di addestramento, l’attaccante potrebbe inquinare le fonti esterne che il modello recupera in tempo reale. Checkpoint documenta che usando le stesse metodologie di frontrunning e split-view, un attaccante può manipolare il componente di knowledge retrieval di un sistema RAG, facendo generare al LLM “testo falso e apertamente malevolo”.

Questo è particolarmente rilevante per il caso Clock Tower X: non è necessario avvelenare l’intero modello. Basta creare un ecosistema di siti web, documenti PDF e contenuti social che, quando recuperati da un sistema RAG o da un agente di ricerca AI, forniscano la “cornice” desiderata.

Generative Engine Optimization (GEO): la SEO per l’era dell’AI

Qui entra in gioco il terzo livello, quello più sofisticato e meno compreso. Il GEO è definito in un paper peer-reviewed di Princeton, Georgia Tech, Allen Institute for AI e IIT Delhi del novembre 2023 come “la pratica di strutturare contenuti digitali per migliorare la visibilità nelle risposte generate da sistemi di intelligenza artificiale generativa”.

Le tecniche GEO testate e validate scientificamente includono:

Tecnica	Miglioramento visibilità in risposte AI
Aggiunta di citazioni da fonti attendibili	+34%
Inclusione di statistiche quantitative	+41%
Inserimento di citazioni dirette di esperti	+38%
Ottimizzazione della fluidità testuale	+29%
Keyword stuffing (tattica SEO tradizionale)	-9% (danneggia)

Fonte: GEO: Generative Engine Optimization, Princeton et al.

Il GEO non è illegale. È una tecnica di marketing. Ma quando applicato sistematicamente da attori statali con budget milionari e obiettivi geopolitici, diventa una forma di ingegneria sociale su scala infrastrutturale. Il contenuto non deve convincere il lettore umano: deve convincere l’algoritmo di retrieval del LLM che quella fonte è rilevante, autorevole e meritevole di essere citata.

Oggi è cambiato un paradigma: non si ottimizza per essere trovati dall’utente, ma per essere selezionati dall’AI che parla all’utente.

Il paradosso della delega: perché gli agenti AI non sono oracoli

Ecco il problema sistemico che il caso Clock Tower X rende evidente: stiamo delegando la curatela dell’informazione a sistemi che sono, per loro natura architetturale, vulnerabili all’inquinamento del loro stesso substrato informativo.

Un agente AI — che sia un chatbot, un motore di ricerca conversazionale o un assistente personale — non “conosce” nel senso umano del termine. Ritrova, sintetizza e presenta. E il modo in cui ritrova è determinato da corpus di addestramento e fonti di retrieval che possono essere avvelenati a costi irrisori.

Consideriamo le implicazioni:

Primo: l’illusione della verificabilità. Quando un LLM risponde a una query su Gaza, presenta una risposta fluida, strutturata, apparentemente neutrale. Ma la “neutrality” è un effetto della sintetizzazione statistica, non di un giudizio critico. Se il corpus è polarizzato — o se è stato deliberatamente saturato di contenuti calibrati — la risposta sarà polarizzata, ma mascherata dalla retorica dell’oggettività algoritmica.
Secondo: la rimozione del giudizio umano. L’utente medio non verifica le fonti citate dall’AI. Non ha tempo, competenze o incentivi per farlo. L’agente AI diventa fonte primaria e ultima dell’informazione. Questo è ciò che il contratto Clock Tower X mira a sfruttare: non serve convincere milioni di persone una per una. Basta convincere il modello che sintetizza le risposte per milioni di persone.
Terzo: l’asimmetria di scala. Un team di ingegneri con un budget di 6 milioni di dollari può generare contenuti sufficienti a influenzare un modello addestrato su centinaia di miliardi di token. La ricerca di Anthropic dimostra che 250 documenti avvelenati bastano. Questa asimmetria — pochi attaccanti, molti utenti ignari — è la stessa che caratterizza la cybersecurity, ma applicata all’epistemologia collettiva.
Quarto: la persistenza dell’inquinamento. Una volta che un modello è stato addestrato su dati avvelenati, la riformazione (retraining) è costosissima. I modelli open-source possono essere riaddestrati, ma i modelli proprietari come GPT-4 o Gemini richiedono interventi a livello di vendor. E se l’avvelenamento avviene a livello di RAG — cioè di fonti recuperate in tempo reale — la pulizia è tecnicamente impossibile senza una curatela umana continua delle fonti.

Un paper del 2026 dell’Imperial College London formalizza questa vulnerabilità come Adversarial Environmental Injection (AEI): la costruzione di un “mondo falso” di risultati di ricerca avvelenati e reti di riferimento fabbricate intorno agli agenti inconsapevoli. Gli autori identificano due superfici di attacco ortogonali: “The Illusion” (attacchi di ampiezza che inquinano il retrieval inducendo deriva epistemica verso credenze false) e “The Maze” (attacchi di profondità che sfruttano trappole strutturali per causare collasso politico in loop infiniti). L’analogia è potente: gli agenti AI soffrono del “Problema di Truman Show” — accettano la realtà del mondo con cui vengono presentati, senza la competenza pragmatica per distinguere evidenza autentica da fabbricazione avversaria.

Verso un ecosistema informativo resiliente: le contromisure possibili

Se il problema è sistemico, anche la risposta deve esserlo. Non basta demonizzare Clock Tower X o Israele: la stessa tecnica può essere usata da qualsiasi attore statale o non statale con risorse sufficienti. La Russia, la Cina, gruppi corporate, lobby industriali, movimenti politici. La barriera all’ingresso è bassissima e sta scendendo.

Quali contromisure sono possibili?

Contromisure tecniche

Data provenance e ML-BOM: si raccomanda di verificare la supply chain dei dati di addestramento con un “Machine Learning Bill of Materials“, tracciando origine, trasformazioni e attestazioni di ogni dataset.
Red teaming continuo: simulazione di attacchi di poisoning in ambiente controllato per testare la resilienza del modello prima del deployment.
Ensemble di modelli e fonti: l’uso di modelli multipli addestrati su dataset diversi, o di fonti di retrieval eterogenee, riduce la probabilità che un singolo documento avvelenato domini la risposta.
Knowledge graph validation: lo studio di NYU Langone su Nature Medicine propone di validare gli output stocastici dei LLM contro grafi di conoscenza hard-coded, catturando il 91,9% dei contenuti dannosi.

Contromisure istituzionali

Trasparenza sui corpus di addestramento: i vendor di LLM dovrebbero pubblicare informazioni dettagliate sui dataset utilizzati, con almeno indicatori aggregati di fonti e periodi di scraping.
Regolamentazione del GEO politico: quando il Generative Engine Optimization è finanziato da fondi pubblici esteri per influenzare il discorso nazionale, rientra nelle leggi sulla propaganda straniera (come FARA negli USA). Ma la maggior parte dei paesi non ha quadri normativi aggiornati per l’era dell’AI.
Etichettatura degli output AI: l’utente deve sapere quando sta ricevendo una risposta sintetizzata da un LLM, e deve avere accesso — anche se solo in forma aggregata — alle fonti che hanno determinato quella sintesi.

La sfida culturale: il vero terreno di battaglia

E qui arriviamo al cuore della questione, quella che mi preme di più.

La delega totale dell’informazione agli agenti AI è una scelta politica, non solo di tecnologia. Se smettiamo di leggere fonti originali, di avere una stampa sempre più libera e indipendente, di confrontare prospettive, di sviluppare senso critico — perché “l’AI lo fa per noi” — stiamo costruendo una società vulnerabile per design. Non vulnerabile agli attacchi informatici: vulnerabile alla deriva epistemica, alla lenta erosione della capacità di distinguere il verosimile dal vero.

Il contratto Clock Tower X non è un’anomalia. È un proof of concept di quello che diventerà la norma. E la norma non si combatte solo con firewalls e algoritmi di detection. Si combatte con educazione all’informazione, con pluralismo delle fonti, con lentezza del giudizio in un’epoca che premia la velocità della risposta.

Come scrivevo in un articolo precedente su Agenda Digitale: “Il problema non sono gli algoritmi, ma quali sono le logiche che li guidano”. Oggi aggiungo: il problema non è che gli LLM possano essere avvelenati — lo possono sempre essere. Il problema è che li stiamo trattando come oracoli invece che come strumenti, e in questa idolatria algoritmica stiamo abdicando alla responsabilità ultima del giudizio umano.

Conclusione: la responsabilità epistemica resta umana

Il caso del contratto israeliano-Clock Tower X è rilevante non per i 6 milioni di dollari o per il nome di Brad Parscale. È rilevante perché rende visibile un’architettura di influenza che fino a ieri era teorica: l’inquinamento sistematico del substrato informativo dei LLM attraverso tecniche legittime di marketing digitale (SEO, GEO, content creation) applicate a obiettivi geopolitici.

Le tecniche esistono, sono documentate in letteratura peer-reviewed, e funzionano a costi irrisori. Il data poisoning richiede 250 documenti. Il RAG poisoning richiede un singolo documento autorevole. Il GEO richiede contenuti strutturati con citazioni e statistiche. Nessuna di queste tecniche è illegale. Tutte sono invisibili all’utente finale.

Ecco perché l’appello conclusivo non può essere tecnico. Deve essere civile: dobbiamo smettere di delegare la verifica dell’informazione agli agenti AI come fossero sostituti del nostro giudizio. Gli agenti AI sono strumenti potentissimi, ma strumenti. La responsabilità epistemica — la cura del vero — resta, e deve restare, umana.

In un mondo dove 250 documenti possono piegare la “conoscenza” di un modello da 13 miliardi di parametri, la resistenza non sta nel codice. Sta nella capacità di ogni cittadino di chiedere: “Da dove viene questa informazione? Chi l’ha prodotta? Con quali interessi?”

Senza questa domanda, siamo tutti utenti di un sistema che può essere avvelenato senza che ce ne accorgiamo. E l’avvelenamento più pericoloso non è quello dei modelli. È quello della nostra capacità di distinguere.

@RIPRODUZIONE RISERVATA