privacy e llm

L’AI può smascherarci online: perché l’anonimato non basta più

Gli LLM stanno rendendo sempre più fragile lo pseudo-anonimato online, perché riescono a collegare testi, stili di scrittura e tracce pubbliche disperse. Il risultato è un rischio concreto per privacy, libertà di espressione e tutela dei diritti fondamentali

Pubblicato il 23 mar 2026

Luigi Mischitelli

Legal & Data Protection Specialist at Fondazione IRCCS Casa Sollievo della Sofferenza

pseudonimizzazione dei dati Data Act e PMI governance algoritmica dati pseudonimizzati in sanità

Chiedi allʼAI Nextwork360

Riassumi questo articolo

Approfondisci con altre fonti

Quello che scriviamo online ci espone molto più di quanto pensiamo. Con i Large Language Models, pseudonimi e profili separati non bastano più a garantire una distanza sicura tra la nostra attività sul Web e la nostra identità reale.

Indice degli argomenti

LLM e anonimato online, una convinzione che crolla

Con l’intelligenza artificiale, insomma, il confine tra ciò che scriviamo (distrattamente) online e la nostra identità reale si è fatto improvvisamente più sottile, quasi trasparente, trasformandosi in una membrana permeabile che non riesce più a trattenere i nostri segreti più profondi.

Meno privacy, più disinformazione coi nuovi modelli linguistici basati su AI

Per anni, la narrazione collettiva e la cultura popolare del web ci hanno “cullati” nell’illusione rassicurante che un nickname fantasioso, una foto profilo stilizzata o la semplice omissione di dati anagrafici espliciti fossero scudi sufficienti a proteggere la nostra sfera privata dall’occhio indiscreto del mondo esterno.

Credevamo, con una punta di ingenuità tecnologica figlia di un’epoca passata, che i nostri pensieri, disseminati tra forum tematici, sezioni commenti dei quotidiani e bacheche dei social media, fossero frammenti isolati di un mosaico impossibile da ricomporre.

Tuttavia, una recente (e, a tratti, inquietante) ricerca ha sollevato, definitivamente, il velo su una realtà tecnologica che cambia radicalmente le regole del gioco: i modelli linguistici di grandi dimensioni, la stessa tecnologia che anima gli assistenti digitali e i chatbot più evoluti (basti pensare a ChatGPT o a Gemini), sono ora in grado di smascherare gli utenti che usano pseudonimi sul Web su scala globale e con una precisione chirurgica che lascia pochissimo spazio all’immaginazione o alla difesa individuale.

L’impronta stilistica che rende fragile l’anonimato

Il cuore pulsante di questo problema non risiede in una vulnerabilità del software nel senso classico del termine; non siamo di fronte a hacker che forzano database criptati o al “mercato nero” del Dark Web, dove si scambiano password rubate o dati personali.

La vulnerabilità, paradossalmente, risiede nella nostra stessa essenza comunicativa, in quella che gli esperti definiscono “impronta digitale stilistica” o “stilometria computazionale”.

Ognuno di noi, nel momento in cui articola un pensiero per iscritto, imprime nel testo una serie di tratti distintivi quasi genetici: la scelta di determinati sinonimi, la frequenza di certi errori grammaticali ricorrenti, l’uso peculiare della punteggiatura o la struttura ritmica e la lunghezza media delle frasi.

Quello che una volta richiedeva mesi di analisi manuale da parte di esperti linguisti forensi per identificare l’autore di una lettera anonima contenente minacce, oggi viene processato in pochi millisecondi da algoritmi capaci di analizzare e confrontare miliardi di parametri simultaneamente.

È un processo di deduzione statistica di una raffinatezza inaudita: l’Intelligenza Artificiale non si limita a leggere passivamente le parole, ma seziona la struttura profonda del pensiero logico dell’autore, riuscendo a collegare con un filo invisibile ma d’acciaio un commento caustico lasciato su un portale di notizie a un profilo professionale su LinkedIn o a un vecchio blog universitario firmato con nome e cognome reali molti anni prima.

LLM e anonimato online: perché il rischio è sistemico

Questa capacità di de-anonimizzazione non deve essere vista come un mero esercizio teorico confinato nei laboratori della Silicon Valley, né come una curiosità accademica per esperti di crittografia.

La portata del fenomeno è sistemica e le sue ramificazioni toccano ogni singolo aspetto della nostra vita digitale quotidiana.

Immaginiamo la mole sterminata di dati prodotta ogni giorno da milioni di persone che partecipano a discussioni online su temi estremamente sensibili e personali: condizioni di salute croniche, orientamenti religiosi, dissensi politici profondi o critiche rivolte in modo confidenziale al proprio ambiente di lavoro.

Finora, lo pseudo-anonimato ha garantito una fondamentale “zona franca” per la libertà di espressione, permettendo a whistleblowers (segnalatori di illeciti), attivisti che operano in regimi repressivi o semplici cittadini comuni di esprimere opinioni fuori dal coro senza il timore di ritorsioni immediate, licenziamenti o emarginazione sociale.

Se questa protezione cade, se il velo viene squarciato da una macchina capace di dare un nome e un volto a ogni riga di testo presente nel cloud, il rischio concreto è quello di un “effetto raggelante” (“chilling effect”) sulla democrazia digitale.

Se ogni nostra parola, anche la più spontanea o confidenziale, può essere ricondotta alla nostra identità civile, la disponibilità a parlare onestamente di temi controversi svanisce rapidamente, sostituita da una forma di autocensura preventiva dettata dalla consapevolezza di essere perennemente tracciabili e giudicabili.

Come gli LLM collegano account, piattaforme e identità

Il salto di qualità compiuto dalle ultime generazioni di Intelligenza Artificiale risiede nella loro capacità senza precedenti di operare in modalità “cross-platform”, ovvero scavalcando i confini stagni delle singole piattaforme o dei diversi account.

Un utente “con nome e cognome” potrebbe essere estremamente guardingo sulle sue attività online, evitando con cura di rivelare qualsiasi dettaglio della propria vita privata o della propria localizzazione geografica; tuttavia, lo stesso utente, mantenendo inevitabilmente lo stesso stile comunicativo, lo stesso registro linguistico e la stessa “voce” testuale, potrebbe essere stato molto più aperto e meno cauto altrove, su un forum tecnico di nicchia frequentato anni prima o in una serie di recensioni dettagliate su Amazon.

L’Intelligenza Artificiale agisce come il collante universale che unisce questi punti apparentemente distanti e slegati tra loro.

Analizzando vasti dataset di testo pubblico disponibili in rete, questi modelli possono costruire profili comportamentali e stilistici così accurati da riuscire a isolare e identificare un individuo specifico tra decine di migliaia di profili simili con un margine di errore vicino allo zero.

Non è più necessario che l’utente commetta l’errore grossolano di scrivere le proprie generalità o di postare una foto; è sufficiente che scriva abbastanza testo perché la sua impronta stilistica diventi unica e riconoscibile quanto una scansione della retina o una sequenza di DNA.

Il caso Anthropic mostra che la protezione può essere fragile

Questo della de-anonimizzazione via LLM è un rischio che Anthropic prova da tempo a gestire con strumenti di analisi “privacy-preserving”: la facilità con cui un LLM dotato di ricerca web e capacità agentiche può ricostruire identità partendo da testi pseudonimi, dettagli biografici dispersi e materiale pubblico favorisce un apparato di sorveglianza massiva, minaccia per diritti fondamentali.

Il 4 dicembre 2025 Anthropic ha presentato Anthropic Interviewer, spiegando di aver raccolto 1.250 interviste con professionisti e di aver pubblicato il dataset con il consenso dei partecipanti; nello stesso progetto l’azienda dice di voler analizzare gli “insight anonimizzati” delle conversazioni per la propria ricerca sugli impatti sociali dell’AI.

Ma già il 9 gennaio 2026 un preprint ha mostrato quanto questa protezione possa essere fragile: usando LLM comuni con ricerca web, l’autore è riuscito a collegare sei interviste su ventiquattro del sottoinsieme degli scienziati a lavori scientifici specifici e, in alcuni casi, a identificare gli intervistati.

Il secondo passaggio è arrivato il 18 febbraio 2026 con Large-scale online deanonymization with LLMs, studio firmato anche da Nicholas Carlini di Anthropic.

Gli autori descrivono attacchi di de-anonimizzazione su larga scala contro profili online pseudonimi e testi non strutturati, con risultati fino al 68% di recall al 90% di precisione, contro valori vicini allo zero per il miglior metodo non-LLM riportato come baseline.

La conclusione del paper è che la “practical obscurity” che finora proteggeva molti utenti online non regge più allo stesso modo.

In questo quadro, Clio resta la risposta tecnica di Anthropic: l’azienda lo presenta come un sistema che anonimizza e aggrega automaticamente le conversazioni e mostra agli analisti solo cluster ad alto livello, non i testi originali.

Il report sulle minacce diffuso da Anthropic nell’agosto 2025 resta utile solo come coda a questo ragionamento, perché documenta già un uso operativo di Claude per profilare vittime e analizzare dati rubati: segno che il problema non riguarda solo la ricerca accademica, ma anche applicazioni criminali già osservate.

LLM e anonimato online: il nodo della profilazione commerciale

Esiste poi un aspetto ancora più profondo, inquietante e subdolo legato alla profilazione commerciale massiva e alla manipolazione politica di precisione.

Se le grandi società, i broker di dati o le agenzie di analisi politica possono associare i nostri “sfoghi anonimi”, le nostre paure più intime o le nostre frustrazioni espresse in segreto alle nostre identità reali, il marketing personalizzato compie un salto evolutivo spaventoso.

Smette di essere un semplice e fastidioso banner pubblicitario basato sui cookie per trasformarsi in una forma di “micro-targeting” psicologico e manipolatorio senza precedenti nella storia umana.

Conoscere le paure esistenziali, i dubbi sulla propria carriera, le lamentele sulla salute fisica o le inclinazioni ideologiche più radicali espresse sotto pseudonimo permette ad attori terzi di costruire messaggi pubblicitari, notizie tendenziose o messaggi politici che colpiscono esattamente i nervi scoperti di un individuo, senza che questi possa mai comprendere razionalmente come tali informazioni siano state carpite e utilizzate contro di lui.

Si viene a creare un’asimmetria di potere radicale e pericolosa: da un lato il singolo cittadino, convinto di agire in un cono d’ombra protettivo, dall’altro entità dotate di una potenza di calcolo quasi divina, capace di illuminare ogni passo compiuto nel passato digitale e di prevedere, con inquietante precisione, quelli futuri.

Il diritto rincorre una nozione di dato personale sempre più instabile

La velocità con cui queste tecnologie evolvono sta superando di gran lunga la capacità delle istituzioni democratiche e degli organismi di controllo di produrre normative efficaci e tempestive.

Le leggi attuali sulla protezione dei dati, incluso il nostro (e pur avanzato) GDPR, si basano in gran parte sul concetto ormai parzialmente superato di “dato personale” inteso come “qualsiasi informazione riguardante una persona fisica identificata o identificabile” (Art. 4 del GDPR), come un indirizzo email, un numero di telefono o un codice fiscale.

Ma la realtà tecnica odierna ci dice che oggi un’informazione che nasce come totalmente anonima può diventare “personale” in un istante attraverso un processo di elaborazione algoritmica a posteriori.

Il diritto si trova, dunque, a rincorrere affannosamente un mondo in cui la distinzione tra dato pubblico, dato anonimo e dato particolare (ossia, “sensibile”) si è fatta quasi del tutto labile e soggettiva.

La sfida di questi ultimi anni del nostro decennio non sarà soltanto proteggere i nostri server dagli attacchi informatici esterni o dai virus, ma imparare a proteggere noi stessi dalla nostra stessa produzione comunicativa e letteraria, che è diventata paradossalmente la nostra più grande vulnerabilità strutturale.

Oltre la tecnica: anonimato, cultura e libertà di pensiero

In questo scenario complesso (e, per certi versi, distopico), la soluzione non può essere ricercata esclusivamente in accorgimenti di natura tecnica o informatica.

Certamente, stanno nascendo strumenti sofisticati progettati per offuscare attivamente lo stile di scrittura, software capaci di parafrasare e riscrivere i testi di un utente per neutralizzarne i tratti distintivi prima della pubblicazione, ma si tratta per ora di soluzioni di nicchia, complicate da utilizzare per il grande pubblico e spesso distruttive nei confronti della naturalezza e dell’efficacia del linguaggio umano.

La vera risposta deve essere di carattere culturale, etico e collettivo.

È necessario un dibattito pubblico maturo e globale che riconosca l’anonimato e lo pseudo-anonimato non come semplici espedienti “infantili” per nascondere attività illecite o ingannare il prossimo, ma come componenti vitali, nobili e inscindibili della dignità umana e della libertà di pensiero nell’era dell’informazione totale e della trasparenza forzata.

Senza il diritto inalienabile di poter scegliere quando, come e a chi rivelare la propria identità, la rete rischia di trasformarsi definitivamente in un immenso panottico digitale globale, dove la sorveglianza non è esercitata (come nell’idea di Jeremy Bentham) da una guardia fisica chiusa in una torre centrale, ma da un silenzioso, onnipresente e invisibile codice binario che ci osserva, ci cataloga, ci giudica e ci riconosce infallibilmente mentre le nostre dita scorrono veloci sulla tastiera o sullo schermo dello smartphone o del PC.

LLM e anonimato online: una privacy che non è più implicita

La riflessione finale ci porta a considerare che la capacità dei modelli linguistici di smascherare l’identità non è un bug o un difetto del sistema che può essere corretto con un aggiornamento software, ma è una proprietà intrinseca e fondamentale della loro capacità di comprendere il linguaggio umano a un livello di astrazione profondo.

È il segnale inequivocabile di un’era in cui la riservatezza non può più essere data per scontata come un sottoprodotto naturale dell’oscurità informativa o della vastità caotica della rete.

Al contrario, la privacy sta diventando rapidamente un bene di lusso estremo che richiede una gestione attiva, una consapevolezza costante e soprattutto il supporto di tutele legali radicalmente nuove e coraggiose.

Mentre ci avviamo verso un’integrazione sempre più simbiotica e quotidiana tra intelligenza biologica umana e Intelligenza Artificiale sintetica, la salvaguardia della nostra identità residua e del nostro spazio di manovra individuale richiederà uno sforzo corale di consapevolezza critica.

Dobbiamo agire ora per evitare che il nostro desiderio innato e meraviglioso di connessione e comunicazione globale si trasformi, senza che ce ne accorgiamo, in una trappola dorata di visibilità permanente, non consensuale e, cosa più grave di tutte, assolutamente impossibile da revocare nel tempo¹.

@RIPRODUZIONE RISERVATA

Luigi Mischitelli

Legal & Data Protection Specialist at Fondazione IRCCS Casa Sollievo della Sofferenza

Seguimi su

LLMs can unmask pseudonymous users at scale with surprising accuracy. Ars Technica. https://arstechnica.com/security/2026/03/llms-can-unmask-pseudonymous-users-at-scale-with-surprising-accuracy/ ↩︎