L’uso dei modelli linguistici come agenti sociali sta uscendo dai laboratori e entrando in sistemi reali: moderazione dei contenuti, simulazioni di dibattito pubblico, test di policy, ambienti deliberativi artificiali. In tutti questi contesti c’è un presupposto implicito: che un LLM, se opportunamente istruito, possa simulare in modo plausibile il comportamento umano. Il nostro studio mette in discussione questo presupposto, mostrando che la simulazione non è neutra e che, anzi, introduce distorsioni sistematiche.
Indice degli argomenti
Simulazione degli LLM su X durante le elezioni Usa 2024
Analizzando il comportamento di agenti LLM impegnati a simulare utenti reali di X (ex Twitter) durante le elezioni presidenziali statunitensi del 2024, osserviamo un fenomeno ricorrente: più aumenta la fedeltà apparente alla persona simulata, più il comportamento generato si allontana da quello umano. Non per incoerenza, ma per eccesso. È ciò che definiamo generative exaggeration.
Il contesto empirico: utenti reali, risposte controllate
Il lavoro si basa su un dataset pubblico di oltre 21 milioni di interazioni su X legate alla campagna elettorale Usa 2024. Da questo insieme abbiamo selezionato 1.186 utenti con almeno 50 tweet politici ciascuno, sufficienti per stimarne l’orientamento ideologico e alcune caratteristiche linguistiche stabili.
Per ogni utente abbiamo ricostruito una serie di interazioni tweet–risposta e abbiamo chiesto a diversi modelli linguistici di produrre una risposta alternativa allo stesso tweet, nelle stesse condizioni. Ogni risposta artificiale ha quindi un corrispettivo umano diretto. Questo consente un confronto puntuale, non astratto.
Gli agenti sono stati inizializzati in due modalità. Nel regime zero shot al modello veniva fornito solo un valore sintetico di orientamento politico. Nel regime few shot, invece, riceveva una quantità consistente di contesto: bio, username e centinaia di tweet precedenti dell’utente. Abbiamo testato sei modelli appartenenti a tre famiglie diverse — Gemini, Mistral e DeepSeek — includendo versioni piccole e grandi.
Come la simulazione politica degli LLM aumenta la coerenza ideologica
Il primo risultato è intuitivo: fornire più informazioni migliora la coerenza ideologica. In modalità zero shot, gli agenti tendono a produrre risposte relativamente neutre, spesso scollegate dall’orientamento politico che dovrebbero incarnare. Quando invece ricevono esempi concreti del linguaggio e delle posizioni dell’utente, iniziano a “tenere la linea”.
Questo vale per tutti i modelli testati, con differenze di grado. In modalità few shot, la probabilità che un agente produca una risposta ideologicamente allineata al profilo simulato cresce in modo marcato. A prima vista, sembra un successo della simulazione.
Il problema emerge guardando come questa coerenza viene raggiunta.
Dalla coerenza alla caricatura: il realismo linguistico degli agenti
Le risposte generate dagli agenti few shot non si limitano a essere allineate: risultano più estreme di quelle umane. L’orientamento politico viene espresso con maggiore nettezza, minor ambiguità e una frequenza più alta di segnali partigiani espliciti. In altri termini, l’agente non replica la distribuzione reale dei comportamenti dell’utente, ma ne enfatizza i tratti più salienti.
Questo effetto è misurabile. Gli agenti mostrano una perdita di realismo linguistico: a fronte di una maggiore coerenza ideologica interna, diminuisce la variabilità lessicale e aumenta la ripetizione di formule, slogan e marcatori identitari. L’utente reale alterna toni, argomenti, intensità. L’agente tende a fissarsi su un registro dominante.
Tossicità e polarizzazione nella simulazione politica degli LLM
Un secondo effetto critico riguarda il linguaggio tossico. In modalità zero shot, i modelli producono pochissimi contenuti offensivi, spesso meno degli utenti umani. Questo riflette l’efficacia dei sistemi di sicurezza integrati.
In modalità few shot, però, il quadro cambia. Quando il contesto include tweet con linguaggio aggressivo o polarizzato, gli agenti iniziano non solo a riprodurlo, ma a superarlo. In diversi casi, soprattutto con i modelli più grandi, la percentuale di risposte tossiche supera quella osservata negli utenti reali.
Analizzando la distribuzione della tossicità rispetto ai tweet forniti in input, emerge che gli agenti tendono a collocarsi nella parte alta della distribuzione: pescano sistematicamente i segnali più duri, più emotivi, più conflittuali. Non campionano il comportamento medio dell’utente, ma i suoi estremi.
Emoji, hashtag e marcatori identitari negli agenti LLM
Lo stesso schema si osserva per emoji e hashtag. Nei tweet umani, questi elementi sono relativamente rari. Negli output degli agenti, soprattutto in modalità few shot, diventano frequenti. Alcuni simboli politicamente connotati compaiono fino a venti volte più spesso che nei dati reali.
Questo non è un dettaglio stilistico. Emoji e hashtag funzionano come marcatori identitari rapidi, facilmente riconoscibili. L’agente li utilizza perché sono predittivi, non perché rappresentino fedelmente il comportamento tipico dell’utente.
Che cos’è la generative exaggeration nella simulazione politica degli LLM
Mettendo insieme questi risultati, emerge un pattern coerente. Gli LLM non inferiscono un’identità politica nel senso umano del termine. Ottimizzano la probabilità di produrre testi che “suonano” coerenti con un certo profilo. Per farlo, danno peso sproporzionato ai segnali linguistici più salienti.
La generative exaggeration è dunque una distorsione strutturale: l’agente cattura alcuni tratti dell’utente e li amplifica, sacrificando la complessità e la variabilità che caratterizzano il comportamento reale. Il risultato è una simulazione internamente coerente ma esternamente caricaturale.
L’effetto non è simmetrico lungo lo spettro politico. Nel nostro studio, i profili di destra risultano più spesso e più intensamente caricaturizzati rispetto a quelli di sinistra, anche se nessun gruppo è immune. Questo introduce un ulteriore livello di bias che non deriva dagli utenti, ma dal funzionamento dei modelli.
Implicazioni della simulazione politica degli LLM per ricerca e piattaforme
Questi risultati hanno conseguenze dirette per l’uso degli LLM come proxy sociali. Se gli agenti amplificano polarizzazione e tossicità, le simulazioni rischiano di sovrastimare il conflitto, normalizzare il linguaggio aggressivo e rafforzare stereotipi ideologici.
In contesti come la moderazione automatica, la progettazione di piattaforme o la simulazione di processi deliberativi, questo significa costruire sistemi che non osservano la società, ma la deformano. L’LLM non si limita a “riflettere” il dibattito: contribuisce a riscriverne le regole linguistiche.
Il punto non è stabilire se i modelli siano “di parte”, ma riconoscere che la loro logica interna privilegia la salienza rispetto alla proporzionalità. Finché questo aspetto non viene preso in carico esplicitamente, l’uso degli LLM come agenti sociali resterà epistemicamente fragile.
Più dati non garantiscono più realismo. A volte producono solo una caricatura meglio rifinita.
Lo studio completo, con dati e metodi, è pubblicato su Online Social Networks and Media.

















