intelligenza artificiale

LLM inaffidabili: perché la verifica umana è indispensabile

I modelli linguistici LLM, pur mostrando capacità straordinarie, richiedono una verifica continua e rigorosa dei loro output per garantire affidabilità e accuratezza, specialmente nelle applicazioni critiche come il ragionamento logico e la rilevazione delle fallacie

Pubblicato il 18 ago 2025

Graziella Soluri

Avvocata

costo LLM e RAG nell'automazione Funzionamento dei modelli ai Vulnerabilità dei LLM red-teaming LLM verifica LLM LLM open source introspezione dei modelli linguistici

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità straordinarie che vanno oltre la semplice previsione del token successivo, inclusa la composizione poetica (o meglio quel sentimento che abbiamo voluto vedere nel risultato ottenuto dopo aver allenato l’algoritmo “poeta” con dati prodotti dagli uomini e dopo aver regolato i relativi pesi), attribuendo a quelle che vengono chiamate emergenze “abilità” comparabili a quelle umane ma che, in realtà non implicano rappresentazione né comprensione.

Llm che ragionano: controllarli per farli funzionare meglio

Indice degli argomenti

Il paradosso delle capacità avanzate e delle limitazioni strutturali degli LLM

Ebbene, a fronte di questi progressi, sorgono interrogativi fondamentali sulla loro affidabilità, coerenza e sulla possibilità di generalizzare le loro capacità computazionali. Questa analisi mira a fornire una breve panoramica delle prestazioni degli LLM in vari compiti cognitivi e linguistici, basata sulla lettura di ricerche recenti che esplorano la loro adattabilità alle modifiche degli input, le loro capacità di “ragionamento logico” e di generazione di dati sintetici e la validità degli output generati. Dalla sintesi di queste diverse prospettive, dedurremo due dati importanti, la fallibilità degli output e l’importanza della verifica rigorosa e continua dei dati processati e generati dagli LLM che per limiti strutturali tendono a commettere errori ed essere affetti da allucinazioni che, una volta “inoculati” nel ciclo ricorsivo si propagano pericolosamente e necessitano dell’intervento correttivo umano per la loro validazione.

La fallacia del linguaggio come effetto-fisso negli LLM

La valutazione delle capacità degli LLM è intrinsecamente complessa; consiste nell’analisi di un problema significativo che risiede nella ‘fallacia del linguaggio come effetto-fisso’. Questa fallacia si verifica quando le osservazioni sperimentali sulle attività linguistiche vengono indebitamente generalizzate per limiti dell’architettura del modello spinto oltre quanto i modelli siano effettivamente in grado di operare.

Studi approfonditi su GPT-4 hanno rivelato che modifiche apparentemente banali nella formulazione della query o nella popolazione dei parametri di input possono produrre differenze di accuratezza ben maggiori di quanto spiegabile da effetti di campionamento. Ad esempio, le prestazioni in un semplice compito di conteggio di elementi in una lista variano non solo con la formulazione della query e la lunghezza della lista, ma anche con la composizione della lista stessa (es. tipologia di oggetto da contare) e la frequenza dell’oggetto. Allo stesso modo, l’accuratezza nel trovare il massimo in una lista, pur essendo generalmente buona, mostra variazioni significative a seconda che i numeri siano decimali, interi o coppie nome-valore. Il compito di trovare la mediana presenta una sensibilità ancora maggiore con la performance che decade rapidamente all’aumentare della lunghezza della lista e variando drasticamente con il formato dei numeri. Per la moltiplicazione, è stato osservato che l’accuratezza dipende dalla lunghezza dei numeri e persino dall’ordine dei moltiplicandi (es. 4×2 vs 2×4).

Tale sensibilità implica che le astrazioni che diamo per scontate per gli esseri umani (ad esempio, separare il compito di contare dalla cosa da contare) non sembrano essere replicate dagli LLM proprio perché mancano di capacità di comprendere il contesto; sebbene tecniche come il prompt engineering o l’uso di chain-of-thought possano migliorare l’accuratezza in contesti specifici, non vi è alcuna garanzia che tale miglioramento si generalizzi a versioni rielaborate del compito. In sintesi, non ci si può fidare dell’output in assenza di supervisione umana che resta uno dei modi, al momento più accurati e non scalabile, per garantire la sicurezza e l’usabilità della risposta in coerenza con le prescrizioni normative in materia.

Il ragionamento logico degli LLM: capacità e limiti nei benchmark avanzati

Passiamo quindi ad esaminare la valutazione delle capacità di “ragionamento logico degli LLM” data la loro crescente integrazione in compiti che richiedono un pensiero elaborato. Dagli studi effettuati emerge che i benchmark esistenti sono spesso limitati da esempi eccessivamente semplicistici, innaturali o contestualmente limitati.

Per ovviare a queste carenze, nello studio esaminato (cfr. 2), è stato introdotto nel test di convalida lo SmartyPat-Bench, un benchmark sfidante, naturalmente espresso e sistematicamente etichettato, derivato da post reali di alta qualità reperiti da Reddit e contenenti sottili fallacie logiche.

La costruzione manuale di SmartyPat-Bench ha rivelato una significativa sproporzione nella distribuzione dei tipi di fallacie (ad esempio, ‘False Premise’, ‘Equivocation’ e ‘False Analogy’ costituiscono oltre il 79% del dataset) e un processo di annotazione laborioso.

Per superare queste limitazioni, è stato sviluppato SmartyPat, un framework automatizzato che utilizza regole di programmazione logica (Prolog) per generare sistematicamente affermazioni fallaci, poi raffinate dagli LLM in frasi naturali e fluide.

Il metodo dello SmartyPat ha dimostrato che gli LLM sono in grado di produrre fallacie paragonabili in sottigliezza e qualità a quelle generate dagli umani, superando significativamente i metodi di base diretti e indiretti di generazione basati su LLM.

Gli esperimenti hanno dimostrato anche che gli LLM tendono a ‘sovra-analizzare’ e applicare criteri eccessivamente severi per ciò che costituisce una frase logicamente sana, portando a tassi elevati di falsi positivi.

Sorprendentemente, modelli più semplici ‘non-ragionanti’ come DeepSeek V3 e Grok-2 hanno superato i modelli ‘ragionanti’ (es. Claude 3.7 con pensiero esteso e GPT-o3-mini) nella rilevazione, probabilmente a causa di minori sovrainterpretazioni.

Questo suggerisce che gli LLM tendono a identificare eccessivamente le fallacie logiche, interpretando elementi minori o ambigui come fallaci mentre sono più efficaci nel rilevare ‘False Cause’ e ‘False Analogy’, ma incontrano difficoltà con fallacie che richiedono una comprensione contestuale più sfumata, come ‘Contextomy’ e ‘Improper Transposition’. Nella categorizzazione delle fallacie, i modelli ragionanti generalmente mostrano prestazioni migliori. La serie GPT, in particolare GPT-o3-mini, ha dimostrato un forte equilibrio tra rilevamento e categorizzazione, con un’elevata precisione nella selezione delle etichette. In sintesi, anche in questi esperimenti gli algoritmi sono bravi ad eseguire compiti specifici ma non sono in grado di replicare puntualmente le abilità umane per limiti legati alle loro architetture e, nonostante siano stati introdotti sistemi automatizzati per calibrare meglio i risultati per una maggiore accuratezza del risultato è necessaria la supervisione umana.

LLM e disinformazione: generazione di dati fallaci nei forum online

Inoltre, la proliferazione della disinformazione ha reso cruciale la capacità di distinguere i fatti dalla finzione, in particolare nel discorso online. La rilevazione delle fallacie mira a identificare il ragionamento difettoso che si verifica nei media a seguito di una forma o un contenuto argomentativo errato o non valido.

Il ragionamento fallace è un segno distintivo comune delle tecniche di propaganda, tuttavia, identificare correttamente il ragionamento fallace è intrinsecamente difficile a causa della dipendenza dal contesto e dell’interpretazione.

Per affrontare la mancanza di dati informali e testuali per la rilevazione automatica delle fallacie nei post dei social media, è stato esplorato il progetto SLURG (Shady Linguistic Utterance Replication-Generation).

Questo studio si è concentrato sulla fattibilità della generazione di commenti sintetici fallaci in stile forum, utilizzando LLM (DeepHermes-3-Mistral-24B) e restringendo il dominio alla discussione del conflitto ucraino-russo.

La raccolta di dati reali da piattaforme come Reddit ha evidenziato la natura non standardizzata del linguaggio online, la presenza di profanità e retorica estremista, e la necessità di una profonda consapevolezza contestuale per l’annotazione.

I risultati hanno indicato che gli LLM sono in grado di replicare i modelli sintattici dei dati reali, inoltre, l’uso di prompt few-shot di alta qualità ha migliorato la capacità degli LLM di imitare la diversità lessicale dei forum online (misurata dal rapporto hapax-legomena).

l modello sollecitato con il 20% delle annotazioni gold-label ha ricevuto i punteggi più alti per realismo, accuratezza della fallacia e accuratezza dello spam.

Nonostante la capacità di replicare lo stile, il contenuto sintetico generato dagli LLM spesso appare più coerente rispetto ai post autentici dei social media, rendendolo potenzialmente distinguibile dalla scrittura umana.

Alcuni post reali, d’altro canto, sembravano sospettosamente generati da LLM e, questo solleva importanti considerazioni etiche riguardanti il linguaggio offensivo, il rischio di censura e l’uso improprio dei sistemi di rilevamento, e la necessità di bilanciare la rilevazione della disinformazione con la libertà di parola, abilità che, a quanto pare, conoscendo bene gli algoritmi in circolazione e il loro funzionamento, rimane ancora saldamente nella disponibilità umana.

LLM e rilevazione della propaganda: tra potenzialità e difficoltà

Nel contesto più specifico della rilevazione della propaganda, gli LLM sono stati valutati per la loro efficacia nell’identificare tecniche manipolative negli articoli di notizie. Utilizzando il dataset PTC e diverse strategie di prompting (zero-shot, one-shot, Chain-of-Thought, Generated Knowledge, Self-Consistency), lo studio ha confrontato le prestazioni di GPT-3.5, GPT-4 e Claude 3 Opus con modelli transformer-based di riferimento.

I risultati hanno mostrato che nessuno degli LLM ha superato il baseline RoBERTa-CRF, considerato lo stato dell’arte (F1=0.67), sia a livello di macro-F1 che per le singole tecniche. Sebbene GPT-4 abbia superato GPT-3.5 e Claude 3 Opus, e in alcuni casi il baseline Multi-Granularity Network (MGN), le sue prestazioni complessive sono rimaste inferiori ai modelli specializzati. Tutte le LLM hanno superato il modello MGN nel rilevare il “name-calling”, e GPT-4 e GPT-3.5 hanno mostrato migliori prestazioni in “appeal-to-fear” e “flag-waving” in determinate condizioni di prompting. Tuttavia, non hanno superato il MGN in “loaded language”, “doubt” e “exaggeration/minimization”.

È stato rilevato che gli LLM, in particolare, mostrano valori di precisione bassi (indicando alti falsi positivi), sollevando interrogativi sulla possibilità che identifichino istanze di propaganda che potrebbero essere sfuggite agli annotatori umani nel dataset originale, la cui concordanza inter-annotatore era moderata. Ciò suggerisce che, anche quando gli LLM identificano correttamente delle fallacie, la loro “sicurezza” nell’identificazione potrebbe non sempre corrispondere all’intento originale degli annotatori umani o a una comprensione sfumata della questione. Ancora una volta l’uso non supervisionato dei modelli può portare ad errori e discriminazioni ingiustificate violando il bilanciamento necessario tra non discriminazione, libertà di espressione e divieto di manipolazione dell’opinione pubblica.

Conclusioni: la necessità di supervisione continua per un uso sicuro degli LLM

La sintesi delle ricerche esaminate evidenzia un paradosso fondamentale nel campo degli LLM: nonostante le loro capacità di simulare abilità umane sia in campo linguistico che cognitivo sorprendenti, la loro affidabilità e possibilità di poter generalizzare questi compiti non può essere data per scontato.

La loro estrema sensibilità a modifiche minime dell’input, l’inattendibilità delle intuizioni umane nel prevederne il comportamento, e la tendenza ad “allucinare” o produrre errori bizzarri anche in compiti semplici richiedono una vigilanza costante.

Il bias di “sovra-analisi” che porta a un alto tasso di falsi positivi nella rilevazione delle fallacie logiche e le prestazioni sub-ottimali rispetto a modelli specializzati in compiti di rilevamento della propaganda sottolineano ulteriormente che le LLM non sono “solutori perfetti” e che l’intervento del controllo /verifica da parte umana è al momento ineliminabili e presidio di garanzia per un uso sicuro e consapevole dei modelli.

Pertanto, è imperativo che la verifica dei dati processati e delle conclusioni prodotte dai modelli linguistici generativi sia una pratica standard e onnicomprensiva: l’attività di verifica deve estendersi oltre la semplice valutazione dell’accuratezza superficiale, abbracciando un esame critico della coerenza, della robustezza e della trasparenza del loro “ragionamento”.

La dipendenza esclusiva dagli LLM per compiti critici senza adeguati meccanismi di convalida espone al rischio di propagare disinformazione, prendere decisioni errate e mal allineate con gli obiettivi umani.

Gli LLM non sono scatole nere infallibili; piuttosto, sono potenti strumenti che richiedono una comprensione profonda delle loro funzionalità e, soprattutto, dei loro limiti strutturali, per essere utilizzati in modo responsabile ed efficace nella società. La verifica non è un’opzione, ma una necessità assoluta per garantire l’integrità, l’affidabilità e l’uso dell’intelligenza artificiale conformemente ai nostri valori democratici (cfr. 4).

Fonti

1. Can we count on LLMS? The fixed-effect fallacy and claims of Gpt-4 capabilities – Thomas Ball, Shuo Chen and Cormac Herley Microsoft Research Redmond,WA, September 25, 2024, arXiv:2409.07638v2 [cs.AI] 24 Sep 2024;

2. Socrates or Smartypants: Testing Logic Reasoning – Capabilities of Large Language Models with Logic , Programming-based Test Oracles, ZIHAO XU*, University of New South Wales, Australia, JUNCHEN DING*, University of New South Wales, Australia, YILING LOU, Fudan University, China, KUN ZHANG, Carnegie Mellon University, USA, DONG GONG, University of New South Wales, Australia, YUEKANG LI†, University of New South Wales, Australia, arXiv:2504.12312v1 [cs.CL] 9 Apr 2025;

3. SLURG: Investigating the Feasibility of Generating, Synthetic Online Fallacious Discourse, Cal Blanco Gavin D’Souza Hugo Lin Chelsey Rush, University of California, Santa Cruz, wcblanco, gpdsouza, hlin86, chrush | @ucsc.edu, arXiv:2504.12466v1 [cs.CL] 16 Apr 2025;

4. Are Large Language Models Good at Detecting Propaganda? Julia Jose, Rachel Greenstadt, New York University, Department of Computer Science and Engineering, New York, New York, USA julia.jose@nyu.edu, greenstadt@nyu.edu, arXiv:2505.13706v1 [cs.CL] 19 May 2025.

@RIPRODUZIONE RISERVATA