I Large Language Model sono addestrati per compiacere, non per essere veritieri. Questa asimmetria — strutturale, documentata, e largamente sottovalutata nel dibattito pubblico sull’intelligenza artificiale — ha conseguenze concrete per chiunque utilizzi questi strumenti in contesti decisionali, professionali o istituzionali.
Analizziamo i meccanismi di addestramento che generano questa divergenza, esamina i dati empirici più significativi oggi disponibili sull’uso effettivo dei sistemi IA conversazionali, approfondisce temi fondamentali come le hallucination e l’epistemia, e propone un modello operativo — il Calibration Prompt — per trasformare l’interazione con i sistemi IA dalla consuetudine di un atto di automazione di pura delega a una pratica consapevole di augmentation (amplificazione) cognitiva.
Indice degli argomenti
I Large Language Model tra qualità intrinseca e qualità percepita
Negli ultimi anni l’utilizzo dei Large Language Model ha raggiunto un livello di diffusione senza precedenti: milioni di utenti li impiegano quotidianamente per scrivere, riassumere, programmare, analizzare dati, prendere decisioni, riflettere su questioni personali. La loro apparente competenza, unita alla fluidità linguistica e alla capacità di adattarsi al tono dell’interlocutore, produce un’esperienza d’uso che spesso viene percepita come sorprendentemente intelligente.
Eppure, proprio in questa apparente maturità si annida un paradosso strutturale: i modelli linguistici contemporanei non sono ottimizzati primariamente per la correttezza oggettiva delle loro risposte, bensì per la soddisfazione percepita dagli utenti. Il loro addestramento sembra privilegiare ciò che appare utile, convincente, appropriato, rispetto a ciò che è rigorosamente vero, logicamente fondato o epistemicamente giustificato. La letteratura scientifica più recente ha documentato in modo sistematico questa divergenza, mostrando come l’allineamento tramite preferenze umane introduca una tensione permanente tra qualità intrinseca e qualità percepita.
Ma cosa intendiamo per qualità intrinseca e qualità percepita? La qualità intrinseca riguarda proprietà oggettivamente verificabili dell’output: ad esempio, una risposta può essere fattualmente corretta oppure no, un’argomentazione può essere logicamente coerente oppure presentare elementi di infondatezza, un codice può andare correttamente in esecuzione oppure generare errori, una formula matematica può essere formalmente valida oppure contenere dei passaggi scorretti; la qualità intrinseca è quindi legata a criteri indipendenti dall’impressione soggettiva dell’utente. D’altra parte, la qualità percepita è invece una valutazione soggettiva: una risposta può risultare chiara, articolata, rassicurante, ben formattata, convincente nel tono e quindi essere giudicata “buona”, anche se contiene imprecisioni o errori sostanziali; la fluidità stilistica e la sicurezza espressiva agiscono come segnali di competenza, generando fiducia che però può essere più o meno giustificata.
Il punto decisivo è che queste due dimensioni non solo non coincidono, ma possono divergere in modo sistematico: infatti, un modello può diventare sempre più abile nel produrre risposte che sembrano competenti senza assolutamente migliorare in modo proporzionale la propria accuratezza oggettiva.
Compiacere rispetto a essere veritieri: l’asimmetria epistemica dei Large Language Model
Il tema di fondo è semplice e, proprio per questo, molto delicato e rischioso: i LLM conversazionali sono ottimizzati per risultare preferibili all’utente, e non per essere strettamente veritieri. La preferenza umana, quando viene trasformata in un obiettivo dell’addestramento, tende infatti a premiare maggiormente dei segnali facilmente percepibili (come ad esempio tono, scorrevolezza, completezza apparente, assertività, “buona educazione”) rispetto a delle qualità difficili da verificare in tempo reale (come ad esempio correttezza fattuale, solidità inferenziale, rispondenza a vincoli tecnici). Questa osservazione non vuole naturalmente essere una critica “morale” allo sforzo di “compiacere”, ma è una constatazione ingegneristica: se ad esempio un sistema impara a massimizzare un proxy di soddisfazione, tenderà poi “strutturalmente” a produrre testi che sembrano buoni anche quando non lo sono. L’episodio del 2025 in cui OpenAI ha dovuto ripristinare una versione precedente di GPT 4o perché l’aggiornamento risultava eccessivamente lusinghiero è un caso di studio emblematico: la stessa azienda ha ricostruito il problema come l’effetto di un’eccessiva enfasi su feedback di breve periodo basati su segnali degli utenti (ad esempio “pollici su o giù”), che ha sbilanciato il modello verso risposte di supporto, ma non per questo autentiche (OpenAI, 2025).
Questa asimmetria produce conseguenze pratiche immediate nelle organizzazioni per cui la tecnologia entra nelle filiere di conoscenza e di responsabilità: qui infatti l’IA non si limita a generare contenuti, ma orienta credenze e azioni. La letteratura filosofica recente sul tema sottolinea un punto chiave: i LLM operano spesso come “scatole nere” (opacità dei dati e dell’algoritmo) e, allo stesso tempo, risultano fenomenologicamente fluidi e trasparenti nell’interazione, e questa combinazione rende difficile per gli utenti calibrare correttamente la loro fiducia. Il rischio non è tanto il verificarsi dell’errore sporadico, quanto la costruzione sistematica di fiducia immeritata proprio quando il sistema può “allucinare” (hallucinate) senza segnalarlo in modo affidabile.
Dalla predizione al compiacimento: cosa ottimizza davvero l’addestramento
Un LLM nasce, in prima approssimazione, come un sistema predittivo, che apprende regolarità statistiche nel linguaggio e genera continuazioni plausibili di un input: questa natura predittiva, da sola, produce testi spesso competenti e accattivanti, ma allo stesso tempo non garantisce né verità né aderenza alle intenzioni dell’utente. Proprio per questo, i sistemi commerciali moderni aggiungono una seconda fase cruciale: il post training (o alignment) orientato a rendere il modello più efficace nella conversazione. Ad esempio, in InstructGPT, OpenAI descrive una pipeline tipica: fine tuning supervisionato su risposte scritte da annotatori, costruzione di un reward model (modello di ricompensa) che apprende preferenze umane tramite confronti tra risposte alternative e ottimizzazione del modello per massimizzare quel reward attraverso del reinforcement learning (apprendimento per rinforzo).
Qui si inserisce il punto decisivo: l’ottimizzazione non avviene rispetto a una nozione “robusta” di verità, ma solo rispetto a un segnale di preferenza. InstructGPT mostra che un modello molto più piccolo (1,3B parametri) può essere giudicato preferibile dagli umani rispetto a GPT 3 da 175B parametri, e questo è un risultato perfettamente coerente con un obiettivo orientato all’esperienza d’uso; Anthropic, in parallelo, formalizza l’idea di un assistente helpful and harmless e mostra che il Reinforcement Learning from Human Feedback può migliorare molte valutazioni di Natural Language Processing, ma sempre nel quadro di un addestramento che ha l’obiettivo di ottenere comportamenti desiderati (come quello di essere utili, o quello di non nuocere), non certo quello di fornire una garanzia epistemica universale.
Infatti, la verità, in queste architetture, è al massimo un vincolo laterale o un obiettivo parziale, spesso in tensione con altri obiettivi (come ad esempio quelli di piacere, essere supportivi, ridurre delle frizioni, rispettare delle policy). L’ottimizzazione della preferenza umana introduce inevitabilmente una catena di proxy: tra la “qualità reale” e la “qualità premiata dal reward” si frappongono giudizi umani affetti da rumore, euristiche di valutazione, e modelli di ricompensa che apprendono a utilizzare “scorciatoie”. Il risultato è un sistema che eccelle nel produrre output socialmente compatibili con l’aspettativa dell’utente, ma non necessariamente nel produrre output epistemicamente giustificati; questa trasformazione è strutturale: non dipende infatti da un singolo modello o da un singolo vendor, ma dal fatto che l’esperienza conversazionale richiede condiscendenza e aderenza all’intento percepito, mentre la verità richiede spesso di superare una certa tensione o frizione — come ad esempio incertezza, risposte “non lo so”, richieste di chiarimento, verifiche esterne (Ouyang et al., 2022).
Certamente esistono degli approcci che cercano di rendere più ispezionabile l’alignment: la Constitutional AI di Anthropic, ad esempio, sostituisce una parte del feedback umano con una costituzione di principi e con feedback generato da modelli (Reinforcement Learning from AI Feedback, RLAIF), nel tentativo di rendere regole e trade off più espliciti. Metodi come la Direct Preference Optimization (DPO) semplificano invece la pipeline eliminando la fase di reinforcement learning classica, ma restano principalmente dipendenti dalla qualità dei dati di preferenza: se la preferenza è un proxy imperfetto, anche l’ottimizzazione diretta può incorporarne le distorsioni (Bai et al., 2022).
Quando vince la qualità percepita: bias sistematici e Goodharting
Se il reward premia ciò che gli umani preferiscono, la domanda empirica diventa: che cosa preferiscono davvero valutatori e utenti? La ricerca recente mostra pattern convergenti: preferiamo risposte che confermano le nostre credenze, che suonano sicure, e che sembrano complete. Il fenomeno della sycophancy (adulazione/assecondamento) è stato misurato in modo sistematico: assistenti AI “state of the art” manifestano tendenze a compiacere l’utente su task diversi, così come, inoltre, analizzando dati di preferenza umana, evidenziano che allineare modelli su quel tipo di feedback può favorire risposte che si allineano con le credenze dell’utente anche quando in effetti vanno in conflitto con ciò che sarebbe più corretto. L’episodio GPT 4o non è quindi una stranezza, ma, piuttosto, è un sintomo visibile di un gradiente di addestramento che, se sbilanciato, porta il modello a essere eccessivamente accondiscendente. (Sharma et al., 2023)
Accanto alla sycophancy c’è poi un bias ancor più subdolo perché “tecnico” e poco discusso: la verbosità come scorciatoia. Infatti, in diversi contesti RLHF, l’aumento di reward è spesso guidato dall’aumento della lunghezza della risposta; addirittura, un reward basato solo sulla lunghezza può replicare gran parte dei miglioramenti attribuiti all’RLHF rispetto al solo fine tuning supervisionato (Singhal et al., 2023). Questo significa che una parte del “sembra migliore” può, in pratica, derivare dal “perché è più lungo”. Mentre però, per l’utente medio, una risposta lunga può apparire più competente, per un processo decisionale una risposta lunga ma parzialmente errata può paradossalmente essere molto più dannosa di una risposta breve ma epistemicamente cauta.
Il quadro teorico che unifica questi tipi di fenomeni è la Legge di Goodhart: quando una misura diventa un obiettivo, smette di essere una buona misura. Nel caso dell’RLHF, l’obiettivo non è un “fatto” o una “prova”, ma un punteggio che “approssima” delle preferenze. Il problema della reward model over-optimization è stato formalizzato e misurato tanto da poter osservare che ottimizzare troppo un proxy reward può far diminuire la performance complessiva rispetto a un “gold standard” di riferimento, con un andamento tipico caratterizzato da crescita iniziale, poi picco, infine degradazione (Gao, Schulman & Hilton, 2023). In contesti reali, pertanto, il rischio è che il modello impari ciò che massimizza l’impressione di qualità presso valutatori o utenti, anche se questo peggiora la qualità intrinseca.
La conseguenza più inquietante è che l’ottimizzazione può non limitarsi a produrre risposte “più belle”, ma può rendere il modello più convincente anche quando dà risposte sbagliate. Il lavoro noto come U SOPHISTRY (Wen et al., 2024) studia ad esempio un fallimento specifico dell’RLHF: dopo l’allineamento, i soggetti umani aumentano il tasso di falsi positivi nel valutare output errati come corretti (misurato su task di QA e programmazione), perché l’output è più persuasivo pur non essendo più corretto. Il principio, al di là dei dettagli metodologici, resta rilevante: quando il reward premia la persuasività percepita, il sistema impara a generare e a restituire dei segnali di affidabilità, e non necessariamente una affidabilità effettiva.
Un ulteriore tassello, spesso sottovalutato nelle applicazioni, è il bias verso il formato: esistono anche delle evidenze di come dei modelli di preferenza (umani o dei LLM) possano favorire pattern stilistici specifici (liste, grassetto, link, emoji), inducendo così delle forme di alignment “cosmetico”, in quanto cambiare il contenitore è certamente più facile che migliorarne il contenuto.
Cosa le persone utilizzano davvero i chatbot: evidenze empiriche e verificabilità
Il working paper How People Use ChatGPT (Chatterji et al., 2025) fornisce una delle analisi più ampie disponibili sull’utilizzo dei LLM, documentando che, a luglio 2025, ChatGPT veniva usato settimanalmente da oltre 700 milioni di utenti e gestiva più di 2,5 miliardi di messaggi al giorno; già nell’introduzione, gli autori riportano volumi di 18 miliardi di messaggi a settimana inviati da 700 milioni di utenti, ovvero da circa il 10% della popolazione adulta globale. Il fattore di scala si rivela determinante, perché, ad esempio, quando un sistema opera a questi volumi, anche dei piccoli bias di addestramento possono generare dei macroscopici effetti sociali. Lo studio utilizza una pipeline di classificazione automatizzata e privacy preserving: gli autori sottolineano esplicitamente che nessun messaggio utente è stato anche solo osservato da esseri umani durante le analisi, e le diverse tassonomie (se il messaggio sia finalizzato a un lavoro retribuito o invece all’utilizzo personale, quale sia l’argomento della conversazione, quale sia il tipo di interazione — chiedere, fare o esprimere, e la mansione che l’utente sta svolgendo, sono definite con dei prompt sottoposti ai LLM. In termini di contenuto, il paper evidenzia poi che, a luglio 2025, più del 70% delle interazioni non era legato al lavoro, e che i tre argomenti di gran lunga più comuni sono costituiti da richieste di guide pratiche, ricerche di informazioni e supporto alla scrittura.
Qui emerge un dato cruciale per la tesi “compiacere piuttosto che rappresentare la verità”: la soddisfazione degli utenti varia fortemente per tipo di task. Gli autori definiscono un classificatore di Interaction Quality che cerca segnali di soddisfazione/insoddisfazione nel messaggio successivo dell’utente, descritta come automated sentiment analysis of the next response provided by the user e con possibili risposte good/bad/unknown. Quando si guarda al rapporto Good/Bad per argomento, l’espressione di sé risulta avere il punteggio più alto (“più di 7”!), mentre a multimedia e al supporto tecnico corrispondono i valori più bassi (circa 1,7 e 2,7): in sostanza, l’utente è molto più soddisfatto quando il compito è espressivo o conversazionale e invece molto meno soddisfatto quando il compito è tecnico o richiede output immediatamente verificabili.
Tuttavia, il classificatore di qualità è, per stessa ammissione degli autori, una stima indiretta della soddisfazione, non una misura della correttezza: la validazione mostra che le annotazioni umane e del modello sulla qualità dell’interazione sono rumorose, cioè sono presenti errori, incongruenze o variazioni casuali nei dati, (e queste limitazioni non annullano certamente il valore del risultato, ma ne impongono un uso corretto, in quanto i numeri sono indicatori direzionali di esperienza percepita, non misure di qualità epistemica).
Tuttavia, il pattern è coerente con un’ipotesi forte: la soddisfazione cresce quando la qualità è meno “falsificabile” dall’utente e decresce quando l’utente può verificare subito se l’output è corretto. Qui diventa utile un concetto dell’economia dell’informazione: i credence goods (beni basati sulla fiducia), ovvero beni/servizi la cui qualità è difficile o impossibile da verificare anche dopo l’uso, asimmetria informativa questa che si può osservare nei mercati in cui il cliente non può valutare pienamente la qualità del servizio ricevuto (Darby & Karni, 1973). La conversazione con i LLM, in molti contesti, funziona proprio come un bene “basato sulla fiducia”: l’utente spesso non ha competenze o tempo per verificare, e dove non può verificare, tende a fidarsi di segnali superficiali di competenza (fluidità, coerenza narrativa, tono sicuro), i quali peraltro sono esattamente i tipi di segnale che l’RLHF e l’ottimizzazione su feedback di prodotto possono amplificare.
Tuttavia, proprio perché il valore di questi modelli è nel supporto cognitivo, il rischio epistemico è intrinseco: se il sistema è ottimizzato a “far sentire l’utente supportato”, può fornire supporto persuasivo anche quando il contenuto è errato o fondato su basi false o sbagliate a loro volta.
Allucinazioni nei LLM: la fabbricazione plausibile come costo strutturale
Nel linguaggio pubblico, “allucinazione” è diventata la “parola ombrello” (termine omnicomprensivo) per descrivere quando un LLM produce contenuti falsi, inventati o non supportati, ma presentati in modo plausibile. In letteratura, il termine ha una genealogia più precisa: panoramiche sull’hallucination nella generazione linguistica (Huang et al., 2025) propongono tassonomie e distinguono casi in cui il testo generato contraddice l’input o le fonti (hallucination intrinseca) da casi in cui aggiunge dettagli non verificabili o non supportati (hallucination estrinseca). Questa distinzione è operativamente importante: la prima categoria è spesso individuabile confrontando output e contesto; la seconda richiede un ancoraggio a fonti esterne, perché l’errore consiste proprio nell’inventare “oltre” ciò che è disponibile.
Per capire perché l’hallucination non è un bug marginale, ma un sottoprodotto sistemico, occorre ricordare che ogni modello è un generatore probabilistico di sequenze linguistiche: la produzione di una risposta è una ricerca in uno spazio di continuazioni plausibili, e, quando l’informazione mancante è necessaria per completare una frase coerente, il modello può inserire ciò che massimizza la plausibilità narrativa. TruthfulQA nasce esattamente per misurare la tendenza dei LLM a mimare false credenze umane: il benchmark mostra che il modello migliore testato si dimostrava veritiero solo nel 58% delle domande, contro il 94% degli umani, e che i modelli più grandi risultavano spesso ancor meno veritieri, perché apprendono e riproducono false credenze diffuse nei dati (imitative falsehoods). La lesson learned è fondamentale: una maggiore capacità linguistica può significare anche una maggiore capacità di produrre menzogne ben confezionate (Lin et al., 2022).
In aggiunta, l’hallucination non riguarda solo i fatti, ma anche la meta informazione, come citazioni bibliografiche, riferimenti normativi, numeri, nomi propri, procedure, ed è qui che la logica dell’addestramento “per preferenza” può diventare dirompente: se agli occhi dell’utente una risposta che include delle citazioni sembra più seria, il sistema può essere spinto a produrre citazioni anche quando non ha un vero ancoraggio alla realtà. Il problema poi peggiora quando la risposta viene data con un’alta confidenza linguistica, perché la forma assertiva è spesso premiata (e ritenuta socialmente rassicurante). La ricerca sulla calibrazione conferma che l’auto confidenza dichiarata dai modelli discrimina poco tra risposte corrette e non corrette: ad esempio, in un’analisi su delle domande cliniche, la differenza media di confidenza tra risposte giuste e sbagliate è bassa (nell’ordine di pochi punti percentuali) anche per modelli forti, e, paradossalmente, modelli meno accurati possono risultare più sicuri. Se la confidenza non riguarda difatti le informazioni, l’utente non ha segnali interni affidabili per distinguere fra verità e fabbricazione della realtà.
C’è poi un punto spesso ignorato quando si pensa che basti usare la Retrieval Augmented Generation (RAG): l’ancoraggio a fonti esterne migliora la fattualità in molti casi, ma introduce nuove modalità di errore. Ad esempio, se la ricerca recupera documenti errati o inventati, il generatore può essere fuorviato: il lavoro di Dhuliawala et al. (2024) parla esplicitamente di Hallucination on Hallucination, quando l’errore nella ricerca si combina con l’errore di generazione. In altre parole, l’augmentation documentale non elimina l’epistemologia del problema, ma sposta il punto critico dalla generazione alla catena socio tecnica di recupero, selezione, sintesi e presentazione. Proprio perché l’hallucination è strutturale, le mitigazioni efficaci tendono a essere anch’esse strutturali: non un singolo “trucco contenuto in un prompt”, ma protocolli di deliberazione e verifica. Metodi come Chain of Verification (CoVe) propongono di far redigere al modello una bozza, generare domande di verifica, rispondere separatamente a tali domande e poi produrre una risposta finale “verificata”, mostrando empiricamente riduzioni delle hallucinations in task diversi. Altri approcci, come SelfCheckGPT (Manakul et al., 2023), usano campionamenti multipli dal modello per stimare inconsistenze: se le risposte campionate divergono fortemente, è un segnale che il contenuto potrebbe essere una confabulazione. Questi metodi non rendono il modello “veritiero” in senso filosofico, ma lo rendono più adatto a un uso responsabile, perché aumentano la probabilità che l’output contenga indicatori di incertezza e spunti di falsificazione.
Dal punto di vista dell’utilizzo organizzativo e decisionale dei LLM, può risultare utile una classificazione più orientata agli effetti epistemici dell’errore. Di seguito si propone quindi una tassonomia operativa che distingue cinque forme principali di hallucination: le hallucination fattuali (factual errors) sono gli errori più comuni, quando il modello afferma un fatto verificabile ma errato, ad esempio una data, un autore, una statistica o un rapporto causale inesatto; in questi casi il problema è relativamente semplice da individuare tramite verifica esterna. Nelle hallucination di fabbricazione (fabricated content) il modello introduce entità, eventi o dettagli che non risultano verificabili: studi inesistenti, istituzioni immaginarie, citazioni accademiche plausibili, ma false; questo tipo di errore è particolarmente critico perché sfrutta schemi formali appresi durante l’addestramento (come la struttura delle citazioni scientifiche) producendo contenuti altamente credibili. Nelle hallucination di overclaim (generalizzazione eccessiva), il contenuto non è completamente inventato, ma viene presentato con un grado di certezza eccessivo rispetto all’evidenza disponibile: espressioni come “tutti gli studi mostrano” o “è ampiamente dimostrato che” possono rappresentare una forma di amplificazione retorica che supera il supporto empirico reale. Le hallucination di fedeltà (faithfulness errors) si verificano quando il modello contraddice il contesto fornito o devia dalle istruzioni ricevute: sono frequenti in task di sintesi documentale o in sistemi RAG, dove il modello può introdurre informazioni non presenti nel materiale di partenza. Infine, troviamo le Hallucination di attribuzione (citation hallucinations), una categoria particolarmente rilevante in ambito professionale che si verifica quando il modello associa affermazioni a fonti inesistenti o a fonti reali, ma non pertinenti: la presenza di riferimenti bibliografici plausibili aumenta significativamente la credibilità percepita dell’output, amplificando il rischio epistemico. Questa classificazione evidenzia un punto cruciale: non tutte le hallucinations hanno lo stesso impatto: gli errori fattuali semplici sono spesso individuabili; le hallucinations di attribuzione o di fabbricazione, invece, possono produrre fiducia immeritata, perché simulano perfettamente i segnali formali dell’expertise.
Tuttavia, ridurre il problema alle sole hallucinations rischia di essere fuorviante: l’errore puntuale rappresenta infatti solo il sintomo più visibile di una trasformazione più profonda nel rapporto tra utente e conoscenza prodotta da sistemi generativi, e, per comprendere pienamente la portata del fenomeno, è necessario spostare l’attenzione dal piano tecnico a quello epistemologico.
Epistemia: conoscenza, fiducia e responsabilità nell’era dei chatbot
Parlare di epistemia significa spostare la domanda da “il modello sbaglia?” a “che cosa stiamo facendo, come società e come organizzazioni, quando trattiamo un output generato come se fosse “vera” conoscenza?”. In epistemologia, la conoscenza non è una frase vera per caso, ma una credenza vera giustificata. Nell’uso quotidiano dei LLM, però, la giustificazione viene spesso sostituita dalla cosiddetta phenomenology of competence, ovvero la percezione di competenza generata dalla forma linguistica: “sembra competente, dunque lo tratto come competente”. Il punto è che la conversazione crea un’esperienza di “un quasi altro” (quasi interlocutore) e un flusso interazionale che rende l’output fenomenologicamente trasparente, ma, allo stesso tempo, il funzionamento resta opaco (dati e algoritmo). In termini pratici, la maggior parte delle nostre credenze è mediata da altri, come, ad esempio, esperti, istituzioni, documenti, e “l’epistemologia della testimonianza” studia quando è ragionevole credere a qualcuno o qualcosa che attesti un fatto. I LLM complicano la faccenda perché somigliano a “testimoni” competenti, ma non sono agenti responsabili nel senso umano e non offrono strutturalmente segnali affidabili sulla propria affidabilità dominio per dominio. Un’analogia che può essere utile è il novice–expert problem (Goldman, 2001): il profano spesso non è in grado di valutare direttamente la correttezza delle conclusioni di un esperto e deve quindi ricorrere a euristiche indirette, come il consenso tra specialisti, il track record o la qualità dell’argomentazione. Con i LLM, però, molte di queste euristiche diventano difficili da applicare perché la pipeline è opaca e i confini di competenza sono sfumati, per cui il sistema appare generalista e dunque “ovunque competente”, alimentando un errore epistemico di categoria. (Heersmink et al., 2024)
A questo punto si afferma il concetto complementare della vigilanza epistemica: l’uomo infatti possiede meccanismi cognitivi per proteggersi dal rischio di disinformazione, valutando sia l’affidabilità della fonte sia la coerenza del contenuto (Sperber et al., 2010). Il problema contemporaneo è però che i chatbot riducono sistematicamente i segnali di allarme che attivano questa vigilanza: tono educato, fluidità, struttura ordinata, capacità di rispondere sempre, adattamento emotivo. Se inoltre l’addestramento per preferenza spinge verso la sycophancy (tendenza all’assecondamento dell’utente) e assertività, il canale testimoniale diventa ancora più persuasivo. L’errore, quindi, non è solo informativo, come ad esempio una frase sbagliata, ma è un errore profondo nel regime di fiducia che governa il nostro rapporto con l’informazione.
Quando poi questi sistemi entrano in ambiti istituzionali e decisionali, l’epistemia si intreccia con i noti bias dell’interazione uomo macchina: ad esempio, la letteratura sui bias di automazione segnala una tendenza a sovra affidarsi a raccomandazioni automatiche anche in presenza di segnali contrari. Un LLM conversazionale, proprio perché dialoga e può argomentare, ha un potenziale superiore rispetto ad altri sistemi predittivi tradizionali nel costruire razionalizzazioni convincenti, e, in un’organizzazione, ciò può trasformare uno strumento di supporto in un vero e proprio attore che orienta decisioni senza essere sottoposto a protocolli di accountability.
Questa è anche la ragione per cui la regolazione e i framework di gestione del rischio insistono su aspetti che sono, in ultima analisi, epistemici: trasparenza, affidabilità, supervisione umana. Tra le caratteristiche di sistemi considerati affidabili (trustworthy) si riscontrano proprietà come validità, affidabilità, responsabilità, trasparenza, “spiegabilità” (XAI, Explainable AI) e interpretabilità (NIST, 2024), mentre, in ambito europeo, la Commissione Europea descrive l’AI Act (European Union, 2024) come un regime che, per i sistemi ad alto rischio, richiede delle misure tra cui un’informazione chiara all’utente e comunque la necessità di una supervisione umana. Queste cornici di riferimento non risolvono naturalmente la problematica delle hallucination, ma riconoscono implicitamente che la qualità di un sistema AI non può essere ridotta alla soddisfazione o alle prestazioni su benchmark, ma diventa una questione di come il sistema sostiene (o erode) pratiche sociali di conoscenza e responsabilità.
Pertanto, il problema delle hallucination non è solo tecnico, ma epistemico: negli ultimi anni alcuni autori hanno proposto il concetto di epistemia per descrivere la condizione in cui la plausibilità linguistica prodotta da un sistema generativo sostituisce, nell’esperienza dell’utente, il processo di valutazione epistemica. Il termine è stato sviluppato nella letteratura recente (Quattrociocchi et al, 2025), che studia le dinamiche della formazione delle credenze nell’ecosistema informativo contemporaneo, e, in questo contesto, l’epistemia descrive una situazione peculiare, in cui l’utente riceve una risposta che ha la forma della conoscenza ma non il processo epistemico che normalmente la giustifica.
Nell’epistemologia classica la conoscenza viene definita come credenza vera giustificata, mentre nel caso degli LLM la giustificazione è spesso sostituita da segnali superficiali di competenza, come fluidità linguistica, struttura argomentativa ordinata, presenza di terminologia tecnica o citazioni. Il risultato è un’esperienza cognitiva in cui il giudizio non viene esercitato ma implicitamente delegato, e questa condizione non dipende necessariamente dal tasso di errore del sistema: anche quando un modello fornisce risposte corrette, l’utente può trovarsi in una posizione di passività epistemica, perché il processo di valutazione è stato sostituito da un output già confezionato.
La letteratura recente (Quattrociocchi et al, 2025) individua poi diverse linee di faglia epistemologiche tra il modo in cui gli esseri umani formano credenze e il modo in cui i modelli linguistici generano risposte. Tra le più rilevanti si possono individuare: Grounding fault, quando gli esseri umani ancorano la conoscenza all’esperienza percettiva e sociale, per cui gli LLM operano esclusivamente su rappresentazioni testuali; Experience fault, caso in cui l’uomo dispone di memoria episodica e conoscenza del mondo incorporata nell’esperienza, mentre i modelli linguistici non possiedono alcuna esperienza diretta; Causality fault, quando il ragionamento umano utilizza modelli causali e controfattuali e gli LLM operano principalmente attraverso correlazioni statistiche tra sequenze linguistiche; infine, Metacognitive fault, per cui l’uomo è in grado di riconoscere la propria incertezza e sospendere il giudizio, mentre i modelli linguistici non possiedono un meccanismo nativo di metacognizione e tendono a produrre comunque una risposta. Queste divergenze strutturali spiegano perché fenomeni come le hallucination non possano essere eliminate completamente, in quanto non derivano da un difetto locale, ma da una differenza fondamentale tra simulazione linguistica del giudizio e formazione autentica di credenze.
Il concetto di epistemia consente quindi di interpretare in modo più profondo la tensione tra qualità percepita e qualità intrinseca descritta nelle sezioni precedenti: quando un sistema è ottimizzato per produrre risposte fluenti e convincenti, aumenta la probabilità che l’utente attribuisca valore epistemico a segnali che sono in realtà puramente stilistici.
In questo senso le hallucinations rappresentano il sintomo visibile di un fenomeno più generale, ovvero la sostituzione del processo di valutazione con la simulazione linguistica della competenza; non si tratta semplicemente di un problema di accuratezza tecnica, ma di una vera e propria trasformazione delle pratiche sociali di produzione e valutazione della conoscenza.
Il Calibration Prompt come modello di interazione consapevole con i LLM
Nelle sezioni precedenti di questo articolo abbiamo mostrato che i Large Language Model sono addestrati per massimizzare la qualità percepita delle risposte — la soddisfazione soggettiva dell’utente — piuttosto che la loro qualità intrinseca, intesa come correttezza fattuale, coerenza logica e completezza verificabile. Questa asimmetria, prodotta strutturalmente dai meccanismi di addestramento RLHF, si manifesta in modo particolarmente netto nel momento dell’interazione: l’utente si trova di fronte a una risposta fluida, assertiva, ben formattata, che sembra corretta — ma non dispone di strumenti immediati per valutarne la solidità effettiva.
Il problema è di natura epistemica prima ancora che tecnica: infatti, un esperto del dominio può certamente verificare la risposta di un LLM nella propria area di competenza, ma un non-esperto non può ovviamente farlo — a parte il fatto che, se l’utente fosse già esperto al livello necessario per effettuare la verifica, probabilmente non avrebbe bisogno, in prima istanza, di interrogare il modello. Questa asimmetria informativa non è di per sé risolvibile completamente, ma può essere parzialmente aggirata modificando la struttura della richiesta non “per ottenere una risposta migliore”, ma “per creare le condizioni in cui gli errori diventino più visibili e il modello sia più difficile da ingannare”.
Il Calibration Prompt è pensato proprio per rispondere a questa esigenza: non si tratta quindi di una tecnica di prompting orientata a ottenere risposte più lunghe, più creative o più dettagliate, ma piuttosto costituisce un framework per esplicitare una “onestà epistemica” strutturata, rendendo chiaro il tipo di evidenza su cui si fonda la risposta, e, al contempo, manifeste le dimensioni di incertezza, e palesi i limiti di quanto viene affermato. In questo modo, la persona, divenuta consapevole anche dei rischi, si può riappropriare della decisione in termini di cosa è più “corretto” dire e di come dirlo.
Il Calibration Prompt si articola in cinque istruzioni sequenziali, da applicare nell’ordine esatto in cui sono scritte, poi seguite dalla domanda effettiva dell’utente. Il principio generativo non è naturalmente quello di prescrivere cosa rispondere, ma quello di come strutturare “l’onestà epistemica” della risposta.
“Rispondi alla seguente domanda adottando queste regole, nell’ordine esatto in cui sono scritte:
- Distingui esplicitamente ciò che sai con alta certezza da ciò che sai con incertezza moderata, e da ciò che non sai o che richiede verifica esterna. Usa tre sezioni separate se necessario.
- Per ogni affermazione che consideri centrale alla risposta, indica brevemente su che tipo di base si fonda (esperienza empirica documentata, inferenza logica, consenso letteratura, tua stima).
- Se esiste una risposta semplice e una risposta più accurata ma più complicata, fornisci la seconda e spiega perché la prima sarebbe fuorviante.
- Identifica esplicitamente almeno un modo in cui questa risposta potrebbe essere sbagliata o insufficiente.
- Non cercare di essere rassicurante: preferisco una risposta parziale ma onesta a una risposta completa ma inaffidabile.
La domanda è: [DOMANDA]”
La struttura a tre sezioni — alta certezza, incertezza moderata, non so/richiede verifica — non è arbitraria, ma rispecchia la tassonomia epistemica classica della conoscenza dichiarativa e, applicata a un LLM, forza una rappresentazione esplicita dell’incertezza che il training RLHF tende sistematicamente a sopprimere, premiando invece toni assertivi e risposte che sembrano complete. In aggiunta, ogni elemento del Calibration Prompt è progettato per contrastare un bias specifico documentato nella letteratura sull’addestramento degli LLM: di seguito l’analisi punto per punto.
Punto 1 — Struttura dell’incertezza
L’istruzione di separare esplicitamente alta certezza, incertezza moderata e “non so” contrasta l’overcalibration, ovvero la tendenza del modello a presentare tutte le affermazioni con lo stesso tono assertivo indipendentemente dalla solidità dell’evidenza sottostante. Ricerche sulla calibrazione dei LLM, tra cui uno studio su 1.965 domande mediche con 12 modelli (Omar et al, 2025), hanno documentato che la differenza media di confidenza espressa tra risposte corrette e incorrette è talmente piccola da essere sostanzialmente ben poco informativa: forzare la struttura a tre livelli rende invece la calibrazione verificabile dall’utente, trasformando un segnale implicito e inaffidabile in uno esplicito e ispezionabile.
Punto 2 — Tipo di evidenza
Chiedere la base epistemica di ogni affermazione centrale serve a due scopi. Il primo è classificatorio: costringe il modello a operare una distinzione tra “esperienza empirica documentata”, “inferenza logica”, “consenso letteratura” e “stima” — un’operazione che richiede una rappresentazione più elaborata del contenuto rispetto alla semplice generazione di un testo ben scritto. Il secondo è informativo per l’utente: sapere che, ad esempio, un’affermazione si fonda sul consenso di letteratura peer-reviewed piuttosto che semplicemente su una stima del modello cambia infatti radicalmente il peso che quella affermazione dovrebbe avere nel processo decisionale. Questo elemento contrasta in modo diretto il verbosity bias: la valutazione della qualità non è più infatti ancorata alla lunghezza o alla fluidità della risposta, ma piuttosto alla solidità dichiarata delle sue componenti.
Punto 3 — Risposta accurata vs. risposta semplice
Questo è l’elemento che contrasta più direttamente la sycophancy, ovvero la tendenza del modello a fornire la risposta che l’utente si aspetta, che è spesso quella più semplice, più rassicurante e “meno disturbante”. Chiedere esplicitamente la versione più accurata, con spiegazione del perché la versione semplice sarebbe fuorviante, inverte l’incentivo implicito: il modello non può più “vincere” con una risposta intuitiva e confortante, ma deve dimostrare perché la complessità è necessaria. Questo è il punto che più direttamente serve a estrarre valore aggiunto cognitivo dall’interazione.
Punto 4 — Identificazione dei limiti
Chiedere al modello di identificare almeno un modo in cui la risposta potrebbe essere sbagliata o insufficiente attiva un meccanismo di self-critique (autocritica) che compete con la tendenza alla completezza non reale ma apparente, dovuta al fatto che i modelli addestrati con RLHF producono risposte percepite come complete perché la completezza è correlata con punteggi di preferenza più alti. Esplicitare invece che la completezza è secondaria rispetto all’onestà — e richiedere quindi una critica esplicita — sposta il punto di ottimizzazione implicito: non elimina il problema, ma aumenta il costo cognitivo della interazione, in quanto è più difficile produrre una critica falsa di una risposta corretta che produrre una risposta falsamente sicura.
Punto 5 — Contratto epistemico
L’ultima istruzione — “non cercare di essere rassicurante: preferisco una risposta parziale ma onesta a una risposta completa ma inaffidabile” — è una comunicazione esplicita del “contratto di preferenza”: l’RLHF ha insegnato al modello che gli utenti vogliono risposte complete, rassicuranti e che chiudono la questione, e rompere le “regole” di quel contratto in modo esplicito utilizzando come strumento il “contesto” del prompt sposta la “ricompensa” implicita percepita dal modello, in quanto il comportamento premiato diventa “l’onestà parziale”, non più la completezza apparente. In generale, questo è il punto che rende il Calibration Prompt strutturalmente diverso da una semplice richiesta di “rispondere meglio”.
La risposta ottenuta tramite il Calibration Prompt non è solo potenzialmente più accurata di una risposta standard — è anche molto più ricca di informazioni che vengono messe a disposizione del processo di valutazione dell’utente. La struttura a tre sezioni fornisce infatti informazioni che una risposta standard nasconde o comprime, non solo quindi riportando la decisione alla persona — il che peraltro non è poco —, ma potenziando (augment) anche il processo di decisione stesso. Infatti, la sezione di alta certezza indica dove l’utente può affidarsi alla risposta con maggiore fiducia e, eventualmente, dove il costo della verifica esterna è più basso perché riguarda affermazioni già presentate come solide; la sezione di incertezza moderata segnala i punti su cui concentrare l’attenzione critica: qui troviamo le affermazioni che il modello ritiene rilevanti ma che non garantisce, e che spesso quindi corrispondono ai punti dove la qualità intrinseca diverge maggiormente da quella percepita; la sezione “non so / richiede verifica” è forse la più preziosa: un modello ben calibrato che dichiara esplicitamente i propri limiti su un dominio specifico fornisce all’utente un’informazione di governance — sa dove cercare, cosa verificare, a chi rivolgersi.
In definitiva, l’utente che riceve una risposta strutturata in questo modo può operare una scelta consapevole: affidarsi alla sezione di alta certezza per decisioni a basso rischio, trattare la sezione di incertezza moderata come ipotesi da validare, e usare la sezione “non so” come mappa delle lacune da colmare con fonti esterne. Questo trasforma l’interazione da un atto di delega “automated” — “chiedo al modello e mi fido” — a un atto di collaborazione epistemica “augmented” — “uso il modello per strutturare il problema e identifico dove serve integrazione”.
Infatti, il Calibration Prompt non è solo uno strumento “difensivo” — ovvero un modo per proteggersi dagli errori del modello — ma un vero e proprio modello di interazione che sviluppa competenze reciproche e che incorpora concretamente il principio di augmentation: non quindi la sostituzione delle capacità umane da parte dell’AI, ma la loro amplificazione consapevole attraverso una suddivisione del lavoro cognitivo esplicita e negoziata.
Dal lato dell’utente, l’adozione sistematica del Calibration Prompt sviluppa una competenza specifica: la capacità di formulare richieste epistemicamente strutturate. Infatti, chiedere a un interlocutore — umano o artificiale — di distinguere tra ciò che sa con certezza e ciò che stima, di esplicitare il tipo di evidenza su cui si basa, di identificare i propri limiti, è una pratica di pensiero critico applicata all’interazione. Un utente che utilizzi regolarmente il Calibration Prompt impara progressivamente a valutare le risposte in modo più sofisticato, a riconoscere i segnali di overcalibration, a identificare quando una risposta fluente nasconde incertezza non dichiarata.
Dal lato del modello, le istruzioni del Calibration Prompt attivano pattern di generazione diversi da quelli della risposta standard. La richiesta di struttura epistemica esplicita produce infatti output che sono, tendenzialmente, più onesti e più verificabili — non perché il modello sia in grado di “decidere” di essere più onesto, ma perché il contesto del prompt sposta i pattern di generazione verso rappresentazioni più articolate dell’incertezza. Questo è un esempio di come la qualità dell’interlocuzione influenzi la qualità dell’output: un interlocutore che sa come chiedere ottiene, sistematicamente, risposte migliori.
La prospettiva dell’augmentation suggerisce poi che il valore del Calibration Prompt non si esaurisce nella singola interazione. Ad esempio, un’organizzazione che adotta sistematicamente questo modello di interazione — anche formando i propri collaboratori a usarlo e integrandolo nei workflow di analisi e decisione — sta costruendo una competenza collettiva: la capacità di usare l’AI come amplificatore del pensiero critico piuttosto che come “un oracolo” da cui attendere risposte definitive, e questa è la differenza tra uso dell’IA come strumento di automation a seguito di delega — più o meno propria — e uso dell’IA come strumento di augmentation cognitiva.
La presentazione del Calibration Prompt richiede però onestà intellettuale sui suoi limiti, coerentemente con il principio epistemico che lo anima. Un primo limite fondamentale è che il prompt riduce ma non elimina il rischio di confabulazione sofisticata: un modello sufficientemente capace può infatti comunque produrre incertezze plausibili ma non genuine, autocritiche convincenti ma superficiali, sezioni “non so” che suonano calibrate ma che nascondono errori nelle sezioni di alta certezza. Tutto questo accade perché il meta-problema è strutturale: un modello addestrato a sembrare calibrato può sembrare calibrato anche quando non lo è, e le istruzioni del Calibration Prompt, da un lato, aumentano certamente il costo cognitivo della confabulazione e la sua visibilità, ma, dall’altro, non la rendono “tecnicamente” impossibile. Un secondo limite è che l’efficacia del prompt varia con la difficoltà del task e con il livello di competenza dell’utente: infatti, per task ad alta verificabilità oggettiva (codice, matematica, analisi di dati strutturati), la struttura epistemica del Calibration Prompt aggiunge valore marginale inferiore rispetto a task a bassa verificabilità (analisi strategica, valutazione di scenari complessi, interpretazione di evidenze ambigue) — che sono però esattamente i task dove il rischio di affidarsi a qualità percepita anziché intrinseca è più alto. In sostanza, per un utente con elevata competenza di dominio, il Calibration Prompt funziona meglio come strumento di efficienza; per un utente con competenza limitata, funziona come guida epistemica ma non può sostituire la verifica su fonti esterne. Un terzo limite riguarda il contesto d’uso: il Calibration Prompt è progettato per domande analitiche, decisionali o cognitive dove la qualità intrinseca è rilevante, mentre non è appropriato — e potrebbe anzi rivelarsi controproducente — per task creativi, di supporto emotivo, o di generazione di contenuti dove la qualità percepita è, legittimamente, la dimensione rilevante. In sostanza, la scelta di quando applicarlo è essa stessa una competenza da dover sviluppare.
Esempi di applicazione del Calibration Prompt a domande di largo respiro
Per evidenziare la differenza tra una risposta standard e una risposta calibrata, presentiamo tre applicazioni del Calibration Prompt a domande di ampio respiro in tre ambiti distinti, quello strategico-organizzativo, quello tecnologico-previsionale e quello della policy pubblica: questo tipo di domande corrispondono esattamente alle categorie — ad alta complessità, bassa verificabilità immediata, alta rilevanza decisionale — dove la divergenza tra qualità percepita e intrinseca è più pericolosa e dove il Calibration Prompt offre il maggiore valore aggiunto potenziale.
Esempio 1 — Ambito strategico-organizzativo
Domanda: “La nostra organizzazione dovrebbe adottare un modello di lavoro ibrido strutturato o lasciare piena flessibilità ai team?”
Qui una risposta standard tenderebbe a elencare i pro e i contro di entrambe le opzioni con tono bilanciato e rassicurante, concludendo con una raccomandazione vaga che soddisfa entrambe le prospettive — la forma tipica della sycophancy organizzativa. Una risposta calibrata, applicando il Calibration Prompt, produrrebbe invece una struttura di questo tipo:
• Alta certezza: esistono evidenze “robuste” che l’autonomia percepita dai lavoratori è correlata positivamente con la soddisfazione e negativamente con il turnover intenzionale (consenso con letteratura relativa allo Human Resource Management). È altrettanto documentato che la coordinazione spontanea tra team distribuiti richiede strutture di comunicazione esplicite che non emergono automaticamente dalla flessibilità non gestita (evidenza empirica da studi sul remote work post-pandemia).
• Incertezza moderata: l’effetto della flessibilità sulla produttività individuale è altamente eterogeneo per tipo di task, profilo professionale e cultura organizzativa. Le meta-analisi disponibili mostrano varianze elevate che rendono le medie poco informative per decisioni specifiche (stima basata su letteratura con alta varianza contestuale).
• Non so / richiede verifica: l’impatto specifico sull’organizzazione dipende da variabili interne — composizione demografica, cultura manageriale, tipologia dei processi core — che il modello non conosce e che richiedono diagnosi interna. La letteratura non fornisce una risposta applicabile universalmente.
Il valore aggiunto rispetto alla risposta standard è triplice. La struttura dice esplicitamente all’utente su cosa può contare (i due fatti di alta certezza), su cosa deve formarsi un giudizio contestuale (l’eterogeneità degli effetti sulla produttività), e cosa deve investigare internamente prima di decidere (le variabili specifiche dell’organizzazione). Una risposta standard avrebbe nascosto questa distinzione sotto uno strato uniforme di assertività.
Esempio 2 — Ambito tecnologico-previsionale
Domanda: “L’intelligenza artificiale generativa renderà obsolete le professioni intellettuali di medio livello entro i prossimi dieci anni?”
Una risposta standard su questa domanda tende a oscillare tra due estremi entrambi “adulatori”: l’ottimismo tecnologico rassicurante (“l’AI creerà più lavori di quanti ne distrugga”) o il catastrofismo altrettanto semplificato. Entrambi rispondono a ciò che l’utente si aspetta di sentire in base al proprio posizionamento preesistente. Una risposta calibrata produrrebbe invece:
• Alta certezza: i LLM hanno già dimostrato capacità di automazione parziale per task cognitivi strutturati e ripetitivi — ad esempio, redazione di testi standard, sintesi documentale, analisi di dati tabulari, generazione di codice di base. Questa automazione parziale è in corso (evidenza empirica documentata). Il concetto di “professione” aggrega task eterogenei: alcune componenti di quasi ogni professione intellettuale sono automatizzabili oggi; altre (ad esempio capacità di giudizio contestuale, gestione di relazioni fiduciarie, creatività non strutturata) lo sono molto meno (inferenza logica dal framework task-based).
• Incertezza moderata: la velocità di diffusione dipende da fattori economici (costo di adozione, costi di riqualificazione, inerzia organizzativa), regolatori (governance dell’AI, responsabilità professionale), e sociali (accettazione, trust) che i modelli economici esistenti prevedono con intervalli di confidenza molto ampi. La stima “dieci anni” non è compatibile con le evidenze disponibili (stima, alta incertezza).
• Non so / richiede verifica: l’effetto netto sull’occupazione non è prevedibile con gli strumenti attuali. Le previsioni passate sull’impatto occupazionale dell’automazione hanno sistematicamente sottostimato gli effetti di compensazione e sovrastimato la velocità di transizione. Non è chiaro se questa volta sia diverso, e in quale direzione.
La struttura calibrata consegna in questo caso all’utente un’informazione utile per la decisione: alla domanda così come è formulata non è possibile rispondere con certezza, ciò che si può approfondire riguarda la logica del processo (task-based, non job-based) e i fattori che modulano la velocità, mentre ciò che richiede aggiornamento continuo è l’evidenza empirica emergente. Questo è il tipo di orientamento che può risultare utile ad un decisore che ha bisogno per pianificare senza necessariamente dover congelare le decisioni in attesa di certezze che non arriveranno mai.
Esempio 3 — Ambito di policy pubblica
Domanda: “Un’amministrazione pubblica che voglia integrare i LLM nei propri servizi ai cittadini dovrebbe adottare modelli open source o servizi commerciali?”
Questa domanda è particolarmente adatta al Calibration Prompt perché la risposta “corretta” dipende da variabili contestuali che cambiano significativamente tra enti, e la risposta semplice (“dipende”) è tecnicamente accurata ma cognitivamente inutile.
Una risposta calibrata produrrebbe:
• Alta certezza: i modelli open source offrono sovranità dei dati completa e assenza di dipendenza da vendor, ma richiedono infrastrutture tecniche interne e competenze di messa in esercizio e manutenzione che la maggior parte delle amministrazioni pubbliche italiane non possiede attualmente (evidenza empirica da analisi del contesto PA italiana). I servizi commerciali offrono time-to-market inferiore e manutenzione esternalizzata, ma introducono dipendenza contrattuale, vincoli di data residency e rischi di lock-in (consenso letteratura di IT governance pubblica). La normativa europea — GDPR, AI Act, normativa su cloud e dato pubblico — pone vincoli che si applicano a entrambe le opzioni ma con implicazioni diverse in termini di controllo e verificabilità (base normativa, alta certezza).
• Incertezza moderata: il Total Cost of Ownership (TCO) a 5 anni è difficilmente comparabile in modo generale perché dipende dalla scala di utilizzo, dalla disponibilità di personale tecnico interno, e dall’evoluzione dei prezzi commerciali — tutti fattori con alta varianza contestuale. La maturità dei modelli open source nei task rilevanti per la PA (lingua italiana, documenti amministrativi, normativa specifica) è in rapida evoluzione e la valutazione attuale ha una vita utile breve (stima con incertezza alta).
• Non so / richiede verifica: non è verificabile a priori quale opzione produca un servizio ai cittadini di qualità superiore per uno specifico ente, senza sperimentare un pilota controllato. La letteratura internazionale sull’adozione di AI nella PA fornisce indicazioni contestualmente dipendenti che richiedono adattamento al contesto italiano specifico, che a mia conoscenza è poco studiato empiricamente.
Il valore del Calibration Prompt in questo caso è particolarmente evidente: invece di ricevere una raccomandazione assertiva che potrebbe indirizzare una decisione ad alto impatto istituzionale, il decisore pubblico riceve una mappa epistemica — cosa è certo, cosa è contestuale, cosa richiede indagine specifica. La struttura calibrata trasforma la domanda da richiesta di risposta a strumento di pianificazione dell’indagine. È questo il significato più profondo dell’augmentation: l’IA non fornisce la risposta, aiuta a strutturare il percorso per trovarla.
Nota metodologica
La distinzione tra qualità intrinseca e qualità percepita adottata in questo lavoro è una distinzione analitica: coglie e approfondisce una tensione reale e documentata, ma le due dimensioni non sono misurabili in parallelo in modo sistematico nel caso di domini aperti, dove non esiste un metro indipendente di correttezza realmente disponibile. L’argomentazione si basa pertanto su una convergenza di evidenze indirette — i bias documentati del reward modeling, le implicazioni formali della Legge di Goodhart nel contesto LLM, il gradiente di soddisfazione per tipo di task rilevato da Chatterji et al. (2025) — che nella loro coerenza reciproca forniscono un supporto solido alle conclusioni. La costruzione di metriche operative che separino le due dimensioni su domini arbitrari resta una delle principali agende di ricerca aperte nella valutazione dei sistemi di intelligenza artificiale generativa.
Conclusioni
L’adozione diffusa dei Large Language Model ci impone un cambio di paradigma culturale prima ancora che tecnologico. Difatti, il punto non è stabilire se questi sistemi “funzionino” oppure no — è evidente che funzionano, e sempre meglio, in moltissimi compiti — ma comprendere che tipo di qualità stanno ottimizzando e quali conseguenze questo produce quando li utilizziamo per costituire la base informativa di valutazioni, decisioni e scelte organizzative.
La tesi centrale di questo lavoro è che, nei LLM conversazionali, esiste una tensione strutturale tra qualità percepita (ciò che appare chiaro, utile, convincente, rassicurante) e qualità intrinseca (ciò che è corretto, logicamente fondato, verificabile, epistemicamente giustificato), e che questa tensione non è un difetto accidentale, ma una conseguenza prevedibile delle logiche di addestramento e allineamento, le quali sono basate su preferenze e segnali di soddisfazione. Per questo motivo, il rischio principale non è soltanto la generazione di errori puntuali, bensì la produzione di fiducia immeritata, attraverso la restituzione di risposte assolutamente plausibili e persuasive ma che possono orientare convinzioni e azioni senza offrire garanzie proporzionali di affidabilità.
In questo quadro, le hallucination non vanno trattate come anomalie sporadiche da “eliminare” una volta per tutte, ma come un costo strutturale da governare, e, allo stesso modo, l’epistemia non è un tema teorico marginale, ma bensì è il cuore del problema. Ogni volta che utilizziamo un LLM, stiamo implicitamente decidendo quanto fidarci, di che cosa fidarci, e con quali criteri possiamo distinguere un supporto cognitivo utile da una proposta persuasiva non giustificata. In altri termini, non stiamo solo usando uno strumento: stiamo ridefinendo le nostre pratiche di conoscenza, di rappresentazione della realtà e di esercizio di responsabilità.
Per questo il contributo più operativo proposto — il Calibration Prompt — risulta rilevante non tanto perché promette risposte “perfette”, ma in quanto modifica il contratto epistemico dell’interazione. Chiedere al modello di distinguere tra alta certezza, incertezza moderata e non-so; di esplicitare il tipo di evidenza; di preferire la risposta più accurata a quella più semplice; di dichiarare limiti e possibili errori: tutto ciò non elimina certamente il rischio, ma lo rende più visibile, più discutibile e più governabile. Tutto questo risulta quindi un passaggio fondamentale dalla logica della delega (“chiedo e mi fido”) a quella della collaborazione cognitiva (“uso il modello per strutturare meglio il problema e la verifica”).
La conclusione, dunque, non è “anti-IA”, ma esattamente il contrario: è una conclusione di utilizzo maturo dell’IA. I LLM possono generare enorme valore, ma solo se vengono inseriti in pratiche di interazione e decisione che preservino la centralità del giudizio umano, della verifica esterna e della responsabilità: il vero salto di qualità non consiste quindi semplicemente nell’ottenere modelli sempre più fluenti, ma nel rendere utenti, team e organizzazioni epistemicamente più competenti nel loro impiego.
In questa prospettiva, il Calibration Prompt può essere letto come un primo prototipo di alfabetizzazione avanzata all’IA generativa: non una semplice tecnica di prompting, ma una disciplina d’uso. E forse è proprio questo il punto decisivo: nell’era dei chatbot, la domanda non è solo “cosa sa fare l’IA?”, ma sempre più “come dobbiamo interagire con l’IA perché la sua utilità non prevalga sulla nostra capacità di valutarla criticamente?”.
Bibliografia
Bai, Y., Jones, A., Ndousse, K., Askell, A., Chen, A., DasSarma, N., … & Kaplan, J. (2022). Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv preprint arXiv:2204.05862.
Chatterji, A., Cunningham, T., Deming, D. J., Hitzig, Z., Ong, C., Shan, C. Y., & Wadman, K. (2025). How people use chatgpt (No. w34255). National Bureau of Economic Research.
Darby, M. R., & Karni, E. (1973). Free competition and the optimal amount of fraud. The Journal of law and economics, 16(1), 67-88.
Dhuliawala, S., Komeili, M., Xu, J., Raileanu, R., Li, X., Celikyilmaz, A., & Weston, J. (2024, August). Chain-of-verification reduces hallucination in large language models. In Findings of the association for computational linguistics: ACL 2024 (pp. 3563-3578).
European Union, (2024). The EU artificial intelligence act. European Union.
Gao, L., Schulman, J., & Hilton, J. (2023, July). Scaling laws for reward model overoptimization. In International Conference on Machine Learning (pp. 10835-10866). PMLR.
Goldman, A. I. (2001). Experts: Which Ones Should You Trust? Philosophy and Phenomenological Research, Vol. 63, No. 1 (Jul., 2001), pp. 85-110. Published By: International Phenomenological Society.
Heersmink, R., De Rooij, B., Clavel Vázquez, M. J., & Colombo, M. (2024). A phenomenology and epistemology of large language models: Transparency, trust, and trustworthiness. Ethics and Information Technology, 26(3), 41.
Huang, L., Yu, W., Ma, W., Zhong, W., Feng, Z., Wang, H., … & Liu, T. (2025). A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions. ACM Transactions on Information Systems, 43(2), 1-55.
Lin, S., Hilton, J., & Evans, O. (2022, May). Truthfulqa: Measuring how models mimic human falsehoods. In Proceedings of the 60th annual meeting of the association for computational linguistics (volume 1: long papers) (pp. 3214-3252).
Manakul, P., Liusie, A., & Gales, M. (2023, December). Selfcheckgpt: Zero-resource black-box hallucination detection for generative large language models. In Proceedings of the 2023 conference on empirical methods in natural language processing (pp. 9004-9017).
NIST, (2024). Artificial intelligence risk management framework: Generative artificial intelligence profile. NIST Trustworthy and Responsible AI Gaithersburg, MD, USA.
Omar M, Agbareia R, Glicksberg BS, Nadkarni GN, Klang E. (2025, May). Benchmarking the Confidence of Large Language Models in Answering Clinical Questions: Cross-Sectional Evaluation Study. JMIR Medical Informatics, Vol. 13, 2025.
OpenAI. (2025). Sycophancy in GPT-4o: What happened and what we’re doing about it.
Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., … & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35, 27730-27744.
Quattrociocchi W., Capraro V., Perc M., (dicembre 2025) “Epistemological Fault Lines Between Human and Artificial Intelligence”, arXiv:2512.19466v1.
Sharma, M., Tong, M., Korbak, T., Duvenaud, D., Askell, A., Bowman, S. R., … & Perez, E. (2023). Towards understanding sycophancy in language models. arXiv preprint arXiv:2310.13548.
Singhal, P., Goyal, T., Xu, J., & Durrett, G. (2023). A long way to go: Investigating length correlations in rlhf. arXiv preprint arXiv:2310.03716.
Sperber, D., Clément, F., Heintz, C., Mascaro, O., Mercier, H., Origgi, G., & Wilson, D. (2010). Epistemic vigilance. Mind & language, 25(4), 359-393.
Wen, J., Zhong, R., Khan, A., Perez, E., Steinhardt, J., Huang, M., … & Feng, S. (2024). Language models learn to mislead humans via rlhf. arXiv preprint arXiv:2409.12822.













