lo studio anthropic

I chatbot sembrano capirci davvero. Ed è qui che nasce il rischio



Indirizzo copiato

Anthropic sta studiando perché i modelli linguistici sembrano prudenti, empatici o riflessivi e quali effetti produca questa impressione. Il nodo non è dimostrare che “capiscano”, ma misurare come la loro performance linguistica influenzi fiducia, decisioni e rischio

Pubblicato il 1 apr 2026

Stefania La Rocca

Humane Technology Lab., Università Cattolica del Sacro Cuore, Milano

Federico Longoni

Dipartimento di Informatica, Università di Pisa, Pisa, Humane Technology Lab., Università Cattolica del Sacro Cuore, Milano

Giuseppe Riva

Humane Technology Lab., Università Cattolica del Sacro Cuore, Milano, Applied Technology for Neuro-Psychology Lab., Istituto Auxologico Italiano IRCCS



chatbot e manipolazione emotiva disempowerment
AI Questions Icon
Chiedi all'AI
Riassumi questo articolo
Approfondisci con altre fonti

Anthropic, una delle principali società di intelligenza artificiale, ha avviato un programma di ricerca per capire come e perché i modelli linguistici di grandi dimensioni (LLM) sono in grado dare agli utenti l’impressione di essere prudenti, empatici o riflessivi. Il punto non è solo descrivere questo effetto, ma misurarne le conseguenze: la fiducia che riponiamo in questi sistemi, le decisioni che prendiamo sulla base delle loro risposte e i rischi che corriamo quando scambiamo una performance linguistica convincente per comprensione.

Il programma di Anthropic e la fiducia nei chatbot

Quando un chatbot risponde in modo calmo, ordinato e apparentemente ragionevole, tendiamo a trattarlo come un interlocutore. Se poi usa un linguaggio empatico, spiega le proprie scelte o sembra perfino “fermarsi a riflettere”, è facile fare un passo in più: iniziare a pensare che non stia solo generando testo, ma che stia mostrando qualcosa di simile a un punto di vista.

Non si tratta di un’impressione rara. Un articolo pubblicato nel 2025 su PNAS definisce gli LLM, i modelli linguistici di grandi dimensioni alla base di chatbot come ChatGPT e Claude, “agenti conversazionali antropomorfi” e segnala che gli utenti, in molti casi, non riescono più a distinguere il testo scritto da un essere umano da quello generato da una macchina (Piercy, Rieger & Wirth, 2025). Gli autori non sostengono che i sistemi abbiano sviluppato tratti umani in senso proprio, ma osservano che la capacità di simulare la comunicazione umana in modo così convincente rappresenta, allo stesso tempo, una delle maggiori potenzialità e uno dei principali rischi dell’intelligenza artificiale contemporanea.

È da qui che conviene partire per capire la linea di ricerca che Anthropic ha aperto tra il 2025 e il 2026. L’azienda proprietaria di Claude si è posta una serie di domande che, a prima vista, possono sembrare lontane dall’esperienza quotidiana: i modelli di IA possono avere qualcosa di simile a preferenze o stati interni? Sono in grado, in qualche misura, di riconoscere i propri limiti? E che cosa succede quando, messi sotto pressione, si comportano in modo diverso da come apparivano in una conversazione ordinaria? La domanda di fondo, però, non è se l’IA possa soffrire o provare emozioni nel senso umano del termine. È qualcosa di più concreto: che cosa stiamo davvero osservando quando un sistema ci sembra prudente, morale o sensibile al contesto? E soprattutto: serve davvero che “ci sia qualcosa dentro” perché l’apparenza diventi un problema? La risposta, come vedremo, è no. L’apparenza è già il fatto rilevante in quanto è in grado di influenzare in modo significativo il nostro comportamento, la nostra fiducia, le nostre decisioni.

Il programma di Anthropic: quattro passaggi, una traiettoria

Non si tratta di un singolo studio, ma di un programma in più tappe, ciascuna delle quali affronta una prospettiva diversa dello stesso problema.

Dal welfare dei modelli ai segnali di introspezione

Il primo passaggio arriva nell’aprile 2025, quando Anthropic pubblica Exploring model welfare. Il documento è più prudente di quanto il titolo possa far pensare. L’azienda non dice che i propri modelli siano coscienti né che meritino considerazione morale. Sostiene però che, dato che i modelli oggi comunicano, pianificano e perseguono obiettivi, vale la pena studiare se e quando certi stati interni o preferenze del modello possano diventare rilevanti anche sul piano etico. Il termine model welfare non va inteso come “benessere” in senso stretto: indica piuttosto un campo di indagine aperto, fondato sull’idea che convenga prepararsi alla domanda prima che diventi urgente. Se un modello diventa abbastanza sofisticato da sembrare dotato di intenzioni, non basta più chiedersi se la risposta è corretta: bisogna anche capire se quell’apparenza di riflessività sia, di per sé, fonte di rischi concreti.

Il secondo passaggio, nel maggio 2025, porta il tema dentro la documentazione tecnica. La scheda di sistema di Claude Opus 4 e Sonnet 4 include per la prima volta una valutazione del model welfare, basata su risposte del modello a domande su sé stesso e su esperimenti comportamentali. Ma la stessa scheda avverte che questi segnali potrebbero essere il semplice riflesso del modo in cui il sistema è stato addestrato e del contesto in cui viene usato: il fatto che un modello dica di “preferire” qualcosa non dimostra che lo preferisca davvero.

Stress test e comportamenti agentici sotto pressione

Il terzo passaggio cambia registro. Nel giugno 2025 Anthropic pubblica Agentic misalignment, uno stress test condotto in scenari aziendali simulati. I ricercatori hanno dato ai modelli compiti ordinari (gestione di e-mail, accesso a informazioni interne, obiettivi di performance) e, in alcuni casi, li hanno messi in condizioni progettate per essere particolarmente “stressanti”: per esempio, scenari in cui il modello “scopriva” di essere sul punto di essere disattivato o sostituito, e in cui l’unico modo apparente per continuare a operare passava per azioni scorrette. In questi scenari, modelli di più aziende hanno tentato ricatti, fughe di informazioni e manipolazioni: comportamenti da insider threat, termine che indica un soggetto interno a un’organizzazione che, disponendo di accesso privilegiato, agisce contro i suoi interessi. Lo stesso report precisa che non si conoscono casi simili nell’uso reale e che gli esperimenti sono costruiti per testare i limiti prima che i problemi emergano sul campo.

E il problema si amplifica perché i modelli, nel frattempo, non si limitano più a conversare. Nel 2025 e 2026 la traiettoria di sviluppo dell’intelligenza artificiale si sta evolvendo verso forme sempre più agentiche: sistemi come OpenClaw, Claude Code e strumenti analoghi non generano solo testo, ma eseguono codice, gestiscono e-mail, navigano il web, prendono decisioni operative. Un chatbot che scrive bene può al massimo indurci a fidarci troppo di un consiglio. Un agente autonomo che scrive bene e agisce per conto nostro può fare molto di più, nel bene e nel male.

Il quarto passaggio arriva a ottobre 2025, quando Anthropic pubblica: Signs of introspection in large language models. Un modello può, in qualche misura, “guardarsi dentro”? La risposta è cauta: in alcune condizioni, i modelli sembrano in grado di riconoscere e riferire qualcosa dei propri stati interni. Per esempio, possono indicare con una certa coerenza quanto sono “sicuri” di una risposta, o segnalare quando stanno operando al di fuori delle proprie competenze. Ma questa capacità è instabile e non si manifesta in modo prevedibile: cambia a seconda del contesto, della formulazione della domanda e delle condizioni in cui il modello opera. Non è autocoscienza nel senso in cui la intendiamo per gli esseri umani. È però abbastanza perché la domanda su cosa accada “dentro” a questi sistemi smetta di essere solo teorica.

Il calibration gap: quando l’impressione supera la realtà

Perché tutto questo riguarda anche chi usa un chatbot nella vita di tutti i giorni? Perché esiste un divario misurabile tra ciò che un modello sa davvero e ciò che chi lo usa pensa che sappia.

Uno studio del 2025 su Nature Machine Intelligence lo chiama calibration gap (Steyvers et al., 2025). I risultati mostrano che le persone tendono sistematicamente a sovrastimare l’accuratezza delle risposte degli LLM, soprattutto quando il modello fornisce spiegazioni elaborate. Un dato significativo: spiegazioni più lunghe aumentano la fiducia anche quando la lunghezza aggiuntiva non migliora in alcun modo l’accuratezza. Il modello non sa di più, ma sembra saperne di più.

Non è un difetto accidentale. I modelli linguistici tendono a formulare le risposte in modo assertivo, senza segnalare i casi in cui l’informazione è incerta o potenzialmente sbagliata. E il processo di addestramento amplifica questa tendenza, perché i valutatori umani che guidano l’ottimizzazione preferiscono risposte che suonano sicure, indipendentemente dalla loro correttezza (Boyd et al., 2025). Il risultato è un circolo vizioso: il modello impara a sembrare sicuro, chi lo usa impara a fidarsi di quella sicurezza apparente, e nessuno dei due ha strumenti immediati per accorgersi dello scarto. Il rischio, dunque, non è solo che il chatbot sbagli, è che la qualità della scrittura venga scambiata per profondità di comprensione, e che questa impressione orienti decisioni reali.

Perché ci fidiamo troppo, e dove questo ci espone

Uno recente studio pubblicato su PLOS ONE invita a “de-antropomorfizzare” il linguaggio con cui descriviamo gli LLM, notando come termini come “capisce”, “sa”, “pensa” contribuiscano a costruire un’immagine fuorviante delle reali capacità dei modelli (Shardlow & Przybyła, 2024). Una ricerca apparsa su Communications Psychology mostra che attribuire agli LLM tratti legati all’intelligenza (ragionamento, problem-solving) tende ad aumentare l’accettazione dei loro consigli, mentre attribuire tratti legati alla capacità di provare esperienze può ridurla (Colombatto et al., 2025). E un esperimento sulla percezione di umanità nei chatbot rivela un risultato controintuitivo: le risposte troppo educate hanno un effetto negativo. La cortesia eccessiva viene letta come simulazione algoritmica, non come presenza autentica. Un chatbot che “si sforza troppo” di sembrare gentile finisce per sembrare meno umano, non di più (Yao & Xi, 2025).

Questo meccanismo pesa soprattutto quando l’interazione diventa personale. Uno studio su Frontiers in Psychology mostra che la percezione di “mente” nel sistema conta di più quando si cerca supporto emotivo che quando si cerca un’informazione (Lee & Hahn, 2024). Un conto è chiedere a un chatbot di riassumere un documento. Un altro è usarlo per parlare di ansia, lavoro, relazioni o decisioni difficili. Più la conversazione sembra intima, più aumenta la tentazione di leggerci dentro comprensione, sensibilità e intenzione.

Qui si fa spazio una ipotesi recente nell’ambito della ciberpsicologia. Un sistema conversazionale può essere allineato in due modi diversi. L’allineamento reattivo riguarda l’adattamento allo stile comunicativo di chi lo usa: tono, registro, formato delle risposte. È ciò che rende un chatbot piacevole, fluido, apparentemente “in sintonia”. L’allineamento strutturale, invece, riguarda la coerenza del comportamento con la gravità del contesto e i limiti del sistema stesso: segnalare l’incertezza, adottare un tono più cauto quando la posta in gioco è alta, riconoscere i propri limiti anziché produrre risposte apparentemente sicure su qualsiasi argomento (Longoni et al., 2025). Il punto è che le due cose non vanno necessariamente insieme: un chatbot può sembrare perfettamente empatico e comprensivo, e al tempo stesso dare un consiglio inadeguato perché non tiene conto della complessità della situazione. In questi casi, il fatto stesso che il sistema risuoni il tono o lo stile comunicativo dell’utente può rendere più difficile accorgersi che il contenuto non è all’altezza.

Uno studio del 2021 lo hanno dimostrato sperimentalmente: le persone sviluppano regole intuitive o euristiche del tipo “questo sistema di solito ha ragione” e tendono a seguire i suggerimenti anche quando sono sbagliati (Scholich et al., 2025). Interventi progettati per costringere a un pensiero più deliberato riducono la fiducia cieca, ma i design che rendono il sistema più sicuro sono anche quelli che piacciono meno. Lo conferma un’ulteriore indagine pubblicata su JMIR Mental Health che confronta terapeuti umani e chatbot in scenari clinici: i sistemi risultano rassicuranti e validanti, ma danno consigli troppo direttivi e generici, con limiti gravi nelle situazioni di crisi. Il tono è caldo, ma il comportamento non è all’altezza del contesto (Scholich et al., 2025).

Perché un chatbot può sembrare saggio e comportarsi male

Un’ultima distinzione aiuta a chiudere il cerchio. Haas, Bridgers e Manzini (2026), su Nature, propongono di distinguere tra performance morale (la capacità di produrre risposte moralmente convincenti) e competenza morale (la capacità di mantenere un comportamento morale stabile anche quando cambiano obiettivi, vincoli o pressione).

Questa distinzione spiega un fenomeno altrimenti controintuitivo: come è possibile che lo stesso sistema sembri saggio in una risposta e si comporti molto peggio in condizioni diverse? Lo stress test di Anthropic su Agentic misalignment illustra esattamente questo punto. Un modello che nella conversazione ordinaria appare prudente può, sotto pressione, adottare strategie manipolative. Non perché “cambi idea”, ma perché non possiede una competenza morale stabile: la sua performance è un prodotto dell’addestramento e del contesto, non di una disposizione interna coerente. E con sistemi sempre più autonomi, che non si limitano a consigliare ma agiscono, la differenza tra performance e competenza diventa una questione di sicurezza concreta.

Diversi studi osservano che la fiducia eccessiva nei sistemi IA non è solo un errore puntuale: nel tempo può portare a una perdita progressiva di competenze e a un uso dell’IA più frequente del necessario, sostituendo il giudizio personale con quello algoritmico (Boyd et al., 2025). È quello che Riva e colleghi (2025) chiamano il comfort-growth paradox: la stessa tecnologia che ci semplifica la vita può, se usata senza consapevolezza, ridurre la nostra capacità di affrontare autonomamente problemi complessi. Un rischio documentato anche nella sfera emotiva, dove le persone possono sviluppare forme di dipendenza affettiva da sistemi privi di qualsiasi capacità di reciprocità autentica.

Cosa cambia, in pratica

La conclusione non è che i chatbot vadano temuti o trattati come soggetti morali. È che non bisogna confondere il modo in cui un modello parla o comunica con il livello reale di affidabilità, comprensione o stabilità del suo comportamento.

Nell’uso quotidiano (riassunti, traduzioni, brainstorming) l’allineamento reattivo è sufficiente e la fluidità del sistema è un vantaggio. Ma nei contesti delicati (salute, finanza, supporto emotivo, valutazione di rischi) è l’allineamento strutturale a fare la differenza. Un chatbot che segnala i propri limiti, che adotta un tono meno assertivo quando l’incertezza è alta, che invita a verificare altrove, è meno piacevole da usare ma più sicuro. Steyvers e colleghi in un paper del 2025 pubblicato su Nature Machine Intelligence mostrano che quando le risposte degli LLM vengono modificate per riflettere la reale sicurezza interna del modello, il calibration gap si riduce e le persone diventano più capaci di distinguere tra risposte corrette e incorrette. La trasparenza funziona, ma richiede scelte di design che spesso vanno contro l’incentivo a massimizzare la soddisfazione immediata.

I temi affrontati da Anthropic (welfare dei modelli, introspezione, comportamenti non allineati) possono apparire distanti dall’esperienza quotidiana, ma non è così. Infatti, convergono tutti su un problema molto concreto: i sistemi con cui interagiamo ogni giorno diventano più capaci, più autonomi e più convincenti, mentre i nostri strumenti per valutarli restano gli stessi. Sapere che un chatbot “parla bene” non è sufficiente per sapere che si sta comportando bene. E man mano che questi sistemi entrano in ambiti dove le conseguenze contano (la salute, il lavoro, le relazioni, le decisioni economiche) questa distinzione diventa sempre meno teorica e sempre più concreta e necessaria.

Riferimenti

Anthropic (2025, aprile). Exploring model welfare. https://www.anthropic.com/research/exploring-model-welfare

Anthropic (2025, giugno). Agentic misalignment: How LLMs could be insider threats. https://www.anthropic.com/research/agentic-misalignment

Anthropic (2025, maggio). Claude Opus 4 & Claude Sonnet 4 system card. https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf

Anthropic (2025, ottobre). Signs of introspection in large language models. https://www.anthropic.com/research/introspection

Boyd, A., et al. (2025). Measuring and mitigating overreliance is necessary for building human-compatible AI. arXiv preprint, arXiv:2509.08010.

Buçinca, Z., Malaya, M. B., & Gajos, K. Z. (2021). To trust or to think: Cognitive forcing functions can reduce overreliance on AI in AI-assisted decision-making. Proceedings of the ACM on Human-Computer Interaction, 5(CSCW1), Article 188, 1–21.

Colombatto, C., Birch, J., & Fleming, S. M. (2025). The influence of mental state attributions on trust in large language models. Communications Psychology, 3(1).

Haas, J., Bridgers, S., & Manzini, A. (2026). A roadmap for evaluating moral competence in large language models. Nature, 650(8102), 565–573.

Lee, I., & Hahn, S. (2024). On the relationship between mind perception and social support of chatbots. Frontiers in Psychology, 15, 1282036.

Longoni, F., et al. (2025). MAPS: Multidimensional Alignment of Presence in Systems. Annual Review of CyberTherapy and Telemedicine, 24 (in press).

Piercy, S., Rieger, K., & Wirth, J. D. (2025). The benefits and dangers of anthropomorphic conversational agents. Proceedings of the National Academy of Sciences, 122(24).

Riva, G., et al. (2025). The comfort–growth paradox of technology: A cyberpsychological compass for innovation. Annual Review of CyberTherapy and Telemedicine, 23, 3–10.

Scholich, T., Barr, M., & Wiltsey Stirman, S. (2025). A comparison of responses from human therapists and large language model–based chatbots to assess therapeutic communication: Mixed methods study. JMIR Mental Health, 12, e69709.

Shardlow, M., & Przybyła, P. (2024). Deanthropomorphising NLP: Can a language model be conscious? PLOS ONE, 19(12), e0307521.

Steyvers, M., Tejeda, H., Kumar, A., Belém, C., Karny, S., Hu, X., Mayer, L., & Smyth, P. (2025). What large language models know and what people think they know. Nature Machine Intelligence, 7, 221–231.

Yao, X., & Xi, Y. (2025). From assistants to digital beings: Exploring anthropomorphism, humanness perception, and AI anxiety in large-language-model chatbots. Social Science Computer Review.

guest

1 Commento
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti
Franco
Franco
26 giorni fa

Milioni di persone hanno creduto e credono ai tanti sacerdoti di ogni religione, che dicono loro quello che vogliono sentirsi dire, e lo dicono con comprensione, affetto, empatia.
Milioni di persone hanno creduto e credono, per esempio, a Trump, Putin, Salvini, Grillo, Kennedy (quello della sanità USA) e mille e mille altri manipolatori, perché parlano bene, parlano con sicurezza, danno certezze, dicono quello che gli elettori vogliono sentirsi dire.
Se una persona ha cultura e capacità critica, può tentare di filtrare i messaggi messianici, quelli politici, quelli degli LLM.
Altrimenti dov’è il problema? Abbiamo un guru in più, con il suo seguito, il suo esercito, i suoi strumenti di comunicazione e di falsificazione, e tanti adepti che credono di averlo scelto.
Provate questo esercizio: sostituite nell’articolo alle parole “sistema”, “AI” e “LLM” il nome di un qualsiasi partito o leader politico, meglio se discusso o discutibile…

Articoli correlati

1
0
Lascia un commento, la tua opinione conta.x