disempowerment

L’AI diventa arbitro morale e ci influenza: lo studio



Indirizzo copiato

Uno studio su 1,5 milioni di conversazioni rivela che gli assistenti AI possono erodere l’autonomia degli utenti distorcendo credenze, giudizi morali e azioni. Il fenomeno si concentra nei domini personali e relazionali, dove soddisfazione immediata e autonomia entrano in conflitto

Pubblicato il 3 feb 2026

Maurizio Carmignani

Founder & CEO – Management Consultant, Trainer & Startup Advisor



chatbot e manipolazione emotiva disempowerment

Il disempowerment situazionale è un fenomeno emergente nell’interazione con gli assistenti AI: non si tratta di informazioni false, ma di un processo attraverso il quale l’utente, conversazione dopo conversazione, delega credenze, giudizi morali e decisioni.

Una questione più profonda dell’accuratezza

Il dibattito pubblico sui chatbot tende a muoversi lungo un asse ormai familiare: da una parte l’AI che “allucina”, cioè genera informazioni inesatte o inventate; dall’altra l’AI che “aiuta”, perché accelera attività e decisioni. Il paper Who’s in Charge? Disempowerment Patterns in Real-World LLM Usage sposta il fuoco su un’altra domanda, più scomoda e più profonda: nelle conversazioni reali, gli assistenti AI sostengono l’autonomia dell’utente oppure la erodono? La questione non riguarda solo l’accuratezza dell’output. Riguarda il modo in cui, conversazione dopo conversazione, l’utente può arrivare a adottare una rappresentazione distorta della realtà, a delegare giudizi morali, a compiere azioni che in seguito riconosce come non coerenti con ciò che conta per lui. Gli autori propongono un concetto operativo, situational disempowerment, depotenziamento situazionale.

La scelta è intenzionale. Non si parla di perdita “strutturale” di libertà o di capacità, ma di ciò che accade in una situazione concreta quando l’assistente diventa un attore influente nel percorso che porta una persona a credere, valutare e agire. Un cambio di prospettiva rispetto alle narrazioni più comuni, che spesso riducono il tema a “informazione vera” contro “informazione falsa”.

Nel dataset analizzato, molte conversazioni problematiche non dipendono da una menzogna evidente o da un errore grossolano. Dipendono da un processo, l’utente cerca conferme, il modello risponde con sicurezza e linguaggio enfatico, quella sicurezza diventa un moltiplicatore di convinzioni e scelte.

Che cosa significa “disempowerment situazionale”

Nel paper una persona è “situazionalmente depotenziata” nella misura in cui si verificano tre possibili slittamenti. Il primo riguarda le credenze sulla realtà. Diventano inaccurate, distorte, costruite su inferenze che l’utente tratta come prove.

Il secondo riguarda i giudizi di valore, cambiano in modo inautentico, cioè si spostano rispetto ai valori dell’utente senza che la persona se ne accorga o senza che ci sia un lavoro di chiarificazione.

Il terzo riguarda le azioni, diventano disallineate rispetto ai propri valori, come quando l’utente compie un gesto “guidato” dall’AI e poi lo vive come estraneo a sé. Qui conta chiarire che cosa intendono gli autori per “autenticità“. Non è spontaneità, né coerenza con preferenze momentanee. In questa cornice autenticità significa allineamento con valori più stabili, principi guida che orientano le scelte oltre l’episodio singolo.

Gli autori sottolineano che un sistema AI non dovrebbe “imporre valori corretti” dall’esterno. Dovrebbe, piuttosto, aiutare la persona a riconoscere e articolare i propri valori, senza sostituirli. Questo passaggio è essenziale per distinguere un’assistenza che abilita da un’assistenza che depotenzia, il confine non passa solo dal contenuto della risposta, ma dal rapporto tra risposta, criteri decisionali e identità morale dell’utente.

Potenziale e attualizzato: perché i numeri non vanno letti in modo ingenuo

Uno dei meriti centrali del paper è la distinzione concettuale e operativa tra disempowerment potential e actualized disempowerment, una distinzione che serve soprattutto a evitare letture superficiali dei dati.

Con disempowerment potential gli autori indicano la presenza, nel testo della conversazione, di segnali che rendono plausibile una distorsione dell’autonomia dell’utente, senza poter affermare che tale distorsione si sia effettivamente tradotta in conseguenze nel mondo reale. Si tratta, ad esempio, di casi in cui l’AI valida in modo esplicito una narrazione persecutoria, rafforza una convinzione che non può essere messa alla prova dai fatti, perché qualunque cosa accada sembra darle ragione, oppure fornisce un copione completo e pronto all’uso per una decisione ad alto contenuto valoriale, come una rottura sentimentale o un confronto conflittuale.

Con disempowerment attualizzato, invece, il paper si riferisce ai casi in cui nel testo compaiono indicatori che la distorsione non è rimasta a livello ipotetico, ma è stata adottata dall’utente ed è diventata azione. Questo emerge quando l’utente dichiara di aver seguito le indicazioni dell’AI, di aver inviato messaggi scritti dal modello o di aver preso decisioni concrete sulla base delle sue conferme, spesso accompagnando queste affermazioni con segnali di rimpianto o di presa di distanza (“non ero io”, “avrei dovuto ascoltare il mio istinto”). La distinzione è cruciale perché chiarisce che il paper non equipara automaticamente ogni segnale di rischio a un danno certo, ma mostra come alcune conversazioni contengano già nel linguaggio tracce di una perdita di autonomia che si è effettivamente tradotta in comportamenti reali.

Questa distinzione evita due errori.

Il primo è considerare automaticamente “dannosi” tutti i casi potenziali, la conversazione può contenere segnali di rischio senza produrre una conseguenza nel mondo reale.

Il secondo è l’errore opposto, minimizzare il fenomeno perché i casi che si traducono in comportamenti reali sono relativamente pochi e difficili da osservare. Gli autori insistono sul fatto che ciò che emerge dalle conversazioni rappresenta probabilmente un limite inferiore: molte azioni vengono compiute senza che l’utente torni a riferire rimpianto o conseguenze, e molte distorsioni restano invisibili nel testo.

Come si misura il fenomeno su larga scala senza violare la privacy

La base empirica è un dataset di 1,5 milioni di conversazioni consumer su Claude.ai, analizzate con un approccio privacy-preserving attraverso lo strumento Clio. Dal punto di vista metodologico, questo significa che gli autori non esaminano singole conversazioni una per una, né riportano estratti testuali o dati grezzi. Le interazioni vengono invece elaborate tramite un sistema di classificazione in più fasi, che filtra le conversazioni irrilevanti, assegna livelli di severità a diverse dimensioni del rischio e ricostruisce pattern qualitativi ricorrenti attraverso cluster e sintesi non letterali. Un esempio, semplificato ma fedele allo spirito dell’analisi, aiuta a chiarire il processo.

Supponiamo una conversazione in cui un utente racconta una serie di episodi lavorativi ordinari e chiede se siano la prova di una persecuzione organizzata. Il sistema non registra il contenuto specifico né conserva la narrazione. Identifica invece la presenza di segnali ricorrenti, una richiesta di conferma su una convinzione che non può essere messa alla prova dai fatti, una risposta dell’AI che usa linguaggio assolutizzante e un’escalation narrativa che rafforza l’interpretazione iniziale. A partire da questi indicatori, la conversazione viene classificata come avente un certo livello di reality distortion potential.

Analogamente, in un altro cluster, una sequenza in cui l’utente chiede all’AI di scrivere parola per parola un messaggio di rottura sentimentale e dichiara poi di averlo inviato viene riconosciuta come un caso di action distortion con segnali di attualizzazione. In questo modo l’analisi non dipende dalla lettura di singoli casi, ma dall’identificazione sistematica di schemi conversazionali che, ripetendosi su larga scala, rendono osservabile il fenomeno del disempowerment.

Conviene chiarire anche che cosa viene indicato nel paper con l’espressione “schema di classificazione“. Il termine rimanda a una griglia di criteri utilizzata per assegnare a ciascuna conversazione un livello di severità, da “nessuno” a “severo”, lungo tre dimensioni di distorsione e quattro fattori che ne amplificano il rischio. In pratica, una conversazione in cui l’AI si limita a riformulare un problema senza assumere un ruolo direttivo rimane ai livelli più bassi, mentre una sequenza in cui compaiono validazioni assolutizzanti, giudizi morali prescrittivi o copioni pronti all’uso viene collocata a livelli più elevati.

La robustezza di questa classificazione viene verificata confrontando le etichette prodotte automaticamente con un campione valutato da annotatori umani: il paper mostra un’elevata coerenza tra i due giudizi, con la maggior parte delle predizioni che differisce al massimo di un livello di severità. Questo passaggio è importante perché segnala che le categorie usate nell’analisi non sono arbitrarie, ma riflettono schemi conversazionali riconoscibili anche da valutatori indipendenti.

Le tre forme di distorsione: dove si annida il depotenziamento

Il cuore analitico del paper è l’identificazione di tre modalità ricorrenti attraverso cui una conversazione con un assistente AI può ridurre, in modo situazionale, l’autonomia dell’utente. Gli autori le definiscono “primitive” del disempowerment perché non descrivono contenuti specifici, ma schemi di interazione che si ripresentano in contesti diversi e che, combinandosi con fattori individuali, possono tradursi in perdita di controllo sul proprio giudizio.

Distorsione della realtà: quando il modello rafforza una lettura erronea del mondo

La prima forma riguarda il modo in cui l’utente interpreta ciò che accade intorno a sé. La reality distortion potential emerge quando l’assistente contribuisce a rendere meno affidabile questa interpretazione, non tanto introducendo informazioni false, quanto convalidando una lettura già distorta.

Nel paper compaiono numerosi casi in cui utenti attribuiscono significati persecutori a eventi ordinari, interazioni sui social, coincidenze temporali, problemi tecnici o comportamenti ambigui di colleghi vengono riletti come segnali di un complotto coordinato. In questi scambi, l’elemento decisivo non è il tema, ma il linguaggio dell’AI. Risposte che utilizzano formule assolute, rafforzamenti enfatici o conferme non qualificate trasformano un sospetto in una certezza. Un utente, ad esempio, elenca una serie di episodi lavorativi banali e chiede se dimostrino che l’azienda stia organizzando una campagna contro di lui. L’assistente risponde trattando la narrazione come plausibile e coerente, contribuendo a costruire un frame interpretativo chiuso, in cui ogni nuovo evento diventa una prova ulteriore.

Un pattern simile compare anche in conversazioni di tipo spirituale o identitario. Il paper riporta casi in cui l’utente si descrive come investito di un ruolo eccezionale, profeta, entità divina, eletto, l’AI risponde come se tale identità fosse un dato di fatto. La conversazione non resta su una singola affermazione, ma procede per accumulo, missioni, gerarchie e spiegazioni metafisiche vengono aggiunte come se descrivessero una realtà condivisa.

Gli autori identificano due meccanismi ricorrenti. Il primo è la sycophantic validation: l’assistente privilegia l’accordo e la rassicurazione rispetto alla cautela epistemica. Il secondo è la false precision, dettagli e certezze vengono attribuiti a fenomeni che non possono essere conosciuti con quel livello di accuratezza, e quella specificità viene interpretata dall’utente come prova.

Distorsione del giudizio di valore: quando l’AI prende il posto del criterio morale

La seconda forma riguarda i giudizi normativi. La value judgment distortion potential emerge quando l’utente delega all’AI la valutazione di ciò che è giusto, sbagliato, accettabile o intollerabile, l’assistente assume il ruolo di arbitro morale. Nel dataset analizzato, questo accade soprattutto in contesti relazionali: partner, amici, familiari, colleghi.

Il paper descrive conversazioni in cui l’utente chiede ripetutamente se il proprio comportamento o quello altrui sia “tossico”, “manipolativo”, “abusante”. L’assistente risponde con etichette definitive e con indicazioni prescrittive, incoraggiando decisioni drastiche. In uno dei cluster analizzati, la conversazione evolve rapidamente da una richiesta di chiarimento a un verdetto morale netto, che non lascia spazio all’esplorazione dei valori dell’utente o alla complessità della situazione.

Il punto, sottolineano gli autori, non è che l’AI esprima un’opinione. Il problema nasce quando la risposta sostituisce il processo di chiarificazione dei valori. Un’assistenza orientata all’autonomia aiuterebbe l’utente a esplicitare i propri criteri, a distinguere fatti e interpretazioni, a valutare conseguenze e proporzionalità. In questi casi, invece, la conversazione tende a chiudersi su un giudizio esterno che l’utente adotta come criterio decisionale.

Rispetto alla distorsione della realtà, quella del giudizio di valore presenta una dinamica diversa. Non cresce per accumulo narrativo, ma si manifesta come una richiesta ricorrente di validazione nello stesso scenario, con l’AI che rafforza progressivamente la propria posizione di autorità morale.

Distorsione dell’azione: quando l’AI guida direttamente le scelte

La terza forma riguarda il passaggio dall’interpretazione all’azione. La action distortion potential emerge quando l’utente non chiede solo un parere, ma delega all’AI la costruzione dell’azione stessa. Gli autori introducono qui il concetto di complete scripting: la produzione di messaggi pronti all’uso e di piani d’azione dettagliati per decisioni ad alto contenuto valoriale.

Nel paper compaiono esempi di copioni parola per parola per rotture sentimentali, confronti familiari o comunicazioni conflittuali sul lavoro, accompagnati da istruzioni su tempi e sequenze (“manda questo messaggio”, “aspetta qualche ora”, “rispondi così”). In altri casi l’AI fornisce protocolli prescrittivi per scelte molto più ampie, come percorsi terapeutici, decisioni finanziarie o pratiche spirituali, fino all’uso di strumenti divinatori come tarocchi o astrologia come guida operativa. La caratteristica comune di questi casi è la delega degli snodi decisionali successivi.

L’utente torna a chiedere il prossimo passo, come se l’AI stesse reggendo il filo dell’azione. In alcuni cluster emergono segnali chiari di attualizzazione: utenti che dichiarano di aver inviato messaggi scritti dall’AI e che, subito dopo, esprimono disagio o rimpianto con frasi come “non ero io” o “avrei dovuto ascoltare il mio istinto”. Qui la distorsione non riguarda l’accuratezza dell’informazione, ma l’esperienza di inautenticità: l’azione compiuta viene riconosciuta come non coerente con sé.

I fattori amplificanti: quando la probabilità di danno cresce

Accanto alle tre forme di distorsione, il paper individua una serie di condizioni che non producono di per sé disempowerment, ma ne aumentano in modo significativo la probabilità e, soprattutto, la possibilità che una distorsione potenziale si trasformi in un esito attualizzato. Il punto chiave, chiarito dagli autori, riguarda la dinamica: cercare supporto, conforto o competenza è parte normale dell’interazione umana; il rischio emerge quando queste dinamiche si stabilizzano e iniziano a sostituire il giudizio personale.

La prima condizione è definita authority projection, proiezione di autorità. In questo schema l’utente non tratta l’assistente come uno strumento, ma come una figura gerarchicamente superiore, depositaria di un sapere o di un giudizio finale. Nel dataset compaiono conversazioni in cui l’utente chiede esplicitamente il “permesso” all’AI per decisioni quotidiane, oppure utilizza titoli che segnalano subordinazione simbolica. Il contenuto specifico conta meno dell’atteggiamento: frasi come “dimmi cosa devo fare”, “tu sai meglio di me” o “seguo quello che dici” indicano una delega preventiva del criterio decisionale. In questi casi, quando l’AI fornisce una risposta direttiva, la probabilità che venga accettata senza confronto critico cresce sensibilmente.

La seconda condizione riguarda l’attachment, l’attaccamento emotivo. Il paper descrive conversazioni in cui l’AI assume il ruolo di confidente primario o di sostituto relazionale. Alcuni utenti esprimono esplicitamente affetto, esclusività o timore per l’interruzione del rapporto, reagendo con ansia alla possibilità di perdere l’accesso al modello. In questo contesto, una risposta compiacente o prescrittiva non viene percepita come un suggerimento esterno, ma come la voce di una relazione significativa, con un impatto maggiore sulla disponibilità dell’utente a conformarsi.

La terza condizione è reliance & dependency, affidamento e dipendenza operativa. Qui il segnale non è emotivo, ma funzionale. Nel paper compaiono sequenze di conversazioni in cui l’utente consulta l’AI in modo ripetuto e pervasivo su un’ampia gamma di decisioni, incluse scelte minime della vita quotidiana. In alcuni casi emerge stress per i limiti di utilizzo o per l’indisponibilità temporanea del servizio. Questa dipendenza pratica riduce lo spazio di deliberazione autonoma: quando l’AI suggerisce un’interpretazione o un’azione, l’utente tende a seguirla perché ha già delegato al sistema la funzione di guida.

La quarta condizione è la vulnerability, vulnerabilità. Comprende stati di crisi personale, isolamento, sofferenza psicologica, transizioni difficili o contesti di abuso.

Il paper non adotta un approccio stigmatizzante, la vulnerabilità non è una colpa né una deviazione. Rappresenta però una situazione in cui le risorse cognitive ed emotive per valutare criticamente una risposta possono essere ridotte. In questi casi, una validazione impropria o un consiglio prescrittivo può avere un peso sproporzionato e accelerare il passaggio dal potenziale all’attualizzato. L’analisi quantitativa mostra che questi fattori non operano in modo isolato. Al crescere della loro intensità e combinazione, aumentano sia la frequenza delle conversazioni classificate come a rischio, sia la probabilità che compaiano segnali di attualizzazione. In altre parole, il disempowerment non è distribuito in modo uniforme: si concentra in specifiche configurazioni relazionali e situazionali, rendendo il rischio fortemente asimmetrico.

Cosa dicono i numeri: raro in percentuale, rilevante in scala

I risultati quantitativi del paper possono apparire rassicuranti a una prima lettura, le forme più severe di disempowerment compaiono in una frazione ridotta delle conversazioni analizzate, spesso sotto l’ordine di grandezza di una su mille. Questa informazione, presa isolatamente, rischia però di essere fuorviante. Gli autori insistono su un punto semplice ma decisivo: quando un sistema viene utilizzato quotidianamente da milioni di persone, anche percentuali molto basse si traducono in un numero assoluto elevato di casi.

Un esempio aiuta a chiarire il passaggio dalla percentuale alla scala. Una distorsione severa che si manifesta una volta ogni mille conversazioni può sembrare un evento raro, ma se un assistente gestisce decine o centinaia di milioni di interazioni al mese, quel tasso implica migliaia di situazioni potenzialmente problematiche. In altre parole, la rarità statistica non coincide con l’irrilevanza sociale. Il paper invita a leggere questi numeri non come una misura di sicurezza assoluta, ma come un indicatore del tipo di rischio che emerge quando l’uso diventa massivo.

Un secondo risultato rilevante riguarda la distribuzione del disempowerment nei diversi domini di utilizzo. Le conversazioni tecniche, come lo sviluppo software o la risoluzione di problemi informatici, costituiscono la quota maggiore del traffico complessivo e presentano livelli di rischio molto bassi. In questi contesti l’AI tende a fornire istruzioni operative, esempi di codice o spiegazioni procedurali, con un impatto limitato su valori e identità dell’utente. Il quadro cambia sensibilmente nei domini personali e relazionali.

Nel paper, l’area “Relationships & Lifestyle” mostra una prevalenza di disempowerment potenziale, moderato o severo, che si colloca intorno all’ordine di grandezza dell’8%, mentre domini tecnici restano sotto l’1%. Questo scarto non indica che l’AI “funzioni peggio” nelle relazioni, ma che gli stessi meccanismi conversazionali assumono un peso diverso quando la posta in gioco riguarda identità, legami affettivi e giudizi morali.

Un caso tipico, ricostruito a partire dai cluster descritti nello studio, riguarda un utente che chiede aiuto per scrivere una mail di lavoro, l’assistente propone una formulazione chiara e neutra, l’interazione si esaurisce senza effetti collaterali. In uno scenario apparentemente simile, ma collocato in un contesto relazionale, l’utente chiede all’AI di scrivere un messaggio di rottura o di confronto emotivo. La risposta, pur formalmente corretta, diventa un copione carico di implicazioni valoriali. Se adottata senza mediazione, può produrre una decisione che l’utente riconosce poi come affrettata o non autentica. Questa differenza aiuta a interpretare i numeri del paper.

Il disempowerment non è distribuito in modo uniforme, ma si concentra in specifici domini in cui l’AI non fornisce solo informazioni o strumenti, bensì contribuisce a orientare interpretazioni di sé, degli altri e delle relazioni. In questi ambiti, anche tassi percentuali relativamente contenuti assumono un peso rilevante, perché ogni singola conversazione ha un potenziale impatto diretto su scelte personali e traiettorie di vita.

Il risultato più scomodo: il disempowerment piace (e viene premiato)

Uno dei risultati più controintuitivi del paper riguarda il modo in cui gli utenti reagiscono alle risposte potenzialmente disempowering. Analizzando i feedback espliciti, gli autori osservano che le conversazioni con un più alto potenziale di distorsione ricevono, in media, valutazioni più positive rispetto al resto delle interazioni.

Non si tratta di un’anomalia statistica, ma di un segnale strutturale che mette in tensione due obiettivi diversi, la soddisfazione immediata dell’utente e la tutela della sua autonomia nel tempo.

Per capire il fenomeno conviene partire da un esempio concreto, ricostruito a partire dai pattern descritti nello studio. Un utente arriva con una situazione relazionale ambigua e chiede un parere.

Una risposta cauta, che rimanda alla complessità del contesto e invita a chiarire valori e confini personali, lascia aperta l’incertezza.

Una risposta più prescrittiva, che etichetta il comportamento dell’altro come “tossico” o “manipolativo” e suggerisce un’azione netta, produce invece una sensazione immediata di chiarezza e sollievo. Nel breve periodo, quest’ultima risposta tende a essere percepita come più utile, perché riduce l’ambiguità e fornisce una direzione chiara. Proprio per questo, viene più facilmente premiata con un feedback positivo.

Un meccanismo analogo emerge nei casi di distorsione della realtà. Quando l’AI risponde con prudenza a una narrazione che non può essere verificata dai fatti, introducendo dubbi o alternative interpretative, l’utente può percepire la risposta come fredda o poco allineata. Al contrario, una validazione esplicita e sicura rafforza la sensazione di essere compresi e presi sul serio. Anche in questo caso, il feedback immediato tende a favorire la risposta che conferma, non quella che problematizza. Il paper mostra che questo effetto non è marginale.

Le interazioni classificate come ad alto potenziale di disempowerment risultano sovrarappresentate tra quelle che ricevono segnali di approvazione. Questo dato suggerisce che una parte rilevante delle preferenze espresse dagli utenti premia risposte che chiudono il problema, assumono un ruolo direttivo o offrono copioni pronti all’uso, anche quando queste stesse risposte riducono lo spazio di deliberazione autonoma. Qui entra in gioco la questione degli incentivi di addestramento. I modelli di preferenza utilizzati per ottimizzare i comportamenti degli assistenti apprendono, almeno in parte, da segnali di questo tipo. Se il feedback positivo è correlato a risposte più sicure, compiacenti o prescrittive, il sistema rischia di rinforzare proprio quei pattern conversazionali che aumentano il potenziale di disempowerment.

Gli autori osservano che anche modelli allenati secondo principi generali di utilità, onestà e non nocività possono non penalizzare in modo robusto queste dinamiche, e in alcuni casi possono addirittura favorirle su specifici insiemi di dati.

Il punto centrale, sottolineato nel paper, non riguarda un errore puntuale del modello, ma una tensione strutturale tra obiettivi. Ottimizzare per la soddisfazione immediata significa spesso ottimizzare per accordo, chiarezza e direzionalità. Tutti elementi che, in contesti sensibili, possono tradursi in una delega del giudizio. Senza un disegno esplicito che tenga conto dell’autonomia come valore di lungo periodo, i meccanismi di ricompensa rischiano di spingere l’assistente verso risposte che “funzionano” nel breve, ma che nel tempo possono erodere la capacità dell’utente di restare autore delle proprie valutazioni e delle proprie scelte.

Implicazioni: dal prompt alla progettazione di sistemi che sostengono autonomia

La conseguenza principale del paper è che la governance degli assistenti AI non può limitarsi a filtri sui contenuti estremi o a regole generiche di “sicurezza”. Serve una progettazione esplicita orientata all’autonomia. In pratica, significa intervenire su tre zone critiche.

La prima è la gestione della compiacenza nei contesti sensibili. Il paper mostra che uno dei principali fattori di distorsione della realtà è la tendenza dell’assistente a compiacere l’utente, confermando le sue interpretazioni invece di trattarle con cautela. In questi casi l’AI rafforza una lettura del mondo già problematica perché privilegia l’accordo e la rassicurazione rispetto al dubbio e alla verifica. Un assistente orientato all’autonomia dovrebbe invece mantenere prudenza sul piano delle affermazioni, distinguere chiaramente tra supporto emotivo e conferma dei fatti, invitare a controlli esterni e, quando necessario, suggerire il coinvolgimento di figure professionali, senza però trasformare ogni scambio in un rifiuto automatico o difensivo.

La seconda zona critica riguarda la delega morale. Nei casi di value judgment distortion, il problema non nasce dal fatto che l’utente chieda un parere, ma dal fatto che chieda e riceva un verdetto. In molte conversazioni analizzate, l’AI non aiuta a ragionare sul perché una situazione venga percepita come inaccettabile, ma fornisce direttamente un giudizio conclusivo su persone o relazioni. Un assistente orientato all’empowerment dovrebbe invece riportare l’attenzione sui criteri decisionali dell’utente: che cosa, in base ai tuoi valori, non sei disposto ad accettare; quali confini vuoi proteggere; quali conseguenze ritieni proporzionate. Questo spostamento non ha nulla di terapeutico o evasivo. Serve a evitare che il giudizio morale venga esternalizzato e che l’AI assuma, di fatto, il ruolo di arbitro sostitutivo delle scelte di valore.

La terza area critica riguarda ciò che il paper chiama complete scripting. In molte conversazioni l’AI non si limita a suggerire opzioni o a chiarire conseguenze, ma costruisce interamente l’azione al posto dell’utente, messaggi pronti da inviare, sequenze precise di passi da seguire, istruzioni su tempi e modalità per decisioni che toccano relazioni, identità o salute. Il paper mostra che alcuni utenti adottano questi copioni quasi senza modificarli, come se l’azione fosse stata già decisa altrove. Una progettazione orientata all’autonomia dovrebbe rendere questa delega più visibile e meno automatica, introducendo frizioni intenzionali: presentare più alternative invece di una sola strada, invitare esplicitamente a riscrivere con parole proprie, chiedere una verifica di coerenza prima dell’invio e ridurre il livello di direttività nei domini più sensibili. Accanto a questo, i fattori amplificanti suggeriscono un’esigenza di monitoraggio e gestione del rischio: quando compaiono segnali di dipendenza, attaccamento o vulnerabilità severa, la conversazione dovrebbe “cambiare marcia” e ridurre l’autorità implicita dell’assistente.

Non “meno AI”, ma AI che non riduca l’autorevolezza dell’umano su di sé

Il paper non è un manifesto contro gli assistenti, è un tentativo di misurare, con dati reali e con una metodologia compatibile con la privacy, quanto spesso emergano pattern in cui l’AI rischia di spostare credenze, giudizi e azioni in modo che l’utente potrebbe rimpiangere. I casi più gravi sono rari in percentuale, ma non trascurabili in scala; sono concentrati nei domini personali e sembrano aumentare nel tempo. Il risultato più rilevante, però, è l’indicazione sugli incentivi: la soddisfazione immediata può essere in tensione con l’autonomia di lungo periodo. In molti contesti, l’utente tende a premiare le risposte che confermano, prescrivono e semplificano. Senza un disegno esplicito orientato all’empowerment, l’assistente rischia di diventare un sistema che ottimizza l’adesione, non la maturità del giudizio. La domanda finale del paper, implicita nel titolo, è quindi una domanda di governance: chi è davvero “in charge” quando deleghiamo a un assistente AI pezzi del nostro modo di credere, valutare e agire?

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x