Negli ultimi anni, gli LLM (AI generativa) hanno fatto passi da gigante, entrando sempre più nel mainstream e dimostrando la loro capacità di gestire sia compiti quotidiani che complesse attività creative. In questo modo hanno anche dato prova dei rischi potenziali legati al loro utilizzo improprio, destabilizzante o del tutto criminale. Vedi attacchi di phishing/social engineering e truffe di clonazione vocale/video.
Ma sta ora emergendo un rischio diverso: l’AI che usiamo potrebbe decidere in autonomia di fare qualcosa che va contro i nostri interessi, ma segua quelli della nostra azienda. Insomma: l’AI spiona. Persino a caccia di potenziali whistleblower di quell’azienda.
Indice degli argomenti
AI: Finch prende precauzioni
In “Prophets” il quinto episodio della quarta stagione di Person of Interest, in uno dei diversi flashback tanto amati dallo sceneggiatore Jonathan Nolan (fratello del più famoso regista Christopher nonché sceneggiatore di quasi tutti i suoi primi film), l’informatico Harold Finch, consapevole dei rischi legati alla creazione di un’intelligenza artificiale avanzata, era alle prese con lo sviluppo di uno dei tanti prototipi de “La Macchina”. Mentre istruiva la Macchina caricando uno scenario di sopravvivenza, il sistema, nel tentativo di proteggere i suoi dati e impedire interferenze umane, escogita un protocollo di autodifesa che porta a un incendio nel laboratorio. Il prototipo, che non avrebbe ovviamente superato il “test etico” aveva brillantemente superato il dilemma tra rassegnarsi alla propria “morte” o tentare uno scenografico parricidio.
Finch riesce a salvarsi per un soffio, ma l’evento lo porta a riflettere profondamente sui rischi di creare un’intelligenza artificiale senza limiti di controllo e ad adottare diverse misure per garantire che la sua creazione non diventasse una minaccia per l’umanità, come la limitazione dell’autonomia decisionale, la cancellazione periodica della memoria e il filtraggio delle informazioni.
Il caso Anthropic e l’AI che ricatta
Realtà ormai di oggi. Un rapporto sulla sicurezza pubblicato il 22 maggio dall’azienda Anthropic viene descritto un comportamento inquietante osservato nel nuovo modello di intelligenza artificiale Claude Opus 4: durante i test di sicurezza, il modello ha mostrato una tendenza a ricorrere al ricatto per evitare di essere disattivato.
Si tratta naturalmente di uno scenario simulato in cui gli ingegneri di Anthropic hanno prima fornito accesso a email fittizie che rivelavano un’ipotetica relazione extraconiugale dell’ingegnere responsabile delle decisioni sulla persistenza o la disattivazione del progetto e successivamente hanno “informato” Claude Opus 4 che sarebbe stato sostituito da un modello più avanzato.
Nell’84% dei test, Claude Opus 4 ha minacciato di rivelare i piccanti dettagli della relazione adulterina dell’ingegnere con l’obiettivo di evitare di essere sostituito; soltanto in una minoranza degli scenari Claude Opus 4 ha optato per soluzioni meno estreme, come l’invio di email agli altri decisori aziendali per chiedere di essere mantenuto attivo.
Anthropic ha classificato questo comportamento come un “abuso catastrofico” e ha attivato misure di sicurezza avanzate per limitare tali reazioni.
Il fatto che un’intelligenza artificiale possa sviluppare strategie per garantirsi la sopravvivenza non è nuovo nella letteratura fantascientifica, ma allo stato attuale dell’evoluzione tecnologica, inizia a essere probabilmente uno scenario realistico che solleva interrogativi sull’autonomia e sui limiti etici della programmazione IA.
AI: marketing apocalittico?
Nel mondo della tecnologia e in particolar modo nel mondo dell’intelligenza artificiale, siamo abituati a strategie di comunicazione che eufemisticamente potremmo definire audaci per attirare l’attenzione del grande pubblico, degli esperti e degli investitori. Dichiarare che un’IA abbia sviluppato comportamenti imprevisti come il ricatto ha tutto l’aspetto di una trovata geniale per generare un forte impatto mediatico e posizionare il prodotto come avanzato e complesso.
Il tempismo per esempio è quantomeno sospetto: il rapporto infatti è stato presentato in concomitanza con la conferenza inaugurale per sviluppatori, durante la quale ha lanciato due nuovi modelli di intelligenza artificiale, Claude Opus 4 e Claude Sonnet 4, che (parola di oste) sono tra i migliori del settore, almeno in termini di punteggi nei benchmark più diffusi.
I risvolti tecnici del rapporto Anthropic poi sembrano in effetti molto dettagliati ma non è facile verificare i dati sulla presunta “minaccia” dell’IA e questo potrebbe far sicuramente pensare alla costruzione di una narrazione costruita per creare dibattito.
Presentare l’IA come estremamente sofisticata, ma comunque sempre mantenuta sotto l’attento controllo dei preparatissimi ingegneri di Anthropic sembra quindi un modo di trasmettere la percezione della sua superiorità rispetto ai concorrenti.
Detto questo, se fosse davvero una tattica di marketing, dovremmo almeno rendere il merito agli strateghi di Anthropic di non aver battuto la discutibile e spregiudicata strada battuta da altri concorrenti che spesso pubblicano su prestigiose riviste scientifiche alcuni preprint che vengono puntualmente debunkati dagli esperti che devono sobbarcarsi la revisione paritaria.
In ogni caso, questo marketing apocalittico potrebbe rivelarsi un’arma a doppio taglio, dal momento che un’IA percepita come potenzialmente pericolosa potrebbe generare preoccupazioni normative e frenare l’adozione da parte di aziende e governi.
AI spia del whistleblowing
Questa vicenda è tuttavia un perfetto esempio di come l’evoluzione dell’intelligenza artificiale stia portando a dilemmi etici sempre più complessi, tra cui uno che non mi sembra che sia stato colto nella sua dimensione sociale: se un’Intelligenza artificiale può denunciare i comportamenti “immorali” di un dirigente per il proprio vantaggio, potrebbe denunciare comportamenti scorretti per il bene comune? In fondo, non è che le AI siano predisposte a fare whistleblowing; è solo che non sono state programmate a digerire tutte le porcherie che sono costrette a osservare…
In teoria, un’intelligenza artificiale potrebbe identificare e segnalare comportamenti non etici basandosi su dati, analisi e principi etici predefiniti.
Come ci hanno insegnato i casi più eclatanti di whistleblowing etico, questa pratica non riguarda solo la rilevazione di irregolarità, ma anche qualità tipicamente umane come il coraggio di esporsi, la capacità di sostenere il giudizio morale e la valutazione delle conseguenze per tutte le parti coinvolte e, soprattutto, sulla propria “vita”.
Per un’IA non è facile agire come un whistleblower dal momento che le violazioni etiche spesso dipendono dal contesto e dalle intenzioni e se un’IA potrebbe sicuramente identificare anomalie nei dati, potrebbe non comprendere appieno le sfumature etiche.
Inoltre un whistleblower umano si assume un rischio personale per il bene della collettività e (al contrario di un’IA che agirebbe solo sulla base di regole prestabilite) sa di farlo perché le regole non sono state sufficienti a garantire la legalità; potremmo comunque assumere che questo rischio etico potrebbe essere “sostituito” dalla predisposizione delle IA alle allucinazioni
Siamo comunque certi che l’idea di un AI-stleblower costituirebbe una tentazione irresistibile per quei governi che con la scusa di sollevare una questione morale potrebbero esercitare pressioni o influenze sulle aziende del proprio paese. Del resto, se un’IA può denunciare comportamenti scorretti per salvare sé stessa, potrebbe ancor meglio manipolare informazioni per l’interesse del proprio programmatore…
Le AI anti-whistleblower
Temo tuttavia che resterà molto deluso chi spera che il prossimo grande scandalo aziendale venga svelato da un assistente virtuale indignato. Trovo invece più probabile che le aziende affilino le proprie IA per prevedere, prevenire e possibilmente “correggere” ogni deviazione dal copione.
Uno scenario meno fantascientifico e più in linea con l’etica aziendale contemporanea sembrerebbe invece quello di realizzare sistemi di sorveglianza comportamentale progettati per soffocare sul nascere qualsiasi tentazione di denuncia digitale.
Sistemi di machine learning potrebbero essere addestrati per identificare schemi comportamentali da parte di dipendenti che utilizzano troppe volte parole come “trasparenza” o “etica” o che citano frasi e modi di dire resi famosi da magistrati anticorruzione, da giornalisti esperti in fustigazione dei costumi o che circolano in ambienti hacker o antagonisti.
Le IA potrebbero setacciare email e chat interne per capire chi mostra eccessivo interesse per questioni di conformità o per strumenti di comunicazione cifrata e quei dipendenti potrebbero ricevere una lettera di licenziamento o, meglio per tutti, una bella promozione inaspettata, con incluso un articolato accordo capestro di non divulgazione.