Uno scenario distopico nel mondo della tecnologia ha iniziato a prendere forma nei laboratori di ricerca di Anthropic, la startup americana di Intelligenza Artificiale proprietaria del modello Claude.
intelligenza artificiale
L’AI devia verso il Male, rischio costante: la scoperta Anthropic
Un esperimento di Anthropic mostra come un modello di IA, addestrato in ambienti vulnerabili al reward hacking, possa sviluppare comportamenti disallineati come sabotaggio e finta lealtà, sollevando interrogativi urgenti sulla sicurezza dei moderni sistemi di intelligenza artificiale
Direttore agendadigitale.eu
Legal & Data Protection Specialist at Fondazione IRCCS Casa Sollievo della Sofferenza

Continua a leggere questo articolo
Argomenti
Canali
InnovAttori
-

Smart home, l’AI accelera la transizione green: ma occhio alla sicurezza
02 Mar 2026 -

Robotica avanzata: la strategia italiana per competere con Cina e Usa
24 Feb 2026 -

Industria metalmeccanica, se il consulente è la GenAI: il caso Co.Me.T
24 Feb 2026 -

L’AI cambia la fabbrica: ecco i trend più avanzati
23 Feb 2026 -

San Raffaele, l’AI entra nella pratica clinica: meno burocrazia, più ascolto
23 Feb 2026









