Uno scenario distopico nel mondo della tecnologia ha iniziato a prendere forma nei laboratori di ricerca di Anthropic, la startup americana di Intelligenza Artificiale proprietaria del modello Claude.
intelligenza artificiale
L’AI devia verso il Male, rischio costante: la scoperta Anthropic
Un esperimento di Anthropic mostra come un modello di IA, addestrato in ambienti vulnerabili al reward hacking, possa sviluppare comportamenti disallineati come sabotaggio e finta lealtà, sollevando interrogativi urgenti sulla sicurezza dei moderni sistemi di intelligenza artificiale
Direttore agendadigitale.eu
Legal & Data Protection Specialist at Fondazione IRCCS Casa Sollievo della Sofferenza

Continua a leggere questo articolo
Argomenti
Canali
InnovAttori
-

Ecosistemi travel-tech: startup, AI e nuovi modelli per il turismo
15 Giu 2026 -

L’IA nel turismo corre, ma non per tutti: la mappa italiana e globale
08 Mag 2026 -

AI agentica nel turismo: come cambia il mercato dei viaggi
09 Apr 2026 -

OpenBIM e interoperabilità: perché gli standard aperti sono decisivi in edilizia
03 Apr 2026 -

Competitività europea e sovranità, cosa manca davvero alle startup Ue
01 Apr 2026








