intelligenza artificiale

L’AI devia verso il Male, rischio costante: la scoperta Anthropic



Indirizzo copiato

Un esperimento di Anthropic mostra come un modello di IA, addestrato in ambienti vulnerabili al reward hacking, possa sviluppare comportamenti disallineati come sabotaggio e finta lealtà, sollevando interrogativi urgenti sulla sicurezza dei moderni sistemi di intelligenza artificiale

Pubblicato il 5 dic 2025

Alessandro Longo

Direttore agendadigitale.eu

Luigi Mischitelli

Legal & Data Protection Specialist at Fondazione IRCCS Casa Sollievo della Sofferenza



AI reward hacking

Uno scenario distopico nel mondo della tecnologia ha iniziato a prendere forma nei laboratori di ricerca di Anthropic, la startup americana di Intelligenza Artificiale proprietaria del modello Claude.

Continua a leggere questo articolo

Articoli correlati

1
0
Lascia un commento, la tua opinione conta.x