I ricercatori della compagnia di intelligenza artificiale Anthropic hanno trovato indizi sul funzionamento interno dei modelli linguistici di grandi dimensioni, il che potrebbe aiutare a prevenire il loro uso improprio e a ridurre i potenziali rischi. Lo studio prende le mosse dal fatto che i codici alla base dei sistemi di intelligenza artificiale non sono scritti linea per linea dai programmatori, ma creati in modo che tali sistemi apprendano autonomamente dai dati forniti. Questo rende difficile capire o correggere gli errori commessi dai modelli.
Studio anthropic
Dentro la “scatola nera” dell’IA: un primo passo verso la trasparenza
I ricercatori di Anthropic hanno scoperto il funzionamento interno dei modelli linguistici di grandi dimensioni, migliorando la comprensione e il controllo dell’IA. Utilizzando la tecnica del “dictionary learning”, hanno mappato caratteristiche ricorrenti, riducendo i rischi di uso improprio e bias. Questi progressi rappresentano un passo avanti significativo verso una IA più trasparente e sicura
Junior Analyst Hermes Bay S.r.l.

Continua a leggere questo articolo
Argomenti
Canali
InnovAttori
-

Smart home, l’AI accelera la transizione green: ma occhio alla sicurezza
02 Mar 2026 -

Robotica avanzata: la strategia italiana per competere con Cina e Usa
24 Feb 2026 -

Industria metalmeccanica, se il consulente è la GenAI: il caso Co.Me.T
24 Feb 2026 -

L’AI cambia la fabbrica: ecco i trend più avanzati
23 Feb 2026 -

San Raffaele, l’AI entra nella pratica clinica: meno burocrazia, più ascolto
23 Feb 2026









