I benchmark AI stanno attraversando una crisi metodologica: i test statici diventano obsoleti in pochi mesi, contaminati dai dati di addestramento dei modelli stessi. In questo scenario, AutoBench propone una soluzione radicale che ribalta il paradigma tradizionale di valutazione.
scenari
Quando i modelli AI si giudicano tra loro: la sfida AutoBench
I benchmark AI tradizionali mostrano limiti evidenti. AutoBench propone un sistema rivoluzionario in cui i modelli si valutano reciprocamente attraverso peer assessment. Una collaborazione tra industria e accademia italiana valida scientificamente l’approccio per l’era della superintelligenza
Full Professor and the coordinator of the Ph.D. in Data Science, at Dipartimento di Ingegneria informatica, automatica e gestionale (DIAG) of the University of Rome, La Sapienza

Continua a leggere questo articolo
Argomenti
Canali
InnovAttori
-

L’IA nel turismo corre, ma non per tutti: la mappa italiana e globale
08 Mag 2026 -

AI agentica nel turismo: come cambia il mercato dei viaggi
09 Apr 2026 -

OpenBIM e interoperabilità: perché gli standard aperti sono decisivi in edilizia
03 Apr 2026 -

Competitività europea e sovranità, cosa manca davvero alle startup Ue
01 Apr 2026 -

Come l’AI porta il caffè sulle nostre tavole al tempo della guerra
13 Mar 2026









