scenari

Quando i modelli AI si giudicano tra loro: la sfida AutoBench



Indirizzo copiato

I benchmark AI tradizionali mostrano limiti evidenti. AutoBench propone un sistema rivoluzionario in cui i modelli si valutano reciprocamente attraverso peer assessment. Una collaborazione tra industria e accademia italiana valida scientificamente l’approccio per l’era della superintelligenza

Pubblicato il 11 dic 2025

Fabrizio Silvestri

Full Professor and the coordinator of the Ph.D. in Data Science, at Dipartimento di Ingegneria informatica, automatica e gestionale (DIAG) of the University of Rome, La Sapienza



AI gestione servizi IT; sistemi legacy gen AI agentic AI; AI investigazioni benchmark AI

I benchmark AI stanno attraversando una crisi metodologica: i test statici diventano obsoleti in pochi mesi, contaminati dai dati di addestramento dei modelli stessi. In questo scenario, AutoBench propone una soluzione radicale che ribalta il paradigma tradizionale di valutazione.

Continua a leggere questo articolo

Articoli correlati