scenari

Quando i modelli AI si giudicano tra loro: la sfida AutoBench

I benchmark AI tradizionali mostrano limiti evidenti. AutoBench propone un sistema rivoluzionario in cui i modelli si valutano reciprocamente attraverso peer assessment. Una collaborazione tra industria e accademia italiana valida scientificamente l’approccio per l’era della superintelligenza

Pubblicato il 11 dic 2025

Fabrizio Silvestri

Full Professor and the coordinator of the Ph.D. in Data Science, at Dipartimento di Ingegneria informatica, automatica e gestionale (DIAG) of the University of Rome, La Sapienza

AI gestione servizi IT; sistemi legacy gen AI agentic AI; AI investigazioni benchmark AI; AI antiriciclaggio;genAI legal tech; ai in azienda; ai codice appalti

I benchmark AI stanno attraversando una crisi metodologica: i test statici diventano obsoleti in pochi mesi, contaminati dai dati di addestramento dei modelli stessi. In questo scenario, AutoBench propone una soluzione radicale che ribalta il paradigma tradizionale di valutazione.

@RIPRODUZIONE RISERVATA