I benchmark AI stanno attraversando una crisi metodologica: i test statici diventano obsoleti in pochi mesi, contaminati dai dati di addestramento dei modelli stessi. In questo scenario, AutoBench propone una soluzione radicale che ribalta il paradigma tradizionale di valutazione.
scenari
Quando i modelli AI si giudicano tra loro: la sfida AutoBench
I benchmark AI tradizionali mostrano limiti evidenti. AutoBench propone un sistema rivoluzionario in cui i modelli si valutano reciprocamente attraverso peer assessment. Una collaborazione tra industria e accademia italiana valida scientificamente l’approccio per l’era della superintelligenza
Full Professor and the coordinator of the Ph.D. in Data Science, at Dipartimento di Ingegneria informatica, automatica e gestionale (DIAG) of the University of Rome, La Sapienza

Continua a leggere questo articolo
Argomenti
Canali
Con o Senza – Galaxy AI per il business











