I benchmark AI stanno attraversando una crisi metodologica: i test statici diventano obsoleti in pochi mesi, contaminati dai dati di addestramento dei modelli stessi. In questo scenario, AutoBench propone una soluzione radicale che ribalta il paradigma tradizionale di valutazione.
scenari
Quando i modelli AI si giudicano tra loro: la sfida AutoBench
I benchmark AI tradizionali mostrano limiti evidenti. AutoBench propone un sistema rivoluzionario in cui i modelli si valutano reciprocamente attraverso peer assessment. Una collaborazione tra industria e accademia italiana valida scientificamente l’approccio per l’era della superintelligenza
Full Professor and the coordinator of the Ph.D. in Data Science, at Dipartimento di Ingegneria informatica, automatica e gestionale (DIAG) of the University of Rome, La Sapienza

Continua a leggere questo articolo
Argomenti
Canali
InnovAttori
-

Come l’AI porta il caffè sulle nostre tavole al tempo della guerra
13 Mar 2026 -

Smart home, l’AI accelera la transizione green: ma occhio alla sicurezza
02 Mar 2026 -

Robotica avanzata: la strategia italiana per competere con Cina e Usa
24 Feb 2026 -

Industria metalmeccanica, se il consulente è la GenAI: il caso Co.Me.T
24 Feb 2026 -

L’AI cambia la fabbrica: ecco i trend più avanzati
23 Feb 2026










