scenari

Quando i modelli AI si giudicano tra loro: la sfida AutoBench

I benchmark AI tradizionali mostrano limiti evidenti. AutoBench propone un sistema rivoluzionario in cui i modelli si valutano reciprocamente attraverso peer assessment. Una collaborazione tra industria e accademia italiana valida scientificamente l’approccio per l’era della superintelligenza

Pubblicato il 11 dic 2025

Fabrizio Silvestri

Full Professor and the coordinator of the Ph.D. in Data Science, at Dipartimento di Ingegneria informatica, automatica e gestionale (DIAG) of the University of Rome, La Sapienza

AI gestione servizi IT; sistemi legacy gen AI agentic AI; AI investigazioni benchmark AI; AI antiriciclaggio;genAI legal tech; ai in azienda; ai codice appalti

Chiedi allʼAI Nextwork360

Riassumi questo articolo

Approfondisci con altre fonti

I benchmark AI stanno attraversando una crisi metodologica: i test statici diventano obsoleti in pochi mesi, contaminati dai dati di addestramento dei modelli stessi. In questo scenario, AutoBench propone una soluzione radicale che ribalta il paradigma tradizionale di valutazione.

L’IA che valuta se stessa: promessa o paradosso?

Indice degli argomenti

La crisi dei benchmark tradizionali nell’era dell’AI generativa

Il paradosso, nel campo dell’Intelligenza Artificiale generativa, è evidente: i modelli crescono a vista d’occhio, ma la nostra capacità di valutarli in modo affidabile arranca. Come ricercatori, la domanda che ci poniamo ogni giorno è: come facciamo a sapere se un nuovo modello è veramente “più intelligente” del precedente?

Migliaia di LLM affollano il mercato, le classifiche (“leaderboard“) cambiano ogni settimana, e i benchmark, un tempo i nostri strumenti di misura oggettivi, rischiano di trasformarsi in quiz a scelta multipla di cui i modelli hanno già visto tutte le risposte.

È il fenomeno che chiamiamo “contaminazione dei test“: gli stessi dataset usati per valutare i modelli finiscono, direttamente o indirettamente, nei loro dati di addestramento. Il risultato è una vera e propria “LLM inflation“, con punteggi sempre più alti dei quali non è chiaro se misurino davvero la qualità o soltanto la capacità di ottimizzare su test ormai noti.

In questo contesto, i benchmark statici diventano facili da “ingannare”, mentre le valutazioni umane restano lente, costose e impossibili da scalare. Così, proprio nel momento in cui servirebbe più trasparenza, la nostra bussola delle prestazioni rischia di impazzire.

L’incontro con Peter Kruger e la nascita di una collaborazione

È in questo scenario che, lo scorso aprile 2025, sono stato contattato da Peter Kruger. Peter è l’imprenditore e l’ideatore di AutoBench, un framework rivoluzionario nato e sviluppato interamente all’interno della sua azienda, eZecute, con il supporto di importanti partner industriali come Translated.

Peter mi ha presentato un’intuizione tanto pratica quanto affascinante, che seguiva un percorso inverso rispetto alla tradizione: non dall’accademia al mercato, ma da un’intuizione industriale che cercava una rigorosa consacrazione scientifica.

Il concetto rivoluzionario: modelli che si valutano reciprocamente

La domanda di fondo che Peter mi ha posto è se, visto quanto i modelli stanno migliorando, non fosse il momento di usarli per valutarsi reciprocamente, invece di continuare a inseguire test statici che invecchiano in pochi mesi.

L’idea alla base di AutoBench è semplice da raccontare, ma sofisticata da realizzare: invece di usare un test fisso, AutoBench costruisce un ecosistema di modelli che si giudicano a vicenda. Gli LLM partecipano a un ciclo in cui generano nuove domande, rispondono e giudicano le risposte dei colleghi. Da questo “parlamento di modelli” nasce un consenso ecosistemico sulle classifiche, molto più difficile da corrompere.

Dal concept industriale alla validazione accademica della Sapienza

Dopo una serie di incontri, l’idea ci ha convinto. Abbiamo costituito un team dedicato qui alla Sapienza, all’interno del Dipartimento di Ingegneria Informatica, Automatica e Gestionale (DIAG) e del nostro gruppo di ricerca RSTLess, che si fonda sullo studio di deep learning, con un’attenzione particolare ai temi di Robustness, Safety e Transparency.

Il progetto di eZecute non era solo un concept. Il loro terzo “run pubblico“, completato nell’estate 2025, aveva già prodotto dati impressionanti: 33 modelli valutati su 400 iterazioni, con circa 300.000 giudizi individuali raccolti. Le loro classifiche mostravano correlazioni altissime con benchmark noti (come il 92,17% con l’AAII e l’86,85% con LMSYS Chatbot Arena).

Il nostro compito, come accademici, era prendere questa intuizione già funzionante e validarla con il massimo rigore scientifico.

Il paper scientifico che ribalta il paradigma ricerca-industria

Solitamente, la ricerca fondamentale nasce in università per poi essere applicata dalle aziende. AutoBench ha ribaltato questo paradigma. Come guida del gruppo RSTLess, ho visto subito un’occasione rara: un framework nato da esigenze industriali che meritava una validazione formale.

Da questo incontro è nato il paper “AutoBench: Automating LLM Evaluation through Reciprocal Peer Assessment“, un lavoro che rappresenta un punto di contatto ideale tra industria e accademia. Il paper è firmato dai ricercatori del nostro team (Dario Loi, Elena Maria Muià, Federico Siciliano, Giovanni Trappolini e Vincenzo Crisà), insieme a Peter Kruger e sotto il mio coordinamento.

Nel nostro studio, abbiamo ricostruito e formalizzato il metodo di AutoBench, sottoponendolo a test controllati per gettare le basi di un nuovo paradigma di valutazione automatica.

Il meccanismo di peer assessment validato sperimentalmente

Cosa abbiamo fatto, in pratica? Abbiamo verificato scientificamente il meccanismo di peer assessment reciproco. In AutoBench sono stati gli stessi LLM a generare nuovi compiti complessi, dalla matematica alla storia. A governare il processo c’è un algoritmo di ponderazione iterativa che abbiamo analizzato a fondo: se un modello si dimostra costantemente un giudice affidabile e allineato con il consenso generale, il suo voto avrà più peso. In altre parole, il sistema impara di chi fidarsi e converge verso una classifica stabile.

Il nostro compito è stato quello di riprodurre in un ambiente controllato le prestazioni di AutoBench, ottenute usando API pubblici dei vari fornitori di LLM. Per questo, sfruttando le risorse di calcolo della Sapienza, abbiamo prima installato una serie di LLM opensource da testare e poi fatto girare AutoBench su questa infrastruttura interamente sotto il nostro controllo.

I risultati scientifici: correlazioni e superiorità multi-giudice

I risultati del nostro lavoro sono stati due e di grande rilievo scientifico:

Le classifiche prodotte da AutoBench mostrano forti correlazioni con benchmark accademici consolidati come MMLU-Pro (78%) e GPQA (63%), confermando la solidità dell’approccio.
Il sistema “multi-giudice” è superiore. Abbiamo dimostrato che usare più modelli come valutatori (come fa AutoBench) porta a punteggi più affidabili e vicini al giudizio umano rispetto a una configurazione con un singolo giudice (come spesso si fa usando GPT-4). Questo riduce i bias individuali e migliora la robustezza.

Il nostro studio ha quindi confermato su scala rigorosa ciò che i run pubblici di eZecute avevano già suggerito sul campo.

Vantaggi metodologici e preparazione all’era della superintelligenza

Ritengo che questi risultati vadano ben oltre la singola leaderboard. Un framework validato come AutoBench porta tre vantaggi metodologici chiave:

Riduzione del bias: Il voto non è nelle mani di un solo “super-modello”, ma diluito in un pannello eterogeneo.
Maggiore granularità: Le domande dinamiche e le categorie tematiche permettono di capire non solo chi vince, ma dove e a quale prezzo.
Cost-effectiveness: L’intero ciclo è automatizzato e scalabile, pronto a essere rilanciato ogni volta che arriva un nuovo modello.

Tutto questo è fondamentale se guardiamo all’era dell’ASI (“Artificial Superintelligence“). In uno scenario in cui i modelli superano le capacità umane, affidarsi solo al giudizio umano per valutarli diventa insostenibile. Servono strumenti automatici, robusti e trasparenti, e AutoBench nasce con l’ambizione di essere “ASI-ready“.

Eccellenza italiana e prospettive future della collaborazione

Questo successo è anche una vetrina per l’ecosistema tecnologico italiano. Da una parte c’è eZecute, l’azienda di Peter Kruger che ha ideato e sviluppato AutoBench come proprio progetto di punta, aprendolo in open-source e rendendolo trasparente. Dall’altra ci siamo noi, la Sapienza, con il gruppo RSTLess del DIAG, che abbiamo portato il rigore della ricerca accademica su un’iniziativa nata “sul campo”.

È un esempio concreto di come industria e accademia possano validarsi e arricchirsi a vicenda.

E la nostra collaborazione non finisce qui. Stiamo già studiando insieme come applicare la metodologia AutoBench ad ambiti ancora più complessi e cruciali, come la valutazione delle metodologie di “reasoning” (il ragionamento step-by-step) e di “function calling” (la capacità dei modelli di interagire con strumenti esterni – molto rilevante per le attività “agentiche“). AutoBench, inoltre, apre a scenari molto interessanti quali, ad esempio, la valutazione dei modelli LLM in altre modalità di funzionamento come quelle di generazione e di “giudice”. Questo dualismo, in particolare, apre lo spazio a metodi d’analisi tipici della scienza della complessità, che sono totalmente inediti per questo ambito.

Insomma, siamo appena all’inizio di una prospettiva molto promettente di ricerca. In un’epoca in cui i modelli crescono più velocemente della nostra capacità di valutarli, il nostro lavoro congiunto propone un approccio scalabile e self-sustaining per capire, domani, sistemi che saranno sempre più difficili da valutare, proprio perché capaci di performance sempre più complesse e “intelligenti”.

@RIPRODUZIONE RISERVATA