I benchmark dell’intelligenza artificiale rappresentano strumenti chiave per indirizzare la ricerca, confrontare le performance dei modelli e guidare le strategie di sviluppo. In teoria, dovrebbero fornire un quadro neutrale e rigoroso delle capacità dei modelli, contribuendo alla trasparenza e alla replicabilità scientifica.
In pratica, tuttavia, molti benchmark stanno perdendo credibilità. Sempre più esperti e istituzioni stanno sollevando dubbi sulla loro validità, rilevando che spesso misurano abilità fuorvianti, sono ottimizzati ad hoc e vengono usati come strumenti di marketing piuttosto che di valutazione.
Vediamo le recenti critiche rivolte ai benchmark più diffusi, documenta i casi di manipolazione, illustra i limiti concettuali legati alla mancanza di validità e presenta un nuovo paradigma di valutazione, ispirato alle scienze sociali, che sta guadagnando consenso nella comunità scientifica.
Indice degli argomenti
SWE-Bench e il paradosso dei benchmark di successo
SWE-Bench, introdotto nel novembre 2024, è stato sviluppato per misurare la capacità dei modelli linguistici di affrontare problemi di programmazione reali. I suoi oltre 2.000 task provengono da issue aperte su GitHub in progetti Python open source. Ha rapidamente ottenuto consenso, diventando uno standard di riferimento per la valutazione dei modelli AI specializzati nel coding.
Tuttavia, il successo di SWE-Bench ha messo in luce un problema strutturale: il rischio di overfitting. Alcuni modelli raggiungono punteggi eccellenti sul benchmark solo perché sono stati addestrati specificamente su codice Python o su pattern simili a quelli del dataset di test. In contesti diversi, come linguaggi alternativi o problemi fuori distribuzione, questi stessi modelli falliscono miseramente.
Secondo John Yang, ricercatore a Princeton e coautore del benchmark, “quello che stiamo premiando non è la vera competenza nella programmazione, ma l’abilità a risolvere esattamente i problemi presenti nel benchmark stesso”. SWE-Bench, insomma, rischia di trasformarsi in un gioco di ottimizzazione fine a sé stesso.
Inoltre, un’analisi pubblicata da Runloop.ai ha evidenziato ulteriori criticità: circa il 32,67% delle issue contiene nei commenti o nella descrizione indizi diretti sulla soluzione, rendendo il benchmark vulnerabile alla semplice memorizzazione piuttosto che alla generazione autonoma. Circa il 31% dei test è stato classificato come “debole”, ovvero incapace di discriminare tra soluzioni corrette e fallimentari, compromettendo così l’affidabilità complessiva della metrica.
La crisi della valutazione: il caso Chatbot Arena e WebArena
Oltre a SWE-Bench, anche altri benchmark molto noti sono finiti sotto accusa. Chatbot Arena, una piattaforma gestita da LMSYS che raccoglie voti umani in modalità doppio cieco per valutare i modelli conversazionali, è stata criticata per la mancanza di trasparenza e la possibilità di manipolazione.
Un’indagine dettagliata pubblicata da Kapoor et al. (2025) ha documentato come le classifiche di Chatbot Arena possano essere distorte da test condotti privatamente e non divulgati. In molti casi, versioni dei modelli ottimizzate per la leaderboard sono state rese pubbliche solo temporaneamente per ottenere punteggi elevati, salvo poi essere ritirate. Questo ha generato una percezione fuorviante della reale qualità dei modelli.
Anche WebArena, un benchmark pensato per valutare le capacità di navigazione autonoma sul web, è stato oggetto di controversie. Il modello vincitore, STeP, sfruttava pattern predefiniti degli URL dei siti simulati per accedere direttamente a contenuti specifici, aggirando di fatto la difficoltà delle attività proposte e invalidando in parte la valutazione.
Perché i benchmark dell’intelligenza artificiale non misurano più ciò che dichiarano
Molti ricercatori ritengono che il problema più urgente non sia il comportamento opportunistico degli sviluppatori, ma la struttura stessa dei benchmark. Una metrica è significativa solo se misura un concetto chiaramente definito. Ma cosa intendiamo esattamente per “comprensione del linguaggio” o “ragionamento logico”?
Nelle scienze sociali, questo problema è affrontato da decenni. Il concetto di “validità” prevede che ogni test debba essere progettato per misurare una competenza ben delineata, e che ci siano prove empiriche che il test misuri proprio quella competenza. Molti benchmark AI invece aggregano task eterogenei, con criteri di valutazione poco chiari e finiscono per fornire numeri privi di significato reale.
Vanessa Parli, direttrice della ricerca presso Stanford HAI, ha definito questa situazione “una crisi epistemologica della valutazione AI”. Andrej Karpathy ha parlato apertamente di “illusione da benchmark”: i punteggi servono più al marketing che alla comprensione.
Un precedente virtuoso: il caso ImageNet e AlexNet
Per comprendere quanto i benchmark possano avere un impatto positivo, vale la pena ricordare la sfida ImageNet, lanciata nel 2010 come competizione aperta per classificare oltre 3 milioni di immagini in 1.000 categorie. Il benchmark era agnostico rispetto al metodo usato: bastava ottenere i migliori risultati.
Nel 2012, un modello chiamato AlexNet, basato su reti neurali convoluzionali e addestrato con GPU, surclassò gli altri e inaugurò di fatto l’era del deep learning moderno. Nessuno avrebbe previsto che proprio quell’architettura fosse la chiave per il riconoscimento delle immagini, ma l’evidenza empirica non lasciava dubbi.
Il successo di ImageNet stava nel fatto che misurava un task ben definito e rilevante: classificare immagini reali. Al contrario, molti benchmark odierni hanno obiettivi più vaghi, rendendo difficile interpretare il significato reale dei punteggi ottenuti.
BetterBench e il ritorno alla validità
Per rispondere a questa crisi, nel 2024 è nato BetterBench, un progetto guidato da Anka Reuel. Si tratta del primo tentativo sistematico di valutare la qualità dei benchmark stessi. Il framework include 46 criteri di valutazione, tra cui:
- La definizione teorica della capacità misurata
- La documentazione del dataset
- La ripetibilità e verificabilità dei risultati
- L’indipendenza tra set di addestramento e test
- Il supporto per lingue e culture diverse
L’analisi di BetterBench ha mostrato come benchmark molto noti, come MMLU, falliscano nel soddisfare molti di questi requisiti. Al contrario, benchmark meno recenti ma ben strutturati, come ALE (usato per valutare l’apprendimento nei giochi Atari), risultano più robusti e coerenti.
Un nuovo paradigma: dalla prestazione alla misurazione strutturata
L’approccio proposto da BetterBench si inserisce in un movimento più ampio che coinvolge anche attori come Hugging Face, Microsoft Research, EleutherAI e Stanford. Si tratta di un vero e proprio cambio di paradigma: l’obiettivo non è più ottenere un numero da inserire in una classifica, ma progettare strumenti scientifici per comprendere le competenze dei modelli.
Questa visione si ispira alla psicometria, che da decenni studia come valutare in modo affidabile abilità astratte come l’intelligenza o la motivazione. Il processo prevede:
- Definire formalmente la competenza da misurare
- Scomporla in sottocomponenti osservabili
- Creare item (task) che isolano ciascuna componente
- Validare empiricamente la correlazione tra punteggio e competenza reale
Nel contesto dell’IA, ciò significa che non possiamo più accontentarci di benchmark che mescolano domande scolastiche, problemi di logica e trivia generici. Serve rigore metodologico, trasparenza e definizione.
Abigail Jacobs, dell’Università del Michigan, lo riassume così: “Stiamo cercando di misurare cose difficili, come la creatività o la comprensione profonda. Non possiamo farlo con strumenti improvvisati o semplificati.”
Costruire una scienza della valutazione per l’AI
La comunità dell’intelligenza artificiale si trova oggi a un bivio. Da un lato, la pressione commerciale spinge verso benchmark semplici, adatti al marketing e alla comunicazione. Dall’altro, la necessità di valutazioni serie, replicabili e fondate richiede strumenti nuovi, più complessi ma anche più affidabili.
Il lavoro di BetterBench e dei ricercatori affiliati dimostra che una scienza della valutazione è possibile, a patto di adottare standard condivisi e una mentalità più rigorosa. Misurare le capacità dell’intelligenza artificiale non può essere un esercizio approssimativo: richiede la stessa attenzione metodologica che riserviamo alla valutazione delle competenze umane.
Come sottolineato in un recente position paper di Google, Microsoft, Anthropic e Stanford: “L’AI evaluation science deve evolvere verso metriche specifiche, contestuali, ancorate alla realtà d’uso, e abbandonare le scorciatoie che promettono punteggi impressionanti ma privi di significato”.
A bilanciare questa visione, arriva la riflessione di Ethan Mollick, professore alla Wharton School: “I benchmark sono misure poco affidabili, ma sono anche ciò che abbiamo”. E aggiunge: “Allo stesso tempo, i modelli stanno migliorando. Molti peccati vengono perdonati dal rapido progresso”.
È una considerazione che fotografa con lucidità l’attuale ambivalenza: i limiti dei benchmark sono evidenti, ma il settore continua ad avanzare a ritmi tali da rendere tollerabili strumenti anche imperfetti. La vera sfida, oggi, è costruire sistemi di valutazione all’altezza della velocità e della complessità dei modelli che stiamo sviluppando.
Bibliografia
https://arxiv.org/abs/2504.20879
BetterBench – Stanford University. https://betterbench.stanford.edu/
Introducing SWE-Bench Verified – OpenAI. https://openai.com/index/introducing-swe-bench-verified/
Kapoor et al. (2025). The Leaderboard Illusion. https://arxiv.org/abs/2504.20879
Stanford HAI – What Makes a Good AI Benchmark. https://hai.stanford.edu/what-makes-good-ai-benchmark
LMSYS – Chatbot Arena. https://lmsys.org/blog/2023-05-03-arena/
Reuel et al. (2024). AI Evaluation as a Social Science Measurement Problem. https://arxiv.org/abs/2402.00902
Google et al. (2024). Towards Valid Evaluation in Foundation Models. https://arxiv.org/abs/2403.13439
Runloop.ai – SWE-Bench Deep Dive. https://www.runloop.ai/blog/swe-bench-deep-dive-unmasking-the-limitations-of-a-popular-benchmark