Qual è il modello di intelligenza artificiale giusto? ChatGPT, Gemini, Claude, Llama, DeepSeek ecc..
Ogni giorno escono nuove versioni. La verità? Ce ne sono semplicemente troppi in circolazione. Non è solo la loro performance a migliorare costantemente, è il loro numero che sta esplodendo.
Indice degli argomenti
Il panorama frammentato dei modelli di intelligenza artificiale
Certo, esistono i benchmark che dovrebbero dare una valutazione scientifica delle performance, anche per aree d’utilizzo, come programmazione, ragionamento, scrittura, ecc.. Ma sappiamo tutti che, sui task individuali, la qualità delle risposte cambia enormemente. Rimane sempre lo stesso dubbio: “È questa la migliore risposta possibile per l’uso che mi interessa?”
Oggi molte app, come GlobalGPT e TypeThink, permettono di confrontare le risposte. Ma per farlo, occorre leggere ogni singola riposta, ed è un po’ come cercare di prenotare un volo visitando il sito di ogni singola compagnia aerea. Non proprio un metodo che ci si aspetta nell’era degli LLM (Large Language Models).
E se esistesse uno “Skyscanner” per gli LLM? O, se volete, un Trip Advisor per le migliori risposte?
Bot Scanner: architettura e funzionamento della piattaforma di valutazione
Questa è l’idea dietro a Bot Scanner, la piattaforma creata in eZecute. Bot Scanner non si limita a dare risposte da decine di modelli AI, ma fa un passo in più: usa altri modelli di intelligenza artificiale per analizzare e classificare tutte le risposte, presentando una graduatoria chiara e oggettiva.
Nella sua semplicità, Bot Scanner è una piattaforma che orchestra un sofisticato processo in due fasi. Per prima cosa, prende un singolo prompt dall’utente e lo invia a un gruppo di LLM “rispondenti” selezionati dall’utente stesso. In secondo luogo, una volta raccolte le risposte, le passa a un diverso gruppo di LLM “classificatori”, anch’essi scelti dall’utente. Questi “giudici” valutano la qualità delle risposte iniziali sulla base del prompt e generano una classifica finale. Questo approccio offre all’utente un controllo capillare sull’intera catena di valutazione, dalla scelta dei concorrenti alla nomina della giuria.

Perché serve una nuova valutazione LLM nell’era agentica
Mentre ci troviamo sulla soglia di quella che molti chiamano l’era “agentica” – dove gli agenti AI sono progettati per eseguire compiti complessi e multi-step autonomamente – emerge una domanda cruciale: Come ci assicuriamo che questi agenti, e gli LLM che li alimentano, non siano solo capaci, ma costantemente efficaci, affidabili e allineati con i nostri obiettivi? La risposta, sempre più spesso, risiede in un robusto sistema di valutazione delle risposte degli LLM.
Questa fondamentale necessità di una valutazione affidabile è stata una forza trainante dietro il nostro lavoro in eZecute S.R.L. e ha portato infine allo sviluppo sia del nostro framework avanzato di benchmarking, AutoBench, sia della nostra piattaforma di valutazione rivolta all’utente, Bot Scanner.
I limiti dei benchmark attuali e la proposta di eZecute
Da un anno a questa parte, il concetto di “Mixture of Experts” (MoE) è stato influente nello sviluppo di LLM individuali più potenti, dove diverse parti di una rete neurale si specializzano in compiti differenti. Tuttavia, l’era agentica sta annunciando una nuova e più ampia interpretazione del MoE. Invece di sotto-reti interne, stiamo vedendo sempre più sistemi in cui LLM distinti e specializzati sono orchestrati per collaborare come un team di esperti. Immaginate un agente AI per ricerche di mercato: un LLM potrebbe eccellere nel recupero dati, un altro nell’analisi del sentiment, un terzo nel riassumere report complessi e un quarto nel generare idee creative per campagne.
Questo paradigma di “agente multi-LLM” è incredibilmente potente, consentendo un livello di prestazioni che un singolo modello monolitico potrebbe faticare a raggiungere. Ma aumenta anche esponenzialmente la complessità della valutazione. Come si sceglie l'”esperto” LLM giusto per ogni sotto-compito? E come si valuta la qualità dell’output finale?
La sfida crescente del benchmarking degli LLM
Questo ci porta al cuore della questione: la valutazione e il benchmarking degli LLM. I benchmark per LLM sono test standardizzati o set di dati progettati per misurare e confrontare le prestazioni di diversi LLM attraverso varie capacità. Questi possono variare dalla valutazione della comprensione e generazione del linguaggio (come i benchmark GLUE o SuperGLUE), alla valutazione delle capacità di ragionamento (ad es., HellaSwag, ARC), competenza nella programmazione (HumanEval), risoluzione di problemi matematici (GSM8K), o persino la loro propensione a generare contenuti dannosi. Sebbene queste classifiche e test standardizzati abbiano avuto un ruolo importante in passato, affrontano sfide crescenti in questo panorama dinamico:
- Natura statica: i benchmark tradizionali si basano spesso su set di dati e domande statiche. Poiché gli LLM evolvono a rotta di collo, questi benchmark possono diventare rapidamente obsoleti o non riuscire a cogliere capacità e debolezze emergenti.
- Il costo e la soggettività della valutazione umana: sebbene la valutazione umana rimanga un gold standard per alcuni aspetti, è incredibilmente dispendiosa in termini di tempo, costosa da scalare e può introdurre una propria serie di bias.
- Specificità del compito: un modello che eccelle in un benchmark di conoscenza generale come MMLU (Massive Multitask Language Understanding) potrebbe non essere il migliore per la scrittura creativa, la programmazione o, aspetto cruciale, per un sotto-compito specifico all’interno di un flusso di lavoro agentico. Abbiamo bisogno di una valutazione più granulare e consapevole del contesto.
- “Benchmark overfitting”: c’è una crescente preoccupazione che i modelli possano essere inavvertitamente (o intenzionalmente) addestrati sui set di dati dei benchmark, portando a punteggi gonfiati che non riflettono una vera intelligenza generalizzabile.
Collective-LLM-as-a-Judge e il ruolo di AutoBench
Riconoscendo queste limitazioni, il mio team presso eZecute S.R.L. ha intrapreso lo sviluppo di AutoBench, con il supporto di ricercatori e aziende leader dell’AI come Translated di Marco Trombetti. La comunità AI sta attivamente cercando soluzioni a queste sfide, e una delle direzioni promettenti è l’approccio “LLM-as-a-Judge”, in cui gli LLM stessi vengono utilizzati per valutare gli output di altri LLM. Questa è l’idea centrale dietro AutoBench, che impiega un approccio collettivo ‘Collective-LLM-as-a-Judge’ mirando a superare le limitazioni dei benchmark tradizionali e statici fornendo un framework di valutazione basato sulla valutazione da parte di insiemi statistici di modelli AI. E’ come se sfruttassimo la “gestalt” dell’intelligenza collettiva dell’ecosistema composta da tutti gli LLM in circolazione.
Questo approccio fornisce un livello di valutazione dinamica e scalabile che prima era difficile da raggiungere. Consente una valutazione basata sulla qualità delle domande e risposte generate, superando i set di dati fissi e abilitando un processo di benchmarking più continuo e adattivo. Un metodo che riuscirà a valutare gli LLM anche quando questi saranno diventati troppo difficili da valutare per gli “umani”.
La valutazione LLM accessibile a tutti
Osservare queste tendenze – l’ascesa dell’AI agentica, la necessità di un nuovo approccio MoE, i limiti del benchmarking tradizionale e le intuizioni acquisite sviluppando sistemi “Collective-LLM-as-a-Judge” come il nostro AutoBench – è stato il catalizzatore per Bot Scanner.
In eZecute abbiamo visto in prima persona la difficoltà che molti, inclusi noi stessi, affrontavano nel selezionare l’LLM ottimale o la combinazione di LLM per un determinato compito. Il processo era spesso manuale, soggettivo e incredibilmente dispendioso in termini di tempo. La domanda è diventata: E se potessimo prendere i sofisticati principi della valutazione guidata da LLM, affinati attraverso il nostro lavoro su AutoBench, e renderli uno strumento accessibile e quotidiano per chiunque lavori con gli LLM?
Questo ha portato allo sviluppo di Bot Scanner. La nostra visione era quella di creare una piattaforma in cui gli utenti potessero non solo ottenere risposte da molteplici LLM a un singolo prompt ma, aspetto cruciale, far valutare e classificare tali risposte da altri LLM selezionati dall’utente. Volevamo dare agli utenti il potere di definire il proprio “collettivo di giudici” su misura per le loro esigenze specifiche, portando essenzialmente una versione user-friendly della filosofia di AutoBench a un pubblico più ampio.
Il percorso ha comportato la costruzione di un’interfaccia intuitiva attorno a questa complessa interazione, la gestione di chiamate asincrone a varie API di modelli e la garanzia che la classifica fosse presentata in modo chiaro e fruibile. Ci siamo concentrati sul consentire agli utenti di selezionare sia i loro LLM “rispondenti” sia i loro LLM “classificatori”, offrendo loro un controllo capillare sul processo di valutazione.

Funzionalità e vantaggi della piattaforma per utenti e sviluppatori
Con Bot Scanner, portiamo la potenza di questo paradigma “Collective-LLM-as-a-Judge” direttamente all’utente. Invece di vedere solo un elenco di output, si ottiene un elenco classificato, valutato da modelli AI di cui ci si fida per la valutazione. Questo implica:
- Drastico risparmio di tempo: niente più setacciamento manuale di decine di output.
- Decisioni più informate: identificare rapidamente la risposta di più alta qualità basata su criteri valutati da altre AI.
- Agenti migliori: per coloro che sviluppano sistemi agentici, Bot Scanner può essere uno strumento prezioso per selezionare gli “LLM esperti” più efficaci per ogni componente del loro agente.
Riteniamo che ciò sia particolarmente vitale mentre ci addentriamo ulteriormente nell’era agentica. Se l’efficacia di un agente dipende dalla qualità dei suoi “LLM esperti” costitutivi, allora uno strumento per aiutare a selezionare e convalidare tali esperti diventa indispensabile.
Costi, limiti e contesto d’uso della valutazione LLM con Bot Scanner
E’ importante notare che Bot Scanner non è un’alternativa agli LLM esistenti. Per un uso quotidiano e immediato, nessuna piattaforma batte modelli come quelli di OpenAi, Anthropic, Google ecc. Bot Scanner diventa utile quando l’accuratezza e la qualità della risposta diventa imprescindibile e si vuole allargare al maggior numero di LLM la ricerca della risposta migliore. Ma questo viene ad un costo: tra risposte e valutazioni, il numero di interrogazioni ai modelli LLM può anche arrivare a centinaia di chiamate e, come conseguenza, il costo di ogni richiesta s Bot Scanner può arrivare a costare anche 100 volte quello di un normale LLM (il costo in genere varia da qualche centesimo di euro fino anche ad un intero euro, a seconda del numero di modelli coinvolti, della complessità della domanda formulata e, non da ultimo, del costo di ciascun modello usato).
Bot Scanner non è neppure un sistema di benchmarking. Per creare un benchmark, occorrono centinaia, quando non migliaia di interazioni. Bot Scanner offre un metodo immediato per consultare decine di LLM per una domanda, ottenendo non una semplice lista di risposte, ma una vera e propria graduatoria, così come giudicata dall’insieme di LLM valutatori.
Prospettive future della valutazione ai automatica
Il ritmo dello sviluppo dell’AI non sta rallentando. Man mano che i modelli diventano più potenti e specializzati, e che i sistemi agentici diventano più diffusi, la necessità di una valutazione robusta, precisa e continua non potrà che crescere. I benchmark statici serviranno al loro scopo, ma strumenti di valutazione dinamici e guidati dall’utente saranno essenziali per l’applicazione pratica e l’ottimizzazione.
Con Bot Scanner miriamo a fornire agli utenti un mezzo potente ma accessibile per navigare in questo complesso panorama. Vogliamo dare a tutti, dai singoli ricercatori e sviluppatori ai grandi team, il potere di prendere decisioni migliori sugli LLM che utilizzano, assicurando che, man mano che l’AI si integra maggiormente nelle nostre vite, lo faccia in modo efficace e affidabile.