Nel panorama dell’innovazione digitale in cui si muovono imprese e pubbliche amministrazioni, uno dei nodi centrali riguarda un quesito semplice ma profondo: come possiamo rendere l’intelligenza artificiale non solo potente, ma anche affidabile, coerente e misurabile? Il progetto EVAL-IA, sviluppato da InfoCamere, nasce proprio per affrontare questa sfida. Non si limita a valutare le prestazioni degli assistenti virtuali, ma propone un approccio strutturato per renderli misurabili, governabili e, soprattutto, affidabili nel tempo.
Un modello che mette al centro non solo la tecnologia, ma la qualità dei dati, dei contenuti e dei processi di controllo.
Indice degli argomenti
Test automatici e quality engineering per l’affidabilità degli assistenti virtuali
Il modello di EVAL-IA oggi non è un caso isolato. Nel mondo del quality engineering applicato all’AI, sempre più aziende e team di sviluppo adottano soluzioni in cui l’AI viene utilizzata per generare, validare e migliorare i test stessi.
Secondo il World Quality Report 2024, oltre il 60% delle organizzazioni utilizza tecniche di AI generativa per ottimizzare processi di testing e automazione, generando automaticamente casi di test per analizzare difetti software con maggiore copertura e precisione rispetto ai metodi tradizionali.
Esistono anche approcci di tipo accademico che integrano processi di reinforcement learning per migliorare la qualità dei test generati dall’AI, creando cicli di feedback continuo in cui i modelli apprendono da errori e risultati precedenti.
Questi sistemi, come quelli descritti in studi recenti, mostrano incrementi significativi nell’accuratezza e nel rilevamento di difetti, migliorando così l’affidabilità complessiva del software.
Dal bisogno dell’utente alla qualità del dato negli assistenti virtuali
Il vero punto critico non è l’algoritmo, ma l’informazione. Un esempio concreto può essere quello di un imprenditore che entra nel sito della propria Camera di Commercio alla ricerca di opportunità di finanziamento.
Avendo a disposizione un assistente virtuale, potrebbe chiedere: “Qual è il bando giusto per la mia azienda?”
Se le informazioni sui bandi sono sparse, datate o organizzate secondo logiche diverse, la risposta rischia di essere incompleta o fuorviante. In questi casi il problema non è la capacità dell’AI di rispondere, ma la qualità e l’organizzazione delle informazioni su cui si basa.
Non perché l’AI non funzioni, ma perché è costretta a interpretare contenuti ambigui. La vera sfida, quindi, è rendere i contenuti AI-readable: riorganizzare le informazioni in modo chiaro, coerente e privo di ambiguità, così da ridurre al minimo i possibili errori di interpretazione e massimizzare l’accuratezza delle risposte.
È comune pensare che gli errori degli assistenti virtuali, che rispondono a domande di cittadini o imprese, siano imputabili ai modelli generativi su cui si basano.
Un anno fa, con modelli ancora meno maturi, questo era spesso vero. Oggi, invece, l’esperienza di EVAL-IA mostra che fino all’80% degli errori osservati è imputabile a dati ambigui, incompleti o mal strutturati.
Non si tratta di vere hallucination, cioè informazioni inventate dal modello, ma di imprecisioni legate alla qualità e alla fragilità delle informazioni di base.
Retrieval e governance dei dati: dove nasce l’affidabilità degli assistenti virtuali
EVAL-IA affronta il problema migliorando direttamente la qualità dei dati e dei contenuti, rendendoli più facilmente interpretabili dai modelli. La forza di questo approccio risiede nella conoscenza raccolta sul campo, che guida ogni decisione e analisi.
Un altro elemento distintivo è l’attenzione al recupero delle informazioni e alla governance dei dati, garantendo che i contenuti siano accurati, coerenti e pienamente utilizzabili sia dagli utenti sia dagli assistenti virtuali.
Il sistema EVAL-IA è stato progettato per analizzare i portali istituzionali delle Camere di Commercio, mappare ogni vuoto informativo e restituire metriche precise su completezza, coerenza e accuratezza dei dati.
Non si limita a evidenziare le lacune: trasforma l’analisi in strumenti concreti per migliorare le informazioni disponibili, riscrivendo e riorganizzando i contenuti in modo chiaro e coerente, pronti per la valutazione dei redattori e per l’utilizzo efficace da parte degli assistenti virtuali.
Questo processo di data readiness non migliora solo l’accuratezza delle risposte, ma costruisce una base informativa strutturata e scalabile, riutilizzabile da più modelli e servizi.
In questo modo, la qualità della risposta generata dall’AI diventa un risultato governabile, e non un effetto casuale.
Usare l’AI per fare AI: test e validazione automatizzata in produzione
All’inizio della sperimentazione, gli assistenti virtuali di alcune Camere di Commercio basati su intelligenza artificiale generativa fornivano risposte corrette solo in metà dei casi, limitando fortemente l’efficacia del servizio.
Grazie a un lavoro mirato sulla qualità e sulla struttura dei dati utilizzati dai modelli, il tasso di accuratezza degli assistenti virtuali è salito al 100%.
Per ottenere questi risultati, a supporto del processo è stato sviluppato un agent validator automatizzato, che agisce come assistente di test ed è in grado di verificare le risposte dell’assistente principale confrontandole con target attesi opportunamente definiti.
Lo strumento è stato in grado di porre migliaia di domande all’AI in produzione (oltre 60K nel corso del 2025), trasformando il miglioramento da un’attività manuale a un processo misurabile e replicabile.
I benefici si sono estesi anche sul piano organizzativo: dalle analisi svolte da InfoCamere si segnala un incremento del 130% nella produttività delle attività di monitoraggio, con tempi di controllo ridotti e un miglioramento tangibile della qualità del servizio offerto a cittadini e imprese.
L’esperienza di EVAL-IA dimostra che la vera innovazione nell’AI non consiste solo nello sviluppare sistemi tecnologicamente avanzati, ma soprattutto nel mettere a loro disposizione informazioni strutturate secondo criteri di qualità, completezza e non ambiguità.
Scalabilità dell’affidabilità degli assistenti virtuali in PA e imprese
La metodologia di EVAL-IA non è limitata alle Camere di Commercio: può essere applicata a regioni, comuni e altre amministrazioni pubbliche, oltre che a contesti aziendali, per una molteplicità di obiettivi.
Per la PA, come nell’esempio già citato, potrebbe trattarsi dell’analisi automatizzata di bandi attingendo a più fonti o della gestione di servizi digitali complessi.
L’integrazione di tecniche di scraping e di analisi asincrona amplia ulteriormente le possibili applicazioni, rendendo il framework uno strumento versatile per affrontare esigenze ancora più diversificate.
Per le imprese, il messaggio è chiaro: investire nella governance dei dati e nei processi di validazione automatizzata significa non solo ridurre gli errori, ma anche migliorare la trasparenza, la conformità e la qualità del servizio offerto ai propri clienti, anche in ottica lead generation.
Verso un’AI affidabile e sostenibile
L’esperienza di EVAL-IA insegna che fidarsi ciecamente dei modelli generativi non basta: serve un ecosistema di controllo costruito intorno a test e dati ben strutturati.
Questo non solo aumenta la precisione, ma riduce anche i rischi legati a informazioni fuorvianti o incomplete. Un punto critico, evidenziato anche dalle linee guida internazionali per l’implementazione dell’AI, che sottolineano l’importanza di framework etici e l’esigenza di monitoraggio continuo dei modelli in produzione.
Nel mondo digitale di oggi, in cui l’intelligenza artificiale entra sempre più profondamente nei processi di business e nei servizi pubblici, strumenti come EVAL-IA rappresentano un modello replicabile di governance e controllo dell’AI: non solo per far funzionare meglio le tecnologie e offrire servizi migliori, ma anche per rafforzare la fiducia delle persone e delle organizzazioni in strumenti che, sempre più in futuro, governeranno le relazioni sociali ed economiche.














