Droni urbani, mobilità autonoma, infrastrutture intelligenti, piattaforme decisionali per la città: la vera frattura del 2026 non è tra chi sviluppa l’IA e chi non la sviluppa, ma tra chi sa valutarla davvero e chi ancora no.
Per la PA e per le smart city, il Test & Evaluation è il nuovo confine tra innovazione, sicurezza e governo.
Indice degli argomenti
Perché il Test & Evaluation decide il governo dell’innovazione urbana
L’Europa ha ormai chiarito che i sistemi di AI ad alto rischio non possono essere lasciati alla sola promessa tecnologica: servono conformità, supervisione, robustezza, tracciabilità.
Ma tra norma e realtà operativa resta un vuoto decisivo. È il vuoto del Test & Evaluation: l’insieme di metodi, competenze e standard che permette di dire se un sistema autonomo è davvero pronto per il mondo reale. È qui che si giocherà la credibilità delle smart city.
La prossima linea di faglia dell’innovazione non passerà tra chi usa l’intelligenza artificiale e chi la rifiuta. Passerà tra chi saprà misurarla e chi continuerà a subirla come un oggetto opaco, spesso potente, talvolta utile, ma non ancora davvero governabile.
Per anni il dibattito pubblico ha raccontato l’IA come una promessa di efficienza: più velocità, più automazione, meno costi, migliori decisioni.
Oggi, però, quel racconto non basta più.
Perché i sistemi autonomi stanno uscendo dal perimetro protetto della sperimentazione e stanno entrando nei contesti in cui si governa il quotidiano: traffico, logistica, sicurezza urbana, energia, manutenzione, monitoraggio, risposta all’emergenza. E quando una tecnologia comincia a incidere sulla vita concreta delle persone, la domanda decisiva non è più quanto sia innovativa.
La domanda è se sia affidabile, verificabile, certificabile.
È qui che il tema del Test & Evaluation smette di essere una materia per addetti ai lavori e diventa, a tutti gli effetti, una questione di politica industriale, amministrazione pubblica e fiducia istituzionale.
Il vuoto tra norme europee e capacità di valutazione
La riflessione si muove a partire da un contributo che merita attenzione ben oltre i confini accademici: “Test and Evaluation of Autonomous Systems: Developing the Educational Landscape”, pubblicato su IEEE ComputingEdge di questo mese.
Gli autori – Brian A. Weiss, Donald H. Costello III e Matt Scassero, della University of Maryland – individuano con chiarezza il punto che oggi manca nel dibattito europeo e italiano: la sfida non è più soltanto progettare sistemi intelligenti, ma formare le competenze, i metodi e i criteri necessari per testarli, valutarli e certificarli in modo rigoroso lungo tutto il loro ciclo di vita.
Il passaggio è cruciale.
Perché se l’innovazione continua a correre e la capacità di valutazione resta indietro, il rischio non è semplicemente tecnico. È strategico.
Significa affidare decisioni a sistemi che comprendiamo solo in parte.
Significa comprare, integrare e mettere in servizio tecnologie la cui tenuta nel mondo reale non è stata ancora chiarita con la necessaria profondità.
Significa, in sostanza, spostare il rischio dall’ingegneria alla società.
Test & Evaluation e AI Act: il baricentro si sposta sulle prove
Nel 2026 questo tema non è più rinviabile anche per una ragione molto concreta: il quadro europeo è cambiato.
La Commissione europea ribadisce che i sistemi di AI classificati come high-risk sono quelli che possono produrre impatti rilevanti sulla sicurezza delle persone o sui diritti fondamentali. Per questi sistemi, l’AI Act richiede conformità, valutazione preventiva, qualità dei dati, documentazione, tracciabilità, trasparenza, supervisione umana, robustezza e cybersecurity.
Non solo: la conformità deve essere rivalutata quando il sistema o il suo scopo cambiano in modo sostanziale, e i provider devono mantenere un sistema di gestione della qualità lungo l’intero ciclo di vita.
Tradotto dal linguaggio normativo a quello della governance: l’Europa ha detto chiaramente che la fiducia nell’IA non può poggiare su dichiarazioni di marketing o su benchmark astratti. Deve poggiare su prove.
E qui emerge il punto politico vero.
Per anni abbiamo parlato di regolazione dell’IA come se bastasse definire principi. Ma i principi, da soli, non scendono nei sistemi. Per diventare applicabili hanno bisogno di standard, test, procedure, misure, metriche. La stessa Commissione spiega che gli standard armonizzati servono esattamente a questo: tradurre i requisiti legali in specifiche tecniche e offrire un percorso concreto per dimostrare la conformità, soprattutto nei casi high-risk.
Le aree indicate sono esemplari: gestione del rischio, qualità dei dataset, logging, trasparenza, supervisione umana, accuratezza, robustezza, cybersecurity, qualità e monitoraggio post-market, fino alla conformity assessment.
In altre parole, il Test & Evaluation non è un’aggiunta successiva.
È lo strumento operativo che rende l’AI Act praticabile.
Il punto cieco delle smart city davanti ai sistemi autonomi
C’è un luogo in cui questa verità diventa immediatamente evidente: la smart city.
Una città non compra “algoritmi”. Compra servizi, responsabilità, continuità operativa, sicurezza percepita, affidabilità amministrativa.
Se un Comune vuole avviare un servizio di droni per la logistica medica, un sistema di gestione adattiva dei flussi di traffico, una piattaforma per l’orchestrazione di sensori urbani o una tecnologia di supporto decisionale per infrastrutture critiche, la questione non è soltanto se il progetto sia innovativo.
La questione è se, una volta acceso, quel sistema saprà comportarsi come promesso quando il contesto si sporca: condizioni meteo avverse, dati incompleti, guasti di sensori, conflitti tra priorità operative, interventi umani parziali, anomalie non previste.
È il punto in cui l’innovazione smette di essere demo e diventa governo.
Per un assessore all’innovazione, per un segretario generale, per un city manager, per il CTO di una PA, il T&E non è un tecnicismo laterale. È la precondizione della decidibilità. È ciò che consente di rispondere a domande molto concrete: il sistema è pronto? In quali condizioni? Con quali limiti operativi? Chi interviene quando il comportamento devia? Quali evidenze documentano che il rischio è stato compreso e trattato?
Senza queste risposte, la trasformazione digitale resta sospesa tra due esiti ugualmente dannosi: la paralisi per paura, oppure l’adozione per entusiasmo. In entrambi i casi manca il governo.
Dal Test & Evaluation della performance a quello del comportamento
Per capire la portata del problema occorre cambiare prospettiva.
Finora abbiamo misurato l’IA soprattutto in termini di performance: accuratezza, velocità, efficienza, capacità di classificazione o previsione. Ma i sistemi autonomi, per la loro natura, richiedono un livello ulteriore di scrutinio: non basta sapere quanto performano, bisogna sapere come si comportano.
Il paper di Weiss, Costello e Scassero insiste su un punto decisivo: il T&E serve a fornire l’“intelligence” necessaria ai decisori lungo il ciclo di vita del prodotto, dalla verifica e validazione fino alla decisione se finanziare ulteriori fasi di sviluppo o autorizzarne l’impiego operativo.
Gli autori ricordano che il problema oggi è anche educativo: il T&E dei sistemi autonomi ha una presenza minima nei percorsi accademici, e molti professionisti sono stati costretti a costruire le proprie competenze quasi esclusivamente sul lavoro.
Questo spiega molto di ciò che stiamo vedendo.
Sappiamo sviluppare l’intelligenza meglio di quanto sappiamo valutarla.
Sappiamo addestrare modelli meglio di quanto sappiamo stressarne il comportamento in ambienti reali.
Sappiamo costruire la macchina, ma non abbiamo ancora investito abbastanza nel mestiere di chi deve dire se quella macchina possa essere davvero autorizzata a operare.
Ed è qui che la distinzione tra sistemi con umano nel loop e sistemi pienamente autonomi diventa centrale.
Il paper lo afferma con nettezza: quando l’essere umano controlla o monitora il sistema, il problema della certificazione resta di un certo tipo; quando il sistema definisce il proprio ambiente attraverso sensori e prende decisioni da sé, il piano cambia radicalmente.
Il rischio si trasforma. E con esso devono trasformarsi criteri, scenari e metriche di valutazione.
È una differenza che i decisori pubblici non possono permettersi di sottovalutare. Perché tra “assistive automation” e autonomia operativa piena non cambia solo la tecnologia. Cambia il modello di responsabilità.
La lezione dal Maryland: il problema non è solo tecnico, è di forza lavoro
L’aspetto forse più lungimirante del contributo pubblicato su IEEE è che non si limita a descrivere il problema: prova a costruire una risposta sistemica.
La University of Maryland sta sviluppando un curriculum dedicato al T&E dei sistemi autonomi, in forma di certificazioni, percorsi graduate e master, proprio per colmare il vuoto di competenze che oggi rallenta la capacità di valutazione. L’obiettivo non è formare semplici tester, ma professionisti in grado di capire requisiti, scenari, misurazioni, livelli di test, parametri ambientali, ruoli del personale, use case, workflow, implicazioni di training e priorità di inserimento tecnologico.
Non è un dettaglio secondario.
Donald “Bucket” Costello, uno dei coautori, è oggi Director of Test and Evaluation of Autonomous Systems presso il MATRIX Lab della University of Maryland e concentra il proprio lavoro proprio sulla certificazione dei sistemi autonomi.
Matt Scassero, altro coautore, ha guidato le attività di operations e outreach del MATRIX Lab, dopo una lunga esperienza nell’integrazione dei sistemi unmanned e nei programmi di test e valutazione.
La forza del paper sta anche qui: non nasce da un osservatorio teorico, ma da un ecosistema che incrocia ricerca, operatività, standard, sperimentazione e workforce development.
Per l’Italia questo passaggio dovrebbe suonare come un allarme, ma anche come un’opportunità.
Se nei prossimi anni l’Europa avrà bisogno di più capacità di conformità, di più capacità di verifica, di più capacità di dimostrare robustezza, supervisione e controllo, allora il Paese che saprà formare prima i valutatori dell’autonomia non sarà semplicemente “più sicuro”.
Sarà più competitivo.
Cinque domande che una città dovrebbe porsi prima di adottare un sistema autonomo
La prima: in quale categoria di rischio cade davvero il sistema?
La seconda: quali scenari reali sono stati testati, e quali invece restano fuori dal perimetro?
La terza: chi esercita la supervisione umana e con quali poteri effettivi di intervento?
La quarta: quali evidenze dimostrano robustezza, cybersecurity, qualità dei dati e tracciabilità?
La quinta: chi si assume la responsabilità del riesame quando il sistema viene aggiornato o cambia contesto operativo?
Sono domande di governo, non di pura tecnica.
Eppure tutte passano da un’infrastruttura di T&E matura.
Perché il Test & Evaluation non frena l’innovazione ma la rende scalabile
Qui occorre sgomberare il campo da un equivoco frequente.
Parlare di test, valutazione, standard e conformità non significa frenare l’innovazione.
Significa darle condizioni di scala.
Le tecnologie autonome possono generare valore reale solo se i soggetti che le acquistano, le autorizzano e le usano hanno strumenti credibili per valutarle. Altrimenti ogni progetto resterà ostaggio di un’alternanza sterile: entusiasmo iniziale, diffidenza successiva, blocco amministrativo, sperimentazioni frammentate, procurement prudenziale, scarico di responsabilità sul fornitore.
Al contrario, una filiera forte di T&E produce un effetto opposto.
Rende l’adozione più selettiva, ma anche più veloce dove ci sono le condizioni.
Rende più chiaro cosa si può approvare, cosa va limitato, cosa va sottoposto a monitoraggio rafforzato.
Rende possibile una trasformazione digitale meno ideologica e più amministrabile.
È questo, in fondo, il “take-away” chiave del dibattito.
L’innovazione pubblica non ha bisogno di tecnologie spettacolari. Ha bisogno di tecnologie giustificabili.
Il vantaggio competitivo di chi saprà valutare l’autonomia
L’Italia ha davanti una scelta.
Può considerare il Test & Evaluation un segmento tecnico da lasciare ai margini, continuando a importare modelli, metriche e pratiche costruite altrove.
Oppure può leggerlo per ciò che sta diventando: una delle nuove infrastrutture del potere tecnologico.
Perché nella fase che si apre non conterà soltanto chi avrà i modelli più avanzati.
Conterà chi saprà dimostrare che quei modelli sono affidabili nei contesti ad alta criticità.
Conterà chi saprà costruire standard, competenze, percorsi formativi, laboratori di validazione, procurement consapevole, capacità di audit e riesame.
Conterà, in altre parole, chi saprà trasformare la fiducia in metodo.
Il vero opening del 2026 è questo.
L’intelligenza artificiale non entra davvero nelle città quando l’algoritmo è disponibile.
Entra quando le istituzioni dispongono degli strumenti per valutarlo senza dover scegliere tra fascinazione e paura. Ed è precisamente qui che il Test & Evaluation si impone come la disciplina decisiva del prossimo ciclo di innovazione.
Perché la differenza, domani, non la faranno i territori che dichiareranno di usare più IA.
La faranno quelli che avranno imparato a dire – con prove, standard, scenari e responsabilità – quando un sistema autonomo merita davvero fiducia.












