La spiegabilità dell’intelligenza artificiale è diventata una delle questioni più urgenti nell’adozione dei sistemi di IA ad alto rischio.
Il paradosso è strutturale: i modelli più performanti sono anche i meno interpretabili, e nessuna tecnica o norma, per ora, riesce davvero ad aprire la scatola nera.
Indice degli argomenti
Il trade-off che non si può aggirare
C’è una legge non scritta nella riflessione sull’intelligenza artificiale contemporanea, e suona pressappoco così: più un modello è potente, meno è comprensibile. Non è una semplificazione giornalistica, ma un dato tecnico consolidato. I sistemi di deep learning che oggi raggiungono prestazioni straordinarie — nel riconoscimento delle immagini, nella diagnosi medica, nella previsione dei comportamenti — operano attraverso miliardi di parametri interconnessi, organizzati in strati di crescente astrazione. Ogni strato trasforma i dati in modi che sfuggono all’intuizione umana.
È precisamente questa complessità a renderli efficaci. Una review del 2021 pubblicata su Entropy lo esprimeva già in termini netti: esiste un chiaro trade-off tra la capacità predittiva di un modello e la sua possibilità di produrre spiegazioni interpretabili. I modelli più semplici — una regressione lineare, un albero decisionale con pochi rami — sono relativamente trasparenti per costruzione. È più semplice seguire il ragionamento, verificare i pesi, ripercorrere il cammino dalla domanda alla risposta. Ma questi modelli, proprio perché semplici, faticano a catturare le relazioni non lineari, le interazioni nascoste, i pattern sottili – incrociati con contesti che hanno molto di umano – che caratterizzano i problemi reali.
I modelli profondi, al contrario, eccellono esattamente dove gli altri falliscono. Diventano sempre più precisi nel distinguere un melanoma da un neo benigno con precisione professionale, a prevedere l’esito di una terapia, a identificare frodi finanziarie, ad anticipare guasti industriali. Ma a volte lo fanno seguendo percorsi che nessuno — né l’ingegnere che li ha progettati, né l’utente che li impiega — è in grado di spiegare in termini comprensibili, a meno che non voglia seguire ogni singolo passaggio, con tutto ciò che comporta in termini di tempo e perdendo così, paradossalmente, l’utilità stessa di strumenti tanto forti.
Quando “spiegare” significa approssimare
Per aggirare questo limite, negli ultimi anni sono emerse tecniche di “explainability” post-hoc: strumenti che, dopo che il modello ha fornito la sua risposta, cercano di ricostruire una spiegazione plausibile. I più diffusi sono SHAP (SHapley Additive exPlanations) e LIME (Local Interpretable Model-agnostic Explanations).
SHAP e LIME: cosa fanno e cosa non fanno
SHAP utilizza un approccio derivato dalla teoria dei giochi: assegna a ogni variabile di input un “valore di contribuzione” alla previsione finale, calcolando quanto ogni fattore incide sul risultato. LIME, invece, costruisce un modello semplificato — una sorta di approssimazione locale — attorno alla singola decisione, cercando di capire quali variabili hanno pesato di più in quel caso specifico.
Sono strumenti utili. Ma è fondamentale comprenderne i limiti, perché il rischio di sopravvalutarli è concreto.
Uno studio del 2024 pubblicato su Advanced Intelligent Systems evidenzia che SHAP assume l’indipendenza tra le variabili: quando i fattori sono correlati tra loro — cosa frequentissima nei dati reali — le spiegazioni possono risultare fuorvianti o instabili. LIME, dal canto suo, genera spiegazioni che variano a seconda delle perturbazioni casuali introdotte nel processo: la stessa domanda, posta due volte, può produrre spiegazioni diverse. Come osservano i ricercatori, “i data scientist tendono a fidarsi eccessivamente delle spiegazioni generate dai metodi XAI, senza comprenderne appieno le assunzioni sottostanti”.
In altre parole, queste tecniche non aprono realmente la scatola nera. Costruiscono piuttosto un’altra scatola, più piccola e più semplice, che cerca di imitare il comportamento della prima in un intorno ristretto. È un’approssimazione di un’approssimazione. E come ogni approssimazione, può essere utile — ma anche ingannevole.
L’AI Act e l’illusione della trasparenza normativa
L’Europa ha scelto di affrontare il problema della comprensibilità dell’IA attraverso la via regolatoria, come su Agenda Digitale è stato già più volte trattato. L’AI Act, entrato in vigore nell’agosto 2024 e pienamente applicabile dal 2026, introduce obblighi di trasparenza per i sistemi ad alto rischio: il regolamento stabilisce che questi sistemi debbano essere progettati in modo da consentire agli utilizzatori di interpretarne correttamente l’output e comprenderne capacità e limiti.
È un principio importante, e rappresenta un tentativo serio di mettere paletti a una tecnologia che rischia di sfuggire al controllo. Ma c’è un problema di fondo: la trasparenza richiesta dalla norma e la comprensibilità effettiva dei sistemi non coincidono necessariamente.
Un sistema può essere conforme all’AI Act — documentato, etichettato, accompagnato da istruzioni dettagliate — e rimanere comunque opaco nel suo funzionamento interno. Può dichiarare i propri limiti senza spiegare come arriva alle conclusioni. Può essere formalmente trasparente e sostanzialmente incomprensibile.
Non è un difetto della normativa, ma un riflesso di un limite tecnico strutturale. La complessità dei modelli più avanzati non è eliminabile per decreto. È il prezzo delle loro prestazioni. L’AI Act chiede agli sviluppatori di rendere conto di ciò che i loro sistemi fanno; non può chiedere loro di rendere semplice ciò che semplice non è.
L’IA che diagnostica meglio del medico (ma non sa dirgli perché)
Il caso più emblematico di questo paradosso sembra trovarsi in Medicina, dove l’IA sta dimostrando capacità diagnostiche talvolta superiori a quelle degli specialisti umani — ma senza poter spiegare il proprio ragionamento.
Di per sé, e semplificato al massimo, la ragione è anche piuttosto evidente: per quanto un professionista sia preparato e competente, non potrà mai avere accesso contemporaneo a dati di casi simili quasi infiniti, né avrà la capacità statistica su di essi che può avere una macchina: certo, ha la sensibilità e l’esperienza, ma è tutto un altro campo da gioco.
I numeri che spiazzano: sensibilità, specificità e confronti clinici
Una meta-analisi del 2024 pubblicata su npj Digital Medicine ha confrontato le prestazioni di algoritmi di intelligenza artificiale con quelle di clinici di diversi livelli di esperienza nella diagnosi dei tumori cutanei. I risultati sono eloquenti: gli algoritmi hanno raggiunto una sensibilità dell’87,0% e una specificità del 77,1%, mentre i clinici nel loro complesso si sono fermati al 79,8% e 73,6% rispettivamente. Le differenze sono statisticamente significative.
Uno studio di Stanford del 2024 ha confermato che l’assistenza dell’IA migliora l’accuratezza diagnostica di tutti i professionisti sanitari — dai medici di base ai dermatologi esperti. I medici generici hanno beneficiato maggiormente, con un miglioramento medio di 13 punti percentuali in sensibilità e 11 in specificità. Ma anche gli specialisti hanno visto migliorare le proprie performance.
Nel gennaio 2025, un articolo su SAGE Journals ha citato il caso di Microsoft AI Diagnostic Orchestrator (MAI-DxO), un sistema che si è dimostrato quattro volte più accurato dei medici esperti — i quali, va detto, operavano senza accesso a colleghi, testi di riferimento o chatbot.
Questi numeri pongono un interrogativo che non può essere eluso: cosa facciamo quando il sistema funziona meglio di noi, ma non può dirci perché?
Come ragiona l’IA diagnostica rispetto al medico
Nel modello tradizionale della medicina, la diagnosi è un processo esplicito. Il medico osserva sintomi, raccoglie anamnesi, formula ipotesi, esclude alternative. Può sbagliare, certo, ma può anche spiegare il proprio ragionamento, discuterlo con colleghi, correggerlo se emergono nuovi elementi. La conoscenza medica è trasmissibile, contestabile, perfezionabile.
L’IA diagnostica opera diversamente. Ha “visto” milioni di immagini durante l’addestramento. Ha imparato a riconoscere pattern che nessun occhio umano potrebbe individuare consapevolmente. Ma quei pattern sono distribuiti attraverso miliardi di connessioni sinaptiche artificiali, in modi che non corrispondono a nessuna categoria concettuale umana. Il sistema non ragiona per sintomi e diagnosi differenziali; riconosce configurazioni statistiche.
Fiducia statistica: un contratto sociale inedito
Siamo di fronte a qualcosa di radicalmente nuovo: un tipo di fiducia che non si basa sulla comprensione, ma sulla performance aggregata. Accettiamo le raccomandazioni dell’IA non perché capiamo come ci è arrivata, ma perché sappiamo che, su larga scala, sbaglia meno di noi.
È quello che potremmo chiamare “fiducia statistica”. Non è del tutto sconosciuta all’esperienza umana: ci fidiamo di farmaci di cui non comprendiamo la biochimica, di aerei di cui non sapremmo pilotare i sistemi, di vaccini il cui meccanismo d’azione ci sfugge. Ma c’è una differenza cruciale: in quei casi, qualcuno capisce. Gli ingegneri sanno perché l’aereo vola. I farmacologi sanno come agisce il principio attivo. La comprensione esiste, anche se non è nostra.
Con i modelli di deep learning più avanzati, questa certezza viene meno. Nemmeno chi li ha costruiti può spiegare, nel dettaglio, perché una specifica immagine è stata classificata in un modo piuttosto che in un altro. Possono descrivere l’architettura del modello, i dati di addestramento, le metriche di valutazione. Ma non il “perché” della singola decisione.
Chi è responsabile quando la macchina sbaglia?
Questo pone problemi nuovi. Sul piano etico: è accettabile che una diagnosi influenzi il trattamento di un paziente senza che nessuno possa giustificarla? Sul piano legale: chi è responsabile quando il sistema sbaglia, se nessuno può ricostruire il ragionamento che ha portato all’errore? Sul piano clinico: come può un medico integrare nella propria valutazione un suggerimento di cui non comprende le basi?
Un articolo del febbraio 2025 pubblicato su European Journal of Radiology affronta esplicitamente questo nodo: i professionisti sanitari mantengono piena responsabilità delle proprie decisioni, ma la natura opaca dei modelli “black-box” limita la possibilità di un consenso informato da parte del paziente. Gli autori propongono di privilegiare sistemi di Explainable AI, anche a costo di prestazioni leggermente inferiori.
È una posizione sensata, ma solleva a sua volta una domanda scomoda: siamo disposti a rinunciare a qualche punto percentuale di accuratezza diagnostica in cambio di una maggiore comprensibilità? In termini statistici, significa accettare che qualche paziente in più riceva una diagnosi errata. Non è un trade-off semplice.
Il nodo vero: chi decide quando il sistema sbaglia?
Il paradosso della spiegabilità non è un problema tecnico che attende una soluzione ingegneristica. È un dilemma strutturale che riflette la tensione tra due obiettivi entrambi legittimi: massimizzare le prestazioni e mantenere il controllo umano.
Le tecniche di explainability continueranno a migliorare. Emergeranno forse architetture ibride, che combinano moduli interpretabili con componenti più opache. Le normative si affineranno, bilanciando requisiti di trasparenza con incentivi all’innovazione. Ma il nucleo del problema rimarrà: le rappresentazioni che rendono potenti i modelli profondi non sono traducibili, senza perdita, nel linguaggio della comprensione umana.
Questo non significa che dovremmo rinunciare all’IA. Significa che dovremmo usarla con consapevolezza dei suoi limiti — e dei nostri. Significa costruire sistemi di supervisione umana che non siano mere formalità burocratiche, ma reali presidi di controllo. Significa accettare che, in certi ambiti, la decisione finale deve restare umana, anche quando l’umano è meno accurato della macchina.
Perché la vera domanda non è se l’IA sappia fare meglio di noi. Spesso, sa farlo. La vera domanda è chi risponde quando qualcosa va storto. E per rispondere, bisogna capire. O almeno, bisogna che qualcuno capisca.
In fondo, la spiegabilità non è solo un requisito tecnico o normativo. È la condizione per mantenere l’IA dentro il perimetro della responsabilità umana. Senza di essa, deleghiamo non solo le decisioni, ma anche le conseguenze delle decisioni. E questo, forse, è il vero confine che non dovremmo superare.
Fonti
1. Linardatos, P., Papastefanopoulos, V., & Kotsiantis, S. (2021). “Explainable AI: A Review of Machine Learning Interpretability Methods.” Entropy, 23(1), 18.
2. Salih, A., Raisi-Estabragh, Z., Boscolo Galazzo, I., Radeva, P., Petersen, S.E., Menegaz, G., & Lekadir, K. (2024). “A Perspective on Explainable Artificial Intelligence Methods: SHAP and LIME.” Advanced Intelligent Systems.
3) Galindo-Ferreiro, A., et al. (2024). “A systematic review and meta-analysis of artificial intelligence versus clinicians for skin cancer diagnosis.” npj Digital Medicine, 7, 125.
4) Kim, Y., & Linos, E., et al. (2024). Studio sull’accuratezza diagnostica con assistenza AI. Stanford Medicine / npj Digital Medicine.
5) De-Giorgio, F., Benedetti, B., Mancino, M., Sala, E., & Pascali, V.L. (2025). “The need for balancing ‘black box’ systems and explainable artificial intelligence: A necessary implementation in radiology.” European Journal of Radiology.

















