La ricerca sull’eXplainable AI (XAI) è oggi al centro del dibattito sull’intelligenza artificiale affidabile: spiegare perché un modello produce una certa risposta è diventato un requisito tecnico, etico e normativo. Al cuore di questa sfida ci sono i Large Language Models, sistemi potenti ma difficili da interpretare proprio a causa della loro architettura opaca.
Indice degli argomenti
Il problema dell’opacità negli LLM e la nascita della XAI
I Large Language Models (LLM), come GPT o Llama, sono in grado di generare testi e ragionamenti complessi, ma la complessità delle loro architetture interne e i loro miliardi di parametri oscurano il ruolo delle parole (i token) dei prompt nella costruzione delle risposte.
L’opacità che ne deriva ha sollevato problemi – soprattutto in Europa – e generato vincoli regolatori relativi alle necessità di affiancamento tra LLM e operatori umani. La ricerca sull‘eXplainable AI (XAI) mira a rendere trasparenti le inferenze degli LLM, allargandone gli ambiti di applicazione [3].
I valori di Shapley come strumento di trasparenza
Consideriamo una tecnica classica derivata dalla teoria dei giochi, i valori di Shapley [2], che esprimono il contributo marginale di un token T alla risposta di un LLM [3], confrontando le risposte ottenute da tutti i sottoinsiemi del prompt che contengono T.
La tecnica di Shapley offre buone proprietà teoriche (simmetria, additività) [3] e può essere estesa in modo robusto a gruppi di token.
La metrica FSER: misurare il bias con l’entropia di Shapley
Nell’approccio che abbiamo messo a punto nel laboratorio SESAR dell’Università di Milano [1], si utilizza un insieme di metriche basate sui valori di Shapley per misurare l’impatto del fine-tuning degli LLM sul bias presente nelle risposte generate.
La nostra metrica chiave, il Focused SHAP Entropy Ratio (FSER), utilizza l’entropia dei valori di Shapley relativi ai token presenti nel prompt di input per mostrare come varia l’influenza dei token sulla risposta generata a seguito di filtraggi o dell’applicazione di vincoli (i cosiddetti guardrail) sul vocabolario utilizzato nei prompt.
Guardrail, AI Act e la promessa di un’AI etica misurabile
A prima vista, questo scenario è molto attraente: gli esperimenti basati sul benchmark standard CoLA [4] consentono di valutare gli effetti del tuning e dei guardrail sulla variazione dell’entropia dei valori di Shapley [1].
Poter misurare e certificare l’efficacia dei guardrail nelle applicazioni ad alto rischio promuove un’AI etica, in linea con l’AI Act UE [5].
I limiti di Shapley: scalabilità e architettura Transformer
Purtroppo, le tecniche di trasparenza basate su Shapley presentano ancora due problemi fondamentali. Il primo è la scalabilità: il calcolo di ogni valore di Shapley richiede una visita a tutti i sottoinsiemi di token presenti nel prompt, un numero che cresce come il fattoriale del numero di token nel prompt.
Il secondo è l’architettura dei modelli LLM attuali: prima di eseguire l’inferenza (la generazione della risposta), i token passano attraverso un Transformer, che si comporta come il mazziere che dà le carte a un tavolo da poker, aggregando e rimescolando i loro contributi per generare stati nascosti da cui avviene la generazione della risposta.
Questo rimescolamento (che rende i modelli più complessi) rende molto meno significativa l’attribuzione della responsabilità del contenuto della risposta a singoli token, soprattutto in caso di prompt lunghi.
Oltre i Transformer
In questo articolo esploreremo come i modelli ibridi Mamba (es. Jamba 1.5 di AI21 Labs e Nemotron-H di NVIDIA) e RWKV superino i Transformer classici, eseguendo inferenze a basso consumo energetico e, soprattutto, inferenze confinate, ideali per l’analisi di Shapley anche su prompt lunghi o espansi tramite interrogazioni a database esterni RAG.
Mamba e i modelli ibridi: efficienza con complessità lineare
La complessità quadratica O(n²) dei Transformer è infatti una delle cause del loro elevato consumo energetico [6]. Mamba si basa invece su un “mazziere semplificato”, uno stadio intermedio con complessità lineare O(n) [7], e aggiorna i suoi stati nascosti in modo ricorsivo. In pratica, il rimescolamento avviene su mazzetti di carte sempre più piccoli, chiamando più volte lo stadio intermedio in modo ricorsivo.
Questo consente di eseguire inferenze su prompt lunghi con minore consumo di memoria e di energia [6].
L’impostazione ricorsiva può essere usata anche insieme a quella tradizionale per ottenere Transformer più semplici. Questa è l’impostazione di modelli ibridi come Jamba 1.5 [8] e Nemotron-H [8], che bilanciano efficienza ed efficacia.
RWKV: la rete ricorrente che sfida i Transformer
Analizziamo brevemente i nuovi modelli RWKV (Receptance Weighted Key Value), sviluppati da Bo Peng, che combinano l’approccio ricorsivo e quello classico dei Transformer per ottenere un’efficienza elevata [9]. Per gli addetti ai lavori, basterà dire che lo “stadio mazziere” degli RWKV è una Recurrent Neural Network (RNN) lineare, che esegue un rimescolamento selettivo e ponderato dei valori chiave.
Le prime versioni, come RWKV-5/6, limitavano a priori l’ampiezza dei “mazzetti” da mischiare, ovvero gli intervalli di posizione dei token all’interno del prompt (e dei successivi vettori di attivazione) in cui eseguire i rimescolamenti (una tecnica detta token shift). Il recente RWKV-7 introduce il calcolo degli intervalli mediante una funzione non lineare (un kernel) per ottenere maggiore stabilità [9].
I modelli RWKV offrono vantaggi strutturali molto concreti rispetto ai Transformer classici: complessità lineare nel tempo, memoria costante durante la generazione e velocità di generazione per token indipendente dalla lunghezza del contesto — con guadagni elevati (anche un fattore 5) su prompt molto lunghi. Tra gli sviluppi recenti spiccano RWKV-7 “Goose” e, in particolare, la sua variante Mini GooseOne 0.1B, ottimizzata per l’inferenza leggera su dispositivi edge, che mantiene una discreta capacità di reasoning [9].
Grazie alla natura ricorsiva dell’inferenza, RWKV rende teoricamente più praticabile anche l’applicazione di metodi di attribuzione a granularità fine (come varianti del valore di Shapley a livello di token) in contesti molto lunghi e aumentati tramite RAG; ciò potrebbe portare a una maggiore trasparenza sul contributo dei diversi segmenti di prompt, anche se tale vantaggio interpretativo non è ancora stato pienamente dimostrato.
Competitività europea
Gli investimenti nella nuova generazione di modelli potrebbero avere un impatto economico significativo. In particolare, la ricerca europea, in ritardo sugli LLM tradizionali [5], potrebbe puntare sui modelli ricorsivi, sfruttando l’attrattore degli obiettivi aziendali di tipo Environmental, Social, Governance (ESG) e la pressione regolatoria dell’AI Act [5]. La pressione regolatoria non viene sempre per nuocere: integrando Shapley, Mamba e RWKV, l’Europa può essere sul punto di sviluppare LLM etici e competitivi.











