l’approfondimento

Quando l’IA impara a dimenticare: perché serve il machine unlearning



Indirizzo copiato

Il machine unlearning mira a rimuovere in modo mirato l’influenza di dati specifici dai modelli di IA già addestrati. È una risposta tecnica a esigenze di privacy, sicurezza e governance, con implicazioni rilevanti per conformità normativa, mitigazione dei bias e manutenzione dei sistemi

Pubblicato il 13 nov 2025

Francesco Piccialli

Dipartimento di Matematica e Applicazioni "R. Caccioppoli", Università degli Studi di Napoli Federico II, Fondatore e Direttore Scientifico del laboratorio e gruppo di ricerca M.O.D.A.L. – Mathematical mOdelling and Data AnaLysis



data_governance_con_l_ai_agendadigitale governance globale ia; attrice AI: Legge Ai California; ChatGPT team; chatbot diffamazione webfare data monetization

Il machine unlearning introduce nei sistemi di IA una forma di “amnesia selettiva”, capace di rimuovere in modo verificabile l’influenza di dati specifici dai modelli addestrati, aprendo nuove possibilità di conformità normativa, sicurezza e manutenzione nel ciclo di vita dell’intelligenza artificiale.

Per entrare nel merito, va chiarito che il machine unlearning non è una semplice cancellazione del dato, ma il processo che mira a rimuoverne l’influenza dal modello fino a farlo comportare come se non l’avesse mai visto. Ecco perché è importante.

Il paradosso della memoria artificiale

L’intelligenza artificiale moderna è definita dalla sua straordinaria capacità di apprendere, elaborare e ricordare quantità di informazioni precedentemente inimmaginabili. Celebriamo i modelli linguistici di grandi dimensioni (LLM) per la loro memoria quasi perfetta e la loro abilità di richiamare dati con precisione. Tuttavia, questo stesso punto di forza nasconde un paradosso fondamentale: una memoria infallibile, priva della capacità umana di dimenticare, crea sfide profonde e complesse per la privacy, la sicurezza e il controllo [1].

Nell’esperienza umana, dimenticare non è un difetto, ma una funzione essenziale. Ci permette di dare priorità alle informazioni rilevanti, di adattarci a nuove circostanze e di superare esperienze passate. Per un’IA, invece, ogni dato appreso rimane impresso nella sua architettura neurale, perpetuando potenzialmente bias, informazioni obsolete o dati sensibili che dovrebbero essere rimossi [3]. In questo contesto, emerge una nuova e cruciale frontiera della ricerca: il Machine Unlearning (MU), o “disapprendimento automatico”. Lungi dall’essere una curiosità accademica, l’unlearning si sta affermando come un passo evolutivo necessario affinché l’IA possa operare in modo responsabile e sicuro all’interno della società [1,2]. Non si tratta di indurre un’amnesia totale, ma di sviluppare una forma sofisticata di “amnesia selettiva”: la capacità di rimuovere in modo mirato e verificabile l’influenza di specifici dati da un modello già addestrato [3,4]. Questa capacità trasforma l’oblio da un potenziale bug a una feature fondamentale, un meccanismo proattivo di governance che consente ai sistemi di IA di correggersi, adattarsi e allinearsi alle norme etiche e legali. Il Machine Unlearning sta rapidamente passando da concetto di nicchia a tecnologia cardine per la conformità normativa, la sicurezza dell’IA e l’implementazione etica, spinto in modo decisivo dal crescente quadro normativo europeo.

Cos’è il machine unlearning? oltre la semplice cancellazione dei dati

A un primo sguardo, il concetto di “disapprendimento” potrebbe sembrare sinonimo di “cancellazione”. In realtà, la sfida tecnica che il Machine Unlearning affronta è di un ordine di grandezza superiore. La definizione formale descrive il MU come il processo di rimozione programmatica dell’influenza di un sottoinsieme specifico di dati di addestramento da un modello già addestrato. L’obiettivo è produrre un nuovo modello che si comporti, a tutti gli effetti, come se non fosse mai stato esposto a quei dati in primo luogo [5]. Immaginiamo di aver addestrato un modello di IA per riconoscere i volti, utilizzando un dataset che include foto di persone che hanno dato il loro consenso. Se una di queste persone revoca il consenso e chiede la rimozione delle sue foto, il Machine Unlearning non si limita a “cancellare” le immagini dal dataset. Invece, mira a modificare il modello stesso in modo che si comporti esattamente come se non avesse mai visto quelle foto, senza dover riaddestrare l’intero sistema da capo. È come se il modello “dimenticasse selettivamente” quelle specifiche informazioni, pur mantenendo la sua capacità generale di riconoscere altri volti.

Il dilemma tecnico fondamentale è stato brillantemente illustrato con un’analogia: cancellare dati da un database tradizionale è come “togliere le carote da un’insalata”, mentre rimuovere l’influenza di quei dati da un modello di IA addestrato è come “cercare di recuperare una fragola intera da un frullato” [8]. In un database, i dati sono entità discrete, strutturate e separabili. Un record può essere localizzato e rimosso senza alterare gli altri. In un modello di machine learning, specialmente nelle reti neurali profonde, l’informazione non è immagazzinata in modo discreto. Durante l’addestramento, l’influenza di ogni singolo dato viene “frullata” e distribuita attraverso milioni o miliardi di parametri (i pesi della rete), diventando parte integrante e indistinguibile della conoscenza complessiva del modello [6]. Questo processo è incrementale e interdipendente: l’ordine in cui i dati vengono presentati influenza l’apprendimento successivo, creando una complessa catena di causalità tra ogni dato e lo stato finale del modello [10]. Il Machine Unlearning, quindi, non è un’operazione di archiviazione, ma un tentativo di invertire questa catena causale, di annullare l’influenza specifica di un dato all’interno di un sistema non lineare e altamente interconnesso.

Lo standard di riferimento, l’obiettivo ideale di qualsiasi algoritmo di unlearning, è produrre un modello che sia statisticamente indistinguibile, o preferibilmente distribuito in modo identico, a un modello che fosse stato riaddestrato da zero sull’insieme di dati rimanente (escludendo i dati da “dimenticare”). La necessità di sviluppare tecniche di unlearning nasce da una motivazione eminentemente pratica: il costo proibitivo del riaddestramento. Addestrare modelli su larga scala come GPT-5 ha richiesto un investimento superiore ai 100 milioni di dollari [11]. Riaffrontare questo processo per ogni singola richiesta di cancellazione di dati da parte di un utente è economicamente e computazionalmente insostenibile [7]. Il Machine Unlearning si propone quindi come l’unica via praticabile per conciliare i diritti individuali e le esigenze di governance con la realtà operativa dei moderni sistemi di IA.

Machine Unlearning

Il motore normativo: perché Gdpr e AI Act rendono l’unlearning indispensabile

La rapida ascesa del Machine Unlearning da curiosità accademica a necessità industriale non è avvenuta nel vuoto. È stata catalizzata e plasmata da un quadro normativo sempre più stringente, in particolare all’interno dell’Unione Europea, che ha posto la protezione dei dati e la governance dell’IA al centro della sua agenda digitale.

Il GDPR e il “diritto all’oblio”

Il principale motore legale che ha dato vita al campo del Machine Unlearning è l’Articolo 17 del Regolamento Generale sulla Protezione dei Dati (GDPR), noto come “diritto alla cancellazione” o, più comunemente, “diritto all’oblio”. Questo articolo conferisce agli individui il diritto di richiedere la cancellazione dei propri dati personali in determinate circostanze, come la revoca del consenso o quando i dati non sono più necessari per le finalità per cui sono stati raccolti [9,14,15]. Quando il GDPR è entrato in vigore nel 2018, il legislatore non aveva pienamente previsto la complessità tecnica che la cancellazione dei dati avrebbe comportato nell’era dei modelli di IA su larga scala [16]. Le organizzazioni si sono trovate di fronte a un obbligo legale chiaro ma a una sfida tecnica quasi insormontabile: come onorare il diritto di un utente all’oblio quando i suoi dati non sono più in un database, ma sono stati assimilati e trasformati in conoscenza implicita all’interno di una rete neurale? [17]. Il Machine Unlearning è emerso come la risposta tecnologica a questa domanda normativa, offrendo un percorso potenziale per raggiungere la conformità senza dover ricorrere all’impraticabile riaddestramento completo del modello [18,19].

Oltre il GDPR: l’AI Act e la nuova frontiera della governance

Se il GDPR ha creato la domanda iniziale, il nuovo Regolamento sull’Intelligenza Artificiale (AI Act) dell’UE sta ampliando l’orizzonte, creando nuovi e urgenti casi d’uso per il Machine Unlearning che vanno ben oltre la privacy dei dati personali [13]. L’AI Act sposta l’attenzione sulla gestione del rischio e sulla governance dei sistemi di IA, in particolare quelli ad alto rischio, e in questo contesto l’unlearning diventa uno strumento essenziale di manutenzione e correzione.

  • Mitigazione dei bias e fairness: l’AI Act impone ai fornitori di sistemi di IA ad alto rischio di implementare sistemi di gestione del rischio che affrontino le minacce ai diritti fondamentali, come la discriminazione [20]. Il Machine Unlearning offre un meccanismo pratico per “riparare” un modello dopo la sua implementazione, qualora si scopra che produce risultati distorti. Rimuovendo i dati di addestramento che hanno causato il bias, è possibile correggere il comportamento del modello in modo mirato [17].
  • Conformità al copyright: il regolamento richiede ai fornitori di modelli di IA per scopi generali (GPAI) di implementare policy per rispettare la legge europea sul copyright, in particolare onorando le richieste di opt-out dal Text and Data Mining (TDM) [20]. Se un detentore di diritti richiede che le sue opere non vengano utilizzate, il Machine Unlearning fornisce il mezzo tecnico per rimuovere l’influenza di quel materiale protetto da copyright da un modello che potrebbe essere stato addestrato su di esso [21,22].
  • Monitoraggio post-commercializzazione: l’AI Act richiede un monitoraggio continuo dei sistemi ad alto rischio dopo la loro immissione sul mercato. L’unlearning è uno strumento chiave per questo ciclo di vita, consentendo agli sviluppatori di intervenire e correggere problemi (come nuove vulnerabilità o comportamenti indesiderati) che emergono con l’uso nel mondo reale.

Questa interazione tra normativa e tecnologia ha innescato un ciclo di co-evoluzione. Il GDPR ha posto un problema tecnico che ha stimolato la nascita del MU. La ricerca sul MU ha rivelato nuove complessità (come la difficoltà di verifica e il rischio di degrado delle prestazioni), che a loro volta influenzano l’interpretazione legale e la fattibilità tecnica della conformità. L’AI Act, con il suo focus sulla gestione del rischio, sembra già riflettere questa comprensione più matura, spingendo ulteriormente la ricerca verso un unlearning non solo per la privacy, ma per la sicurezza e l’affidabilità complessiva dell’IA.

Come “dimentica” una macchina? un’analisi delle tecniche principali

La ricerca nel campo del Machine Unlearning si è sviluppata lungo due direttrici filosofiche principali, che rappresentano un classico compromesso ingegneristico tra la robustezza delle garanzie e l’efficienza computazionale: l’Unlearning Esatto e l’Unlearning Approssimato [10].

Unlearning esatto (exact unlearning): il percorso della certezza

L’Unlearning Esatto si pone l’obiettivo più ambizioso: fornire una garanzia matematica e provabile che il processo di disapprendimento sia stato completo. Il modello risultante dall’unlearning deve appartenere alla stessa identica distribuzione statistica di un modello che fosse stato riaddestrato da zero senza i dati da dimenticare. In questo paradigma, l’algoritmo stesso costituisce la prova della cancellazione: se il metodo è implementato correttamente, la rimozione dell’influenza è garantita dal design.

Il metodo più rappresentativo di questo approccio è il framework SISA (Sharded, Isolated, Sliced, and Aggregated) [12]. La sua logica è ingegnosamente semplice e mira a limitare strategicamente l’influenza di ogni singolo dato fin dalla fase di addestramento.

  1. Sharding (partizionamento) e isolation (isolamento):il dataset di addestramento viene suddiviso in più partizioni disgiunte, chiamate shard. Su ogni shard viene addestrato un sottomodello separato e indipendente. Questo passaggio cruciale garantisce che l’influenza di un qualsiasi punto dati sia confinata esclusivamente al sottomodello addestrato sullo shard che lo contiene.
  2. Slicing (affettamento): all’interno di ogni shard, i dati vengono ulteriormente suddivisi in slice (fette). Il sottomodello viene addestrato in modo incrementale, una slice alla volta, e dopo ogni aggiunta viene salvato un checkpoint (uno stato dei parametri del modello). Questo permette, in caso di richiesta di unlearning, di non dover ripartire da zero, ma dal checkpoint immediatamente precedente all’introduzione della slice contenente il dato da rimuovere [12].
  3. Aggregation (aggregazione):in fase di inferenza (cioè quando il modello deve fare una previsione), i risultati di tutti i sottomodelli indipendenti vengono combinati, ad esempio tramite un voto di maggioranza, per produrre la risposta finale [25].

Il vantaggio è evidente: quando arriva una richiesta di unlearning per un dato specifico, è sufficiente identificare lo shard e la slice corrispondenti e riaddestrare solo quel singolo sottomodello a partire dal checkpoint pertinente. Questo riduce drasticamente il costo computazionale rispetto a un riaddestramento completo.

Unlearning approssimato (approximate unlearning): il compromesso pragmatico

Sebbene l’approccio esatto offra garanzie inattaccabili, la sua applicazione a modelli estremamente grandi e complessi può risultare impraticabile. L’Unlearning Approssimato rinuncia alla garanzia di perfezione in cambio di una maggiore velocità, efficienza e flessibilità. L’obiettivo non è più raggiungere uno stato identico a quello del riaddestramento, ma di approssimarlo il più fedelmente possibile, modificando direttamente i parametri del modello originale.

Esistono diverse tecniche concettuali per raggiungere questo obiettivo:

  • Gradient ascent (Ascesa del Gradiente): questa tecnica inverte la logica del processo di addestramento. Se l’apprendimento utilizza la discesa del gradiente per minimizzare l’errore di previsione su un dato, il disapprendimento utilizza l’ascesa del gradiente per massimizzare deliberatamente l’errore su quel dato. In pratica, si “spingono” i parametri del modello nella direzione opposta a quella che avevano imparato da quel dato specifico, annullandone l’effetto [26].
  • Model Pruning (Potatura del Modello): l’idea è quella di identificare i neuroni o le connessioni all’interno della rete neurale che sono stati maggiormente influenzati dai dati da dimenticare. Una volta localizzati, questi componenti vengono “potati” o neutralizzati, eliminando così il percorso attraverso cui quell’informazione contribuisce alle decisioni del modello [7].
  • Fine-tuning (Affinamento): è l’approccio più diretto. Consiste semplicemente nel continuare ad addestrare il modello solo sui dati da conservare (retain set). L’idea è che il nuovo apprendimento “sovrascriva” gradualmente la conoscenza derivata dai dati da dimenticare (forget set).

La scelta tra un approccio esatto e uno approssimato dipende dal contesto specifico: applicazioni in cui la prova di cancellazione è un requisito legale o di sicurezza inderogabile richiederanno metodi esatti, mentre scenari che richiedono agilità e rapidità su modelli di grandi dimensioni potrebbero beneficiare delle tecniche approssimate.

CriterioUnlearning Esatto (Exact Unlearning)Unlearning Approssimato (Approximate Unlearning)
Garanzia di RimozioneGaranzia matematica/probabilistica di rimozione completa dell’influenza. Il modello finale è distribuito come se fosse stato riaddestrato da zero.Nessuna garanzia formale. Il modello finale approssima lo stato di un modello riaddestrato. Potrebbero rimanere tracce residue dell’informazione.
Costo ComputazionaleElevato, ma significativamente inferiore al riaddestramento completo. Richiede una modifica dell’architettura di addestramento iniziale.Basso. Molto efficiente e veloce, progettato per modifiche leggere su modelli pre-addestrati.
Impatto sulla PerformanceMinimo o nullo. Le prestazioni del modello sulle attività rimanenti sono idealmente identiche a quelle di un modello riaddestrato.Rischio di degradazione delle prestazioni. Se non calibrato correttamente, può portare a “dimenticanza catastrofica”, danneggiando la conoscenza generale del modello.
VerificabilitàElevata. La correttezza del metodo stesso è la prova della cancellazione. Facile da dimostrare e spiegare.Bassa e complessa. Richiede test empirici estesi (es. attacchi di inferenza di appartenenza) per verificare l’efficacia della rimozione, senza mai raggiungere la certezza assoluta.
Esempi di MetodiSISA (Sharded, Isolated, Sliced, and Aggregated).Gradient Ascent, Fine-tuning, Model Pruning, Knowledge Distillation.

La frontiera della privacy: il federated unlearning

Mentre il Machine Unlearning affronta la sfida di far dimenticare i dati a un’IA centralizzata, un’altra rivoluzione sta cambiando le fondamenta stesse dell’apprendimento automatico: il Federated Learning (FL), o apprendimento federato. Questo paradigma, a sua volta, crea una sfida relativamente all’ “oblio” ancora più complessa e affascinante.

Cos’è il federated learning?

Il Federated Learning è un approccio di addestramento decentralizzato, progettato fin dall’inizio per massimizzare la privacy [30]. Il principio fondamentale è semplice ma potente: il modello va ai dati, non i dati al modello [31,32]. In un sistema di FL, un modello di IA globale viene inviato a una moltitudine di dispositivi locali (come smartphone o server ospedalieri), dove viene addestrato utilizzando i dati locali di ciascun utente. Questi dati grezzi non lasciano mai il dispositivo. Al termine dell’addestramento locale, solo gli aggiornamenti del modello (gradienti o pesi, opportunamente anonimizzati e aggregati) vengono inviati a un server centrale. Il server combina gli aggiornamenti provenienti da tutti i dispositivi per migliorare il modello globale, che viene poi ridistribuito per un nuovo ciclo di apprendimento [33]. Questo processo permette di addestrare modelli potenti su dati eterogenei e distribuiti senza che un’entità centrale debba mai raccogliere o visualizzare le informazioni sensibili degli utenti.

La sfida unica del federated unlearning (fu)

Questa architettura, così efficace nel proteggere la privacy durante l’addestramento, introduce una difficoltà unica quando si tratta di dimenticare. In un sistema centralizzato, il proprietario del modello possiede (o ha accesso a) i dati da rimuovere. Nel Federated Learning, il server che orchestra il processo non ha mai avuto accesso ai dati grezzi [35]. Di conseguenza, quando un utente (o “client”) richiede la cancellazione dei propri dati, il server non può semplicemente riaddestrare il modello escludendoli. L’influenza del client è già stata “distillata” e aggregata nel modello globale, mescolata con i contributi di migliaia di altri. La sfida del Federated Unlearning è quindi quella di cancellare il contributo di un client dal modello globale senza la sua partecipazione attiva e senza avere accesso ai suoi dati originali.

Questo problema si manifesta a diversi livelli di granularità:

  • Unlearning a livello di campione (Sample-level): La rimozione dell’influenza di un singolo dato (es. una foto specifica) da un client.
  • Unlearning a livello di client (Client-level): La rimozione di tutti i contributi di un client specifico che decide di ritirarsi dal sistema. Questo è lo scenario più studiato, poiché corrisponde a un utente che esercita pienamente il suo diritto all’oblio.
  • Unlearning a livello di classe (Class-level): La rimozione di tutti i dati relativi a una specifica categoria (es. un certo tipo di prodotto) da tutti i client del sistema.

Per affrontare questa sfida, i ricercatori stanno esplorando approcci innovativi. Alcuni metodi prevedono che il server sottragga gli aggiornamenti storici del client “dimenticato” dal modello globale, per poi utilizzare tecniche come la knowledge distillation per “riparare” le prestazioni del modello senza reintrodurre la conoscenza indesiderata. Altre strategie, come l’aggregazione a cluster, mirano a limitare fin dall’inizio l’impatto di ogni client a un piccolo gruppo di altri client, riducendo così il “raggio d’azione” di una richiesta di unlearning. Il Federated Unlearning può essere considerato una vera e propria “sfida di privacy di secondo ordine”. Se il Federated Learning è stato concepito per mitigare i rischi legati alla centralizzazione dei dati, il Federated Unlearning nasce oggi per affrontare il nuovo rischio generato dal suo stesso successo: l’incapacità intrinseca dei modelli federati di dimenticare in modo efficiente e verificabile. Questa dinamica evidenzia un principio ricorrente nell’evoluzione delle tecnologie per la privacy: ogni soluzione introduce inevitabilmente una nuova e più sottile vulnerabilità, collocata a un livello superiore dello stack tecnologico. Superarla richiede non solo un ulteriore avanzamento tecnico, ma anche una riflessione più profonda sull’architettura stessa della memoria e dell’oblio nei sistemi distribuiti di intelligenza artificiale.

Federated Unlearning Overview

Le applicazioni: un orizzonte oltre la privacy

Sebbene la conformità al GDPR sia stata la scintilla iniziale, il campo di applicazione del Machine Unlearning si è rapidamente espanso, rivelandosi uno strumento versatile e potente per la governance e la manutenzione generale dei sistemi di IA. La capacità di modificare chirurgicamente un modello dopo il suo addestramento trasforma l’IA da un artefatto statico, un prodotto finito del suo dataset, a un sistema dinamico e “modificabile” che può evolvere nel corso del suo ciclo di vita.

  • Sicurezza (security): i modelli di IA sono vulnerabili ad attacchi di data poisoning, in cui un avversario inietta dati malevoli nel set di addestramento per corrompere il comportamento del modello o creare delle backdoor per estrarre informazioni sensibili. Il Machine Unlearning offre un meccanismo di difesa fondamentale, permettendo di rimuovere l’influenza di questi dati tossici e di “chiudere” le backdoor senza dover scartare l’intero modello [23,24].
  • Equità e correttezza (Fairness & Bias Mitigation): Uno dei problemi più sentiti nell’IA è il bias algoritmico, per cui i modelli possono perpetuare o amplificare pregiudizi presenti nei dati di addestramento, portando a risultati discriminatori. L’unlearning consente di intervenire attivamente per correggere questi bias, identificando e rimuovendo i dati che portano a decisioni ingiuste, rendendo così i sistemi di IA più equi e affidabili [17].
  • Gestione della proprietà Intellettuale (IP Management): i modelli generativi, addestrati su vasti corpus di dati prelevati da Internet, possono involontariamente memorizzare e riprodurre materiale protetto da copyright. Questo ha portato a contenziosi legali di alto profilo. L’unlearning è uno strumento essenziale per rimuovere testi, immagini o codice protetti da copyright, aiutando le aziende a evitare violazioni e a rispettare i diritti dei creatori [16].
  • Manutenzione e adattabilità del modello (Model Maintenance & Adaptability): il mondo reale è dinamico e i dati cambiano nel tempo, un fenomeno noto come concept drift. Un modello addestrato su dati storici può diventare rapidamente obsoleto. L’unlearning permette di combattere questo degrado rimuovendo le informazioni superate (es. vecchie preferenze dei clienti in un sistema di raccomandazione) per mantenere il modello rilevante e performante.
  • Personalizzazione e controllo utente (Personalization & User Control): l’unlearning offre agli utenti un controllo più granulare sulla loro esperienza digitale. Un utente potrebbe voler “far dimenticare” al sistema di raccomandazione di un servizio di streaming un film visto per errore che sta inquinando i suggerimenti futuri. Questa capacità di curare attivamente il proprio profilo di dati migliora la personalizzazione e la soddisfazione dell’utente.

Queste capacità trovano applicazione in settori critici con esigenze specifiche:

  • Sanità (Healthcare): In questo settore, la gestione dei dati è estremamente sensibile. L’unlearning è fondamentale per onorare la revoca del consenso da parte di un paziente in una sperimentazione clinica, per rimuovere una diagnosi errata dai dati di addestramento di un modello predittivo o per garantire la conformità a normative stringenti come l’HIPAA negli Stati Uniti.
  • Finanza (Finance): Nel settore finanziario, l’unlearning può essere utilizzato per aggiornare i modelli di rischio di credito quando i dati di un cliente devono essere cancellati, per rimuovere dati di mercato anomali o errati che potrebbero influenzare negativamente gli algoritmi di trading ad alta frequenza, o per gestire i dati dei clienti che lasciano un istituto finanziario.

In definitiva, il Machine Unlearning fornisce il substrato tecnico per una nuova generazione di modelli di IA: non più monoliti immutabili, ma sistemi “vivi”, continuamente curabili e allineabili con nuovi dati, nuove normative e nuovi standard etici.

Unlearning Applications Overview

Le sfide aperte e il futuro dell’oblio digitale

Nonostante le sue immense promesse, il Machine Unlearning è un campo ancora nascente e tutt’altro che una soluzione magica. La strada verso un “oblio digitale” affidabile, scalabile e verificabile è costellata di sfide tecniche e concettuali significative che la comunità scientifica e i regolatori devono affrontare congiuntamente.

  • La verifica (verification): forse la sfida più profonda è come dimostrare in modo conclusivo che un modello ha veramente dimenticato qualcosa. Come possiamo essere sicuri che nessuna informazione residua persista nei suoi parametri? Le tecniche di unlearning approssimato, per loro natura, non offrono certezze. La verifica oggi si affida a test empirici complessi, come gli attacchi di inferenza di appartenenza (che tentano di determinare se un dato faceva parte del training set originale), ma questi metodi non sono infallibili. Sviluppare metriche standardizzate e protocolli di audit robusti per la verifica dell’unlearning è un problema aperto di fondamentale importanza [29].
  • Dimenticanza catastrofica (catastrophic unlearning): esiste il rischio concreto che il processo di disapprendimento, se non eseguito con cautela, possa causare un degrado sproporzionato e improvviso delle prestazioni generali del modello. La rimozione di anche una piccola quantità di dati, se questi erano particolarmente influenti o rappresentativi di un concetto importante, può danneggiare la conoscenza del modello su compiti non correlati, un fenomeno noto come “dimenticanza catastrofica”.
  • Il divario tra tecnica e normativa (the tech-policy gap): Si sta delineando un preoccupante disallineamento tra il linguaggio assolutista dei diritti legali (che parlano di “cancellazione” e “rimozione”) e la natura probabilistica e approssimata di molte soluzioni tecniche. Un modello “approssimativamente” dimenticato è sufficiente per la conformità al GDPR? Come può un’azienda dimostrare in tribunale di aver adempiuto a un obbligo di cancellazione se non può garantirlo al 100%? Questo divario crea un’incertezza legale che ostacola l’adozione su larga scala [20].
  • Efficienza e scalabilità (Efficiency and Scalability): sebbene l’unlearning sia più efficiente del riaddestramento, molte tecniche impongono ancora un notevole onere computazionale. Scalare questi metodi per operare in modo efficiente su modelli con migliaia di miliardi di parametri, gestendo potenzialmente milioni di richieste di unlearning in tempo reale, rimane una sfida ingegneristica formidabile.
  • Ricostruzione della conoscenza (Knowledge Reconstruction): una delle sfide più sottili è che un modello sofisticato potrebbe essere in grado di ricostruire la conoscenza “dimenticata” a partire da altre informazioni correlate che ancora possiede. Ad esempio, far dimenticare a un modello il fatto specifico “Parigi è la capitale della Francia” potrebbe non impedirgli di inferire nuovamente questa informazione da migliaia di altri documenti che menzionano la Francia, Parigi, le capitali e i governi. Prevenire la riproduzione di un contenuto non garantisce la rimozione della capacità di generarlo.

Nonostante le sfide ancora aperte — dall’efficienza computazionale alla verificabilità dei processi di cancellazione, la traiettoria è ormai chiara. Il Machine Unlearning non rappresenta più un’opzione accessoria, ma una componente imprescindibile nel toolkit dell’Intelligenza Artificiale responsabile. In un’epoca in cui i dati diventano permanenti e le decisioni automatiche sempre più pervasive, la capacità di “dimenticare” non è un lusso tecnico, bensì un imperativo etico, giuridico e sociale. Il futuro dell’IA non sarà definito solo dalla rapidità con cui saprà apprendere nuovi pattern, ma anche dalla maturità con cui saprà disapprendere ciò che non deve più sapere: dati errati, obsoleti o lesivi della privacy individuale. L’unlearning efficace e verificabile diventa così la chiave per ristabilire un equilibrio tra memoria artificiale e diritto all’oblio, tra potenza computazionale e sostenibilità cognitiva dei sistemi. Costruire meccanismi di unlearning robusti significa, in ultima analisi, edificare un’IA che non solo impara dal mondo, ma rispetta il mondo da cui apprende, un’IA capace di ricordare con intelligenza e di dimenticare con saggezza.

Ringraziamenti

Si ringraziano i membri, collaboratori ed amici del gruppo di ricerca M.O.D.A.L. (Mathematical MOdelling and Data AnaLisys) del Dipartimento di Matematica e Applicazioni “Renato Caccioppoli” – Università degli Studi di Napoli Federico II per le stimolanti discussioni sull’argomento trattato.

Bibliografia

Mamatha, K., Banik, D. (2025). Machine Unlearning in MRI Reconstruction to Balance Privacy Protection and Model Performance Trade-Offs. In: Arai, K. (eds) Intelligent Computing. CompCom 2025. Lecture Notes in Networks and Systems, vol 1424. Springer, Cham. https://doi.org/10.1007/978-3-031-92605-1_27

Badhan Chandra Das, M. Hadi Amini, and Yanzhao Wu. 2025. Security and Privacy Challenges of Large Language Models: A Survey. ACM Comput. Surv. 57, 6, Article 152 (June 2025), 39 pages. https://doi.org/10.1145/3712001

Maria Rigaki and Sebastian Garcia. 2023. A Survey of Privacy Attacks in Machine Learning. ACM Comput. Surv. 56, 4, Article 101 (April 2024), 34 pages. https://doi.org/10.1145/3624010

Heng Xu, Tianqing Zhu, Lefeng Zhang, Wanlei Zhou, and Philip S. Yu. 2023. Machine Unlearning: A Survey. ACM Comput. Surv. 56, 1, Article 9 (January 2024), 36 pages. https://doi.org/10.1145/3603620

N. Li et al., “Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects,” in IEEE Transactions on Neural Networks and Learning Systems, vol. 36, no. 8, pp. 13709-13729, Aug. 2025, doi: 10.1109/TNNLS.2025.3530988.

Fan, C., Liu, J., Hero, A., Liu, S. (2025). Challenging Forgets: Unveiling the Worst-Case Forget Sets in Machine Unlearning. In: Leonardis, A., Ricci, E., Roth, S., Russakovsky, O., Sattler, T., Varol, G. (eds) Computer Vision – ECCV 2024. ECCV 2024. Lecture Notes in Computer Science, vol 15079. Springer, Cham. https://doi.org/10.1007/978-3-031-72664-4_16

A. K. Tarun, V. S. Chundawat, M. Mandal and M. Kankanhalli, “Fast Yet Effective Machine Unlearning,” in IEEE Transactions on Neural Networks and Learning Systems, vol. 35, no. 9, pp. 13046-13055, Sept. 2024, doi: 10.1109/TNNLS.2023.3266233

V. S. Chundawat, A. K. Tarun, M. Mandal and M. Kankanhalli, “Zero-Shot Machine Unlearning,” in IEEE Transactions on Information Forensics and Security, vol. 18, pp. 2345-2354, 2023, doi: 10.1109/TIFS.2023.3265506

Liu, S., Yao, Y., Jia, J. et al. Rethinking machine unlearning for large language models. Nat Mach Intell 7, 181–194 (2025). https://doi.org/10.1038/s42256-025-00985-0

Zhang, H., Nakamura, T., Isohara, T. et al. A Review on Machine Unlearning. SN COMPUT. SCI. 4, 337 (2023). https://doi.org/10.1007/s42979-023-01767-4

L. Bourtoule et al., “Machine Unlearning,” 2021 IEEE Symposium on Security and Privacy (SP), San Francisco, CA, USA, 2021, pp. 141-159, doi: 10.1109/SP40001.2021.00019.

Huang, M.H., Foo, L.G., Liu, J. (2025). Learning to Unlearn for Robust Machine Unlearning. In: Leonardis, A., Ricci, E., Roth, S., Russakovsky, O., Sattler, T., Varol, G. (eds) Computer Vision – ECCV 2024. ECCV 2024. Lecture Notes in Computer Science, vol 15110. Springer, Cham. https://doi.org/10.1007/978-3-031-72943-0_12

Diritto all’oblio – Garante Privacy, https://www.garanteprivacy.it/i-miei-diritti/diritti/oblio

Min Chen, Zhikun Zhang, Tianhao Wang, Michael Backes, Mathias Humbert, and Yang Zhang. 2021. When Machine Unlearning Jeopardizes Privacy. In Proceedings of the 2021 ACM SIGSAC Conference on Computer and Communications Security (CCS ’21). Association for Computing Machinery, New York, NY, USA, 896–911. https://doi.org/10.1145/3460120.3484756

The Rise of Machine Unlearning | Pecan AI, https://www.pecan.ai/blog/the-rise-of-machine-unlearning/

Fair Machine Unlearning: Data Removal while Mitigating Disparities, Alex Oesterling, Jiaqi Ma, Flavio Calmon, Himabindu Lakkaraju Proceedings of The 27th International Conference on Artificial Intelligence and Statistics, PMLR 238:3736-3744, 2024.

Bridge the Gaps between Machine Unlearning and AI, Bill Marino, Meghdad Kurmanji, Nicholas D. Lane, https://arxiv.org/abs/2502.12430

A. Huang, Z. Cai and Z. Xiong, “A Survey of Machine Unlearning in Generative AI Models: Methods, Applications, Security, and Challenges,” in IEEE Internet of Things Journal, vol. 12, no. 16, pp. 32563-32580, 15 Aug.15, 2025, doi: 10.1109/JIOT.2025.3570989

J. Xu, Z. Wu, C. Wang and X. Jia, “Machine Unlearning: Solutions and Challenges,” in IEEE Transactions on Emerging Topics in Computational Intelligence, vol. 8, no. 3, pp. 2150-2168, June 2024, doi: 10.1109/TETCI.2024.3379240.

How to unlearn a learned Machine Learning model ?, Seifeddine Achour, https://arxiv.org/abs/2410.09935

J. Xu, Z. Wu, C. Wang and X. Jia, “Machine Unlearning: Solutions and Challenges,” in IEEE Transactions on Emerging Topics in Computational Intelligence, vol. 8, no. 3, pp. 2150-2168, June 2024, doi: 10.1109/TETCI.2024.3379240.

Machine unlearning | European Data Protection Supervisor, https://www.edps.europa.eu/data-protection/technology-monitoring/techsonar/machine-unlearning_en

J. Pei, W. Liu, J. Li, L. Wang and C. Liu, “A Review of Federated Learning Methods in Heterogeneous Scenarios,” in IEEE Transactions on Consumer Electronics, vol. 70, no. 3, pp. 5983-5999, Aug. 2024, doi: 10.1109/TCE.2024.3385440.

Federated learning: privacy-preserving data analysis – TNO, https://www.tno.nl/en/technology-science/technologies/federated-learning/

Jingxue Chen, Hang Yan, Zhiyuan Liu, Min Zhang, Hu Xiong, and Shui Yu. 2024. When Federated Learning Meets Privacy-Preserving Computation. ACM Comput. Surv. 56, 12, Article 319 (December 2024), 36 pages. https://doi.org/10.1145/3679013

L. Wu, S. Guo, J. Wang, Z. Hong, J. Zhang and Y. Ding, “Federated Unlearning: Guarantee the Right of Clients to Forget,” in IEEE Network, vol. 36, no. 5, pp. 129-135, September/October 2022, doi: 10.1109/MNET.001.2200198.

F. Wang, B. Li and B. Li, “Federated Unlearning and Its Privacy Threats,” in IEEE Network, vol. 38, no. 2, pp. 294-300, March 2024, doi: 10.1109/MNET.004.2300056.

Y. Zhao et al., “Exploring Federated Unlearning: Review, Comparison, and Insights,” in IEEE Network, doi: 10.1109/MNET.2025.3571462

H. Xu, T. Zhu, L. Zhang, W. Zhou and P. S. Yu, “Update Selective Parameters: Federated Machine Unlearning Based on Model Explanation” in IEEE Transactions on Big Data, vol. 11, no. 02, pp. 524-539, April 2025, doi: 10.1109/TBDATA.2024.3409947.

X. Gong, Y. Chen, Q. Wang and W. Kong, “Backdoor Attacks and Defenses in Federated Learning: State-of-the-Art, Taxonomy, and Future Directions,” in IEEE Wireless Communications, vol. 30, no. 2, pp. 114-121, April 2023, doi: 10.1109/MWC.017.2100714.

N. Romandini, A. Mora, C. Mazzocca, R. Montanari and P. Bellavista, “Federated Unlearning: A Survey on Methods, Design Guidelines, and Evaluation Metrics,” in IEEE Transactions on Neural Networks and Learning Systems, vol. 36, no. 7, pp. 11697-11717, July 2025, doi: 10.1109/TNNLS.2024.3478334.

Sachdeva, B., Rathee, H., Sristi, Sharma, A., Wydmański, W. (2024). Machine Unlearning for Recommendation Systems: An Insight. In: Hassanien, A.E., Anand, S., Jaiswal, A., Kumar, P. (eds) Innovative Computing and Communications. ICICC 2024. Lecture Notes in Networks and Systems, vol 1024. Springer, Singapore. https://doi.org/10.1007/978-981-97-3817-5_30

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati