Da diversi anni siamo completamente circondati da “voci artificiali” con le quali interagiamo sempre più spesso. Le sentiamo quando chiediamo indicazioni al nostro navigatore satellitare (es. Google Maps), quando ascoltiamo un audiolibro oppure quando interagiamo con un assistente vocale (come Alexa).
Indice degli argomenti
La diffusione delle voci artificiali e i rischi della clonazione
Ma dietro la comodità e la naturalezza di queste tecnologie si nasconde la ragionevole possibilità che chiunque possa clonare la voce di un’altra persona. Bastano pochi secondi di registrazione per poterla poi riprodurre e utilizzarla per scopi fraudolenti. Truffe telefoniche, video manipolati (i cosiddetti “deepfake”) e minacce sono solo alcune degli “effetti collaterali” delle tecnologie vocali avanzate ormai ampiamente diffuse al giorno d’oggi.
L’evoluzione del text-to-speech e l’urgenza del problema
Negli ultimi anni, i progressi dell’Intelligenza Artificiale hanno permesso di trasformare radicalmente il settore del “text-to-speech”, ossia la capacità delle macchine di leggere testi in modo naturale. Non si tratta più di voci monotone e robotiche stile anni ‘80, ma di vere e proprie imitazioni di persone reali, con pause, inflessioni ed emozioni che rendono la simulazione quasi indistinguibile dalla realtà. Ecco perché il problema della clonazione della voce umana è diventato urgente.
Machine unlearning, un approccio per far dimenticare alle macchine
Una possibile soluzione al problema, ancora in fase sperimentale, prende il nome di “machine unlearning”, un’idea tanto semplice quanto rivoluzionaria. Il concetto è questo: se un sistema di Intelligenza Artificiale può apprendere una voce, potrebbe anche essere in grado di dimenticarla. Questo processo permetterebbe a una persona di richiedere che la propria voce venga rimossa da un modello di Intelligenza Artificiale, impedendo che venga ulteriormente replicata o imitata. Una sorta di “diritto all’oblio” applicato a tale tecnologia. Tuttavia, in tal caso non avverrebbe una “de-indicizzazione” come nel caso dei siti web, dove il nominativo viene eliminato dai risultati dei motori di ricerca. È un approccio che va oltre il semplice blocco o filtro dei contenuti, poiché si tratta di cancellare realmente ciò che è stato appreso, come se non fosse mai esistito nei dati appresi dal modello di Intelligenza Artificiale.
La ricerca della Sungkyunkwan University
Un team di ricercatori della Sungkyunkwan University (Corea del Sud) ha recentemente presentato una delle prime applicazioni pratiche di questo concetto nel campo dell’elaborazione vocale. L’obiettivo dei ricercatori sudcoreani è stato quello di contrastare l’uso improprio delle voci imitate, proteggendo l’identità vocale degli individui. Invero, molte persone iniziano a chiedersi come uscire da un sistema “artificiale” che può generare la loro voce senza debito consenso. Offrire questa possibilità, secondo i ricercatori, è una questione di etica e di sicurezza. Il processo, tuttavia, non è semplice. A differenza delle tradizionali misure di sicurezza, che consistono nell’inserire barriere attorno ai dati da proteggere (come fanno molti modelli che rifiutano di rispondere a un determinato tipo di domande sensibili, politiche o pericolose), il “machine unlearning” lavora alla radice del problema. Rimuove direttamente le informazioni dai modelli, creando una versione nuova e più “pulita” del sistema, depurandolo da ciò che si vuole eliminare. È un po’ come se si ricostruisse il cervello del modello, ma senza ricordare la parte che si vuole dimenticare. Una sorta di “brainwashing” del modello mirato a estirpare determinate informazioni dall’Intelligenza Artificiale.
Le sfide tecniche dei modelli zero-shot
Il concetto, di per sé, è affascinante. Tuttavia, presenta sfide importanti da non prendere sotto gamba. I modelli vocali più sofisticati, detti “zero-shot”, sono capaci di imparare a imitare voci anche non presenti nel set di addestramento, partendo da pochissimi secondi di audio. Per zero-shot intendiamo lo scenario di machine learning in cui un modello di Intelligenza Artificiale viene addestrato a riconoscere e categorizzare oggetti o concetti senza aver visto prima alcun esempio di tali categorie o concetti[1]. Quindi, per far sì che il modello disimpari una voce, non basta rimuovere i dati originali. Bisogna anche insegnare al modello a non imitare quella voce, nemmeno quando gliela si presenta nuovamente “per la prima volta”. Tutto questo, ovviamente, mantenendo la capacità del sistema di funzionare bene con tutte le altre voci ammesse.
I risultati sperimentali con VoiceBox
Per dimostrare che tutto ciò è possibile, i ricercatori sudcoreani hanno rivisto VoiceBox, un potente modello vocale sviluppato da Meta, e lo hanno addestrato a ignorare alcune voci specifiche. Quando il modello viene interrogato con un testo da leggere utilizzando una voce dimenticata, esso risponde con una voce casuale generata automaticamente. In pratica, il sistema impara a non riconoscere più quella voce come replicabile, restituendo così un risultato completamente diverso. E i risultati sono sorprendenti. Secondo gli studi, il modello “smemorato” è risultato del settantacinque percento meno capace di imitare la voce target rispetto alla versione originale. In altre parole, la voce da dimenticare era stata effettivamente cancellata dalla memoria del modello. Ovviamente, non senza (piccoli) sacrifici, dato che il modello è risultato leggermente meno preciso anche con le voci autorizzate, con un calo delle prestazioni di quasi il tre percento. Tuttavia per il team tale differenza è assolutamente marginale e, quindi, accettabile.
Tempi, risorse e anonimizzazione dei dati vocali
Il processo richiede comunque tempo e risorse. Per dimenticare una voce, il sistema sviluppato dalla Sungkyunkwan University ha bisogno di circa cinque minuti di registrazione vocale originale, mentre il tempo necessario per dimenticare il tutto completamente può arrivare a diversi giorni, soprattutto se le voci da eliminare sono molte. Inoltre, per garantire che i dati non possano essere ricostruiti artificiosamente, le parti rimosse vengono sostituite con contenuti casuali, rendendo impossibile risalire all’originale. Una sorta di anonimizzazione completa del modello su quegli specifici dati vocali target.
I compromessi tra sicurezza e prestazioni nei modelli vocali
La ricercatrice Vaidehi Patil della University of North Carolina (Stati Uniti), che studia il machine unlearning e collabora con Google DeepMind, ha definito il lavoro fatto dai ricercatori della Sungkyunkwan University come una delle prime applicazioni convincenti della tecnica nel campo delle produzioni vocali artificiali. Secondo Patil, il machine unlearning, pur essendo promettente, inevitabilmente soggetto a compromessi, poiché maggiore è la “dimenticanza”, maggiore è il rischio di danneggiare le prestazioni generali del sistema. Serve quindi equilibrio tra efficienza, sicurezza e qualità.
Al momento, non è detto che aziende come Meta siano pronte a implementare subito queste tecnologie nei loro modelli. VoiceBox, per esempio, non è ancora stato reso disponibile al pubblico proprio per i rischi connessi al suo potenziale abuso connesso al suo utilizzo. Tuttavia, l’interesse industriale per soluzioni di questo tipo è in crescita. E se la ricerca continuerà a dare risultati positivi, il machine unlearning potrebbe diventare una componente essenziale dei futuri sistemi vocali, offrendo finalmente alle persone un modo per riprendere il controllo sulla propria identità vocale.
Prospettive future e diritto all’oblio vocale
Oggi, parlare di diritto alla cancellazione (o di diritto all’oblio) dei dati vocali può sembrare quasi fantascienza. Ma il rapido sviluppo dell’Intelligenza Artificiale ci insegna che ciò che oggi è sperimentale, domani può diventare la norma. Se un giorno potremo chiedere a un assistente vocale di smettere di usare la nostra voce, e questo lo farà davvero, sarà solo grazie a tecnologie come il machine unlearning. Non sarà solo un passo avanti per la sicurezza, ma un segnale che anche nell’era dell’Intelligenza Artificiale, il diritto all’oblio può esistere e gli strumenti a tutela dei diritti e delle libertà delle persone funzionano a dovere.
Note
[1] Che cos’è lo zero-shot learning? IBM. https://www.ibm.com/it-it/think/topics/zero-shot-learning










