manipolazioni digitali

Come ti scovo il deepfake: le contromisure, con l’analisi forense

Identificare i volti generati attraverso la tecnica del deepfake è sempre più difficile, ma non mancano le contromisure messe in atto dagli esperti in sicurezza. Un elemento chiave delle ultime ricerche, ad esempio, sono i riflessi negli occhi dei visi sintetizzati, che hanno entropia diversa. I risvolti in ambito forense

Pubblicato il 28 Apr 2021

Ernesto Damiani

Senior Director of Robotics and Intelligent Systems Institute at Khalifa University

Oggi è relativamente facile sintetizzare automaticamente volti inesistenti o manipolare il volto reale di una persona famosa in un video, grazie all’accessibilità di grandi quantità di dati pubblici (dovuta anche all’uso incauto dei social media da parte delle celebrità stesse e dell’utenza in generale) e alla tecnica del deepfake.

Sebbene sia molto difficile scoprire i falsi, stanno emergendo nuovi metodi che potrebbero facilitare l’identificazione dei visi generati automaticamente, basati sui riflessi negli occhi.

Vediamo perché è importante soprattutto in ambito forense.

Caccia al deepfake, Intelligenza artificiale al lavoro (contro sé stessa)

Indice degli argomenti

Deepfake, da intrattenimento a minaccia

I “deepfake”, ovvero le immagini e i video fasulli generati tramite manipolazione digitale, sono diventati una fonte di intrattenimento. Tutti abbiamo sorriso di fronte ai video diffusi in rete, in cui politici internazionali pronunciano frasi in un dialetto italiano stretto, ma con un labiale perfetto. Alcuni ricorderanno il video fasullo in cui l’allora Presidente degli Stati Uniti, Donald Trump, dava “consigli” a Bruxelles sull’emergenza climatica. Recentemente, un sosia di Tom Cruise sull’app di condivisione TikTok ha utilizzato la tecnologia deepfake per realizzare video convincenti nei panni dell’attore.

Originariamente, il termine “deepfake” si riferisce a una tecnica basata sull’apprendimento computazionale profondo (deep learning) in grado di creare video falsi scambiando il volto di una persona con il volto di un’altra. Il termine fu coniato dallo pseudonimo (appunto, “deepfakes”) di un utente della piattaforma Reddit che alla fine del 2017 affermò di aver sviluppato un algoritmo di apprendimento automatico che poteva trasporre i volti di celebrità note su quelle degli sconosciuti attori di video pornografici.

Questa tecnica, che offre grandi possibilità di business anche nella cinematografia tradizionale (pensate alla possibilità di far recitare copioni nuovi ai divi del passato) fu inizialmente accolta come la naturale evoluzione delle tecniche di elaborazione delle immagini che permettono alle celebrità di utilizzare il corpo di una controfigura quando il loro non è all’altezza di una ripresa ravvicinata. Ben presto, però, i ricercatori e gli esperti in analisi forense dei contenuti digitali (la digital forensics) si resero conto che la tecnica di deepfake poteva impedire l’identificazione dei falsi, rendendo possibile creare bufale difficili da smentire anche in tribunale, oppure violare i sistemi di autenticazione basati sui volti.

DeepNude, la legge tutela male le donne “spogliate” con l’intelligenza artificiale

Analisi forense ed entropia locale

Per capire perché, occorre considerare che le tecniche tradizionali di analisi forense si basano su caratteristiche come l’entropia locale, che misura il “disordine” dei valori di luminanza dei pixel in una certa area dell’immagine. Se ritaglio manualmente una persona da un’immagine e la sostituisco con un’altra (o con lo sfondo), l’andamento dell’entropia locale avrà un sussulto entrando nella regione sostituita, una discontinuità che viene riconosciuta senza problemi dai classici algoritmi di analisi delle immagini.

Per i video, la manipolazione manuale causa simili “sussulti” nelle differenze tra frame, e, nei video con parlato, un simile analisi entropica può rivelare le differenze – impercettibili a occhio nudo – nell’andamento delle microespressioni del viso e il movimento delle labbra che realizza una traccia audio diversa.

Se invece l’immagine falsa è generata da un modello generativo di apprendimento computazionale (un Autoencoder) a partire dall’immagine vera (e dal segnale da aggiungere), si può co-addestrare il modello generativo insieme a un discriminatore ottenendo il sistema detto Generative Adversarial Network (GAN), di cui abbiamo parlato più volte su queste pagine. Questo fa sì che l’andamento dell’entropia locale non mostri sussulti in sede di analisi.

La controffensiva degli esperti di sicurezza

La raccolta non autorizzata su larga scala di video e immagini è un’attività ben documentata nella “zona grigia” del darknet, con una forte connotazione regionale. L’evoluzione del deep learning ha completamente eliminato i passaggi di modifica manuale, e sono disponibili applicazioni come ZAO3 e FaceApp4 che permettono a chiunque di creare immagini e video falsi, senza alcuna esperienza sul campo. Le cosiddette “truffe romantiche”, in cui personaggi inesistenti fanno finte promesse di matrimonio a interlocutori creduloni in cambio di denaro vero, sono solo un esempio di applicazione a tappeto delle tecniche deepfake.

Ovviamente, gli esperti di sicurezza e delle immagini non sono rimasti con le mani in mano di fronte all’offensiva dei dati fasulli.

Prima di tutto, sono stati sviluppati metodi per aumentare la multimodalità delle fonti ovvero le informazioni che contengono. Ad esempio, sono stati inclusi nei flussi video le “impronte digitali” della fotocamera, ovvero le caratteristiche uniche del dispositivo che dipendono dall’obiettivo ottico, dalla codifica e interpolazione dei colori, ma anche – in alcuni casi – le impronte digitali dell’operatore. Questo rende in linea di principio possibile alimentare una Blockchain con “gettoni non fungibili” corrispondenti ai video, permettendo il controllo della contraffazione a livello planetario.

Purtroppo, la maggior parte dei deepfake viene condivisa sui social network, le cui piattaforme modificano profondamente le immagini/video contribuite dagli utenti attraverso operazioni di compressione e ridimensionamento, rendendo arduo il lavoro di verifica.

Deepfake, conoscerlo per non cadere nella trappola: rischi e potenzialità

Gli occhi non mentono

Di recente, la comunità di ricerca internazionale ha sviluppato vari metodi per il rilevamento della manipolazione del viso. Numerosi gruppi di ricerca, anche in Italia, se ne occupano, e non mancano progetti europei come WeVerify e internazionali come l’iniziativa MediFor finanziata dal Defense Advanced Research Project Agency (DARPA) americano.

Negli Stati Uniti, i ricercatori dell’Università di Buffalo hanno inventato un ingegnoso strumento per individuare immagini fasulle di persone basandosi sull’individuazione di inverosimiglianze entropiche in punti specifici delle immagini, e in particolare negli occhi.

Nelle foto reali di persone, i riflessi degli oggetti esterni nelle cornee di una persona tendevano a essere simili, quindi ad avere entropia uniforme. Nelle immagini deepfake, tuttavia, i riflessi negli occhi dei visi sintetizzati hanno entropia diversa. La rilevazione di questa differenza permette di identificare i volti generati automaticamente. Ovviamente la tecnica non è di uso generale, perché richiede che i soggetti veri delle riprese stessero guardando “qualcosa”. Costituisce comunque un importante primo passo verso l’Individuazione automatica dei luoghi da considerare per l’analisi forense.