fake news

Multimedia forensics, così si smascherano foto e video manipolati: tutte le sfide

Le tecniche per la rivelazione automatica delle manipolazioni di immagini e video evolvono di pari passo con il livello delle falsificazioni, che diventano anch’esse sempre più sofisticate. Ecco quali sono le tecniche utilizzate nel multimedia forensics e le problematiche da affrontare

Pubblicato il 05 Set 2019

Luisa Verdoliva

Professore Associato presso Università degli Studi di Napoli Federico II

Modificare un’immagine o un video digitale non è mai stato così facile. Grazie a potenti software di editing e a tecnologie avanzate di intelligenza artificiale è possibile creare manipolazioni estremamente realistiche. Niente di male se l’intento è ludico. Decisamente problematico se l’obiettivo è diffondere notizie false per fini malevoli. Ecco perché negli ultimi 15 anni la comunità scientifica ha prodotto molte tecniche per la rivelazione automatica delle manipolazioni sia di immagini che di video e si è sviluppato un nuovo ramo del signal processing noto come “multimedia forensics”.

Il problema però non è banale, dato che le falsificazioni diventano anch’esse sempre più sofisticate. Inoltre, un attaccante esperto, dopo aver modificato l’immagine, può mascherare l’attacco con opportuni accorgimenti in modo che certe tecniche di difesa risultino inefficaci. Insomma è una corsa agli armamenti, e non è affatto scontato chi vincerà alla fine.

Indice degli argomenti

Manipolazioni sempre più sofisticate con il deep learning

La manipolazione di immagini, del resto, è antica come la fotografia stessa. Già all’inzio del secolo scorso, ad esempio, Stalin feceva cancellare i suoi nemici politici dalle foto ufficiali dopo averli eliminati fisicamente. Tuttavia con l’avvento della fotografia digitale, e la diffusione di tool di editing semplici e potenti, come Photoshop o Gimp, manipolare immagini è diventato alla portata di tutti. Con pochi semplici comandi si possono copiare e incollare oggetti in una foto, importarli da altre immagini, o coprire oggetti indesiderati. Tutto questo, assieme alla facilità con cui è possibile diffondere i dati multimediali mediante un social network, consente la disseminazione virale di “fake multimedia”, versione potenziata della fake news testuali, con effetti potenzialmente catastrofici. Questo scenario è ulteriormente peggiorato con l’avvento del “deep learning”, una branca dell’intelligenza artificiale, e in particolare con l’uso delle reti neurali convoluzionali (CNN). Con questa nuova tecnologia è possibile effettuare manipolazioni estremamente sofisticate non solo di immagini, ma anche di video. Su internet è già possibile trovare app scaricabili anche gratuitamente, come DeepFake, che permettono di generare contenuti manipolati molto realistici. L’unico requisito è avere elevate quantità di dati a disposizione per addestrare correttamente la rete neurale, ad esempio molti video della persona che si vuole attaccare con DeepFake.

La vera rivoluzione è che queste nuove metodologie richiedono poca a nessuna abilità da parte dell’utente. Infatti, non bisogna modificare manualmente l’illuminazione, ruotare il volto, o perdere ore e ore per rendere la contraffazione quanto più realistica possibile. La rete neurale è in grado di apprendere da sola cosa fare a partire dai dati disponibili. E’ chiaro quindi perché questa tecnologia spaventi così tanto: ha messo alla portata di tutti manipolazioni che prima richiedevano un elevato livello di competenza o un attrezzato set cinematografico.

In particolare, le manipolazioni ai volti sono quelle che hanno una maggiore impatto visivo. E’ possibile infatti sostituire il volto di una persona a quello di un’altra, oppure modificare l’espressione del volto di qualcuno, magari un politico, e con esso anche le parole che sta pronunciando. Tra l’altro, non solo è possibile realizzare manipolazioni localizzate, ma anche generare immagini completamente sintetiche, o modificare gli attributi di immagini vere, come mostrato in figura 1. Il livello di realismo e di sofisticazione in quest’ultimo caso è dovuto ad una tecnologia molto potente che si basa sulle reti generative avversarie, basate su concetti della teoria dei giochi.

Figura 1: A sinistra: un video presente su YouTube con due Nicholas Cage. A destra: due volti generati sinteticamente.

Rivelare le manipolazioni in modo automatico con il multimedia forensics

Alcune manipolazioni si possono scoprire abbastanza facilmente ad occhio nudo, magari perché sono presenti artefatti evidenti oppure situazioni chiaramente irrealistiche. Tuttavia, nella maggior parte dei casi l’analisi visiva è insufficiente e non permette di stabilire se un’immagine è autentica o contraffatta. Negli ultimi 15 anni la comunità scientifica ha prodotto molte tecniche per la rivelazione automatica delle manipolazioni sia di immagini che di video e si è sviluppato un nuovo ramo del signal processing noto come “multimedia forensics”.

Un concetto emerso in numerosi studi è che ogni immagine ha una sua storia digitale, un’insieme di caratteristiche che la contraddistingue, un po’ come i tratti biometrici (impronta digitale, iride, fisionomia) contraddistinguono una persona. In ogni immagine (o video) digitale, anzitutto, sono immerse numerose tracce caratteristiche legate alla fotocamera utilizzata, sia al sensore stesso che alla sequenza di elaborazioni cui ogni immagine è sottoposta all’interno della fotocamera (come la compressione JPEG). Quando l’immagine viene modificata, queste caratteristiche vengono turbate o cancellate, cosa che può essere sfruttata dagli algoritmi di multimedia forensics. Inoltre, il processo di manipolazione può introdurre degli artefatti, spesso difficili da scoprire ad occhio nudo, ma efficacemente sfruttati da algoritmi automatici.

Alcuni tra i metodi più promettenti seguono proprio l’analogia con le analisi biometriche, rivelando le anomalie presenti nelle “impronte digitali” dell’immagine. Questo è il caso delle tecniche basate sulla photo response non-uniformity (PRNU), una specie di impronta digitale della fotocamera dovuta ad imperfezioni nel processo di fabbricazione del sensore. Altre impronte digitali sono in grado di enfatizzare gli artefatti generati dalle elaborazioni interne alla fotocamera (noiseprint) oppure quelli legati al processo di generazione sintetica di immagini mediante reti neurali (GAN fingerprint).

In figura si mostrano alcuni casi in cui queste procedure permettono di localizzare con grande precisione la manipolazione, producendo una “heatmap”, mappa di calore, che indica la probabilità con cui è stata modificata una specifica area dell’immagine.

Figura 2: Immagini manipolate e mappe di localizzazione ottenute mediante la tecnica basata su noiseprint. Le contraffazioni sono chiaramente rivelate nella mappa con colori “caldi”

Anche per la rivelazione di falsi, e non solo per la loro realizzazione, è possibile usare l’intelligenza artificiale. Tecniche recenti si basano anch’esse sulle reti convoluzionali per individuare se l’immagine o il video sono stati modificati. Ovviamente, anche in questo caso bisogna avere a disposizione grandi quantità di dati per l’addestramento.

Tuttavia, con riferimento ad una specifica manipolazione, questi approcci risultano essere di gran lunga più affidabili delle tecniche classiche, garantendo anche una certa robustezza a possibili contromisure. Per esempio, nel caso di DeepFake, ma anche di manipolazioni come Face2Face, è possibile rivelare e localizzare le contraffazioni nei video con elevata accuratezza (approfondisci qui).

Figura 3: Rivelazione di video modificati con Deepfake. A sinistra il video originale: la tecnica forense basata su deep learning non evidenzia anomalie. A destra il falso, nella heatmap la manipolazione è rivelata chiaramente.

Le prossime sfide

I successi delle tecniche di multimedia forensics, soprattutto quelle basate su deep learning, non devono generare false illusioni. Gli attacchi diventano anch’essi sempre più sofisticati e spesso i dati da analizzare sono fortemente deteriorati. Infatti, immagini e video vengono scambiati soprattutto sui social network, dove sono condivisi tra molti utenti e ripetutamente ri-postati, spesso ricompressi, ridotti rispetto alla loro dimensione originale, salvati in formati diversi. Rivelare una manipolazione quando un’immagine è a bassa risoluzione o fortemente compressa è un compito molto difficile perché entrambe queste operazioni tendono a nascondere le tracce della manipolazione.

In uno scenario del genere, però, l’analista forense può sfruttare la presenza di numerose immagini e video simili sul web, effettuando l’analisi congiunta di tutto il materiale presente per individuare la storia che ha subito il dato visuale (filogenia).

Le attività di counter-forensics

Una minaccia ancora maggiore viene dalle attività di “counter-forensics”. Un attaccante esperto, che conosca i principi su cui si basano le tecniche di multimedia forensics, può effettuare a valle della contraffazioni ulteriori elaborazioni per nasconderne le tracce. Questo accade anche per le tecniche basate sulle reti convoluzionali, che sebbene molto efficaci, possono essere rese inefficaci attraverso i cosiddetti “attacchi avversari”. E’ possibile cioè effettuare modifiche impercettibili dell’immagine, aggiungendo rumore ostile opportunamente progettato, per ribaltare del tutto a proprio vantaggio la decisione del metodo forense.

Risulta quindi chiara l’importanza di sviluppare metodologie non solo efficaci, ma anche robuste a possibili elaborazioni di immagini e video, sia quelle “innocenti” cui sono soggette quando vengono condivisi su internet, sia quelli dovuti ad attacchi maliziosi, realizzati ad hoc per colpire uno specifico metodo. Una regola aurea è certamente l’utilizzo di molteplici tecniche forensi, complementari tra loro, che analizzino caratteristiche diverse dell’immagine. In questo gioco di attacco e difesa le cose cambiano di continuo, e non é facile stabilire chi alla lunga vincerà.