il caso

Riconoscimento facciale, ecco i database che fanno tremare la nostra privacy

La tecnologia di riconoscimento facciale sta dando origine ad un ecosistema di decine di database dove i volti di persone vengono raccolti, anche a loro insaputa, da aziende e ricercatori. In Europa il GDPR fornisce un quadro normativo che protegge i cittadini dagli abusi, ma lo scenario attuale richiede un ulteriore sforzo

Pubblicato il 01 Ago 2019

Danilo Benedetti

Docente di tecnologie avanzate presso LUMSA

Negli Stati Uniti il dibattito già in corso sulla liceità ed i limiti all’utilizzo delle tecnologie di riconoscimento facciale si è arricchito di un nuovo capitolo, relativo alla presenza, in database più o meno pubblici, dei volti di persone inconsapevoli di esservi finite.

La tecnologia di riconoscimento facciale, con le sue enormi possibilità di applicazione, sta dando origine ad un intero ecosistema di elementi che includono decine di database dove i volti di persone vengono raccolti, anche a loro insaputa, da aziende e ricercatori che poi in alcuni casi, le condividono con organizzazioni localizzate in altre parti del mondo.

Gruppi e singoli attivisti della difesa della privacy hanno individuato, negli USA, database popolati con immagini provenienti da social network, siti web di foto, servizi di appuntamenti e da telecamere collocate in zone ad alto traffico, ad esempio nei ristoranti. Tali basi di dati possono arrivare a contenere fino a 10 milioni di volti per singolo database, come vedremo più avanti.

Questa bulimica raccolta di volti è guidata dalla gara per sviluppare sistemi di riconoscimento facciale sempre migliori. Si tratta, come ben sa il lettore, di tecnologie basate su sistemi di reti neurali, che per funzionare hanno bisogno di una fase di apprendimento, realizzata proprio grazie a grandi database di immagini. Una delle vie per migliorare le prestazioni e l’esattezza del riconoscimento consiste infatti nel disporre di un database di apprendimento contenente più “esempi” possibili.

I giganti della tecnologia come Facebook e Google hanno probabilmente accumulato gli insiemi di dati più consistenti, che vengono mantenuti privati in quanto rappresentano un importante asset aziendale nella corsa allo sviluppo della migliore IA. Ma altre società e università hanno ampiamente condiviso le loro immagini per l’addestramento dell’intelligenza artificiale con ricercatori, governi e imprese private in Australia, Cina, India, Singapore e Svizzera, secondo quanto scoperto da accademici, attivisti e giornalisti, a volte senza essere troppo scrupolose circa le modalità di raccolta dei volti.

Indice degli argomenti

Il volto come dato personale e gli abusi del riconoscimento facciale

Infatti, benché sia ormai oltre un decennio che le aziende e i laboratori di ricerca raccolgono le immagini di volti, elemento chiave per lo sviluppo della tecnologia di riconoscimento delle facce, quel che è emerge però è che spesso le persone non sanno che i loro volti vi sono inclusi. E anche se solo molto di rado i volti sono associati a dei nomi, le persone possono comunque essere riconosciute data l’unicità di ogni viso. Da questo punto di vista, il volto costituisce senza dubbio un dato personale, nell’accezione che ad esempio ne da il Garante della Privacy^[1].

Questa proliferazione di sistemi di raccolta di fotografie dei volti solleva perplessità circa i potenziali impatti di medio-lungo periodo sui diritti delle persone, perché le tecnologie che queste raccolte permettono di abilitare vengono utilizzate in modi sempre più invasivi. Ad esempio, negli USA è stato rivelato che i funzionari dell’immigrazione e delle autorità doganali (ICE) hanno utilizzato la tecnologia di riconoscimento facciale per scansionare le foto degli automobilisti e per identificare gli immigrati privi di documenti^[2]. Anche l’F.B.I. utilizza da oltre un decennio tali sistemi per confrontare la patente di guida e le foto dei visti con i volti di sospetti criminali, secondo un rapporto rilasciato dal Government Accountability Office il mese scorso^[3].

Questi utilizzi hanno dei risvolti preoccupanti, soprattutto per quanto riguarda l’elevato tasso di falsi positivi, oltre alla ormai ben nota “polarizzazione” dei risultati, con percentuali di insuccesso nel riconoscimento molto più alte, ad esempio, fra le persone di colore^[4].

Un ulteriore elemento di preoccupazione è costituito dalla possibilità che le immagini possano essere utilizzate in modo improprio. Tale (tardiva) considerazione ha spinto alcune aziende e università, tra cui Microsoft e Stanford, a rimuovere i database di volti da Internet a causa di segnalazioni inerenti violazioni di privacy^[5]. Ma dato che le immagini erano già così ben distribuite, è probabile che siano ancora utilizzate in altre parti del mondo.

Nel caso di Microsoft la raccolta denominata MS Celeb includeva oltre 10 milioni di immagini di oltre 100.000 persone. MS Celeb era apparentemente un database di celebrità, le cui immagini sono considerate di dominio pubblico. Ma nel database erano inserite anche foto di altre persone, ad esempio di attivisti per la privacy e la sicurezza, accademici e altri, come ad esempio Shoshana Zuboff, l’autrice del libro “L’età del capitalismo di sorveglianza”. MS Celeb è stato distribuito a livello internazionale, prima di essere rimosso questa primavera dopo molte segnalazioni circa la presenza non autorizzata di volti di persone “non celebri”.

I casi Brainwash e Duke MTMC

Un esempio che mostra come la ricerca possa muoversi commettendo – si spera inconsapevolmente – delle enormi violazioni alla privacy, è dato dalla storia del database Brainwash, creato dalla Stanford University nel 2014. Il nome Brainwash deriva da un omonimo caffè di San Francisco in cui i ricercatori avevano inserito una fotocamera. In tre giorni, la fotocamera ha catturato più di 10.000 immagini, che sono state inserite nel database, ma non è chiaro se le persone fotografate fossero o meno al corrente dell’esperimento.

Successivamente i ricercatori di Stanford hanno condiviso il database, che ha potuto così essere utilizzato in Cina da accademici associati alla National University of Defense Technology e a società di intelligenza artificiale che forniscono la tecnologia di sorveglianza per il monitoraggio, tra gli altri, di alcune minoranze etniche cinesi.

La base dati del progetto Brainwash è stata rimossa dal sito web originario nel giugno scorso, dopo che un attivista tedesco che monitora l’uso di queste basi di dati attraverso un sito web chiamato MegaPixels, ha attirato l’attenzione su di esso. Anche i collegamenti tra Brainwash e articoli che descrivono il lavoro per costruire sistemi di IA presso l’Università Nazionale della Tecnologia della Difesa in Cina sono stati cancellati, secondo la documentazione presente sul sito MegaPixels^[6].

Un incidente analogo è accaduto anche alla Duke University, dove nel 2014 è stato attivato un database che raccoglieva immagini grazie ad otto telecamere posizionate nel campus. secondo un articolo del 2016 pubblicato nell’ambito della Conferenza europea sulla Computer Vision^[7]. Benché le telecamere fossero visibili e contrassegnate, permettendo eventualmente agli studenti di richiedere la cancellazione dei video che li riguardavano, non è chiaro quanti degli oltre 2000 studenti ripresi dalle telecamere fossero al corrente dell’esperimento e fossero al corrente di questa possibilità di rimozione.

I ricercatori del Duke alla fine hanno raccolto oltre due milioni di video frame e hanno reso pubblico il database (Duke MTMC). In seguito questa fonte di dati è stata citata in una miriade di documenti sull’intelligenza artificiale negli Stati Uniti, in Cina, in Giappone, in Gran Bretagna solo per citare alcuni paesi.

Gli autori dello studio hanno dichiarato che il gruppo di ricerca non era interessato al riconoscimento facciale e che il MTMC difficilmente avrebbe potuto essere utile per tale tecnologia a causa della scarsa illuminazione e risoluzione dei volti stessi, mentre lo scopo era sviluppare e testare algoritmi informatici che analizzano movimenti complessi in video.

Un caso ancora più inquietante, che potrebbe avere ricadute anche dal punto di vista delle violazioni alla GDPR è riportato dal New York Times^[8], secondo cui Matt Zeiler, fondatore e amministratore delegato della start-up di intelligenza artificiale Clarifai, ha dichiarato che la propria azienda ha costruito un database con le immagini di OkCupid, un sito di dating attivo anche in Europa. Secondo la sua versione, Clarifai ha avuto accesso alle foto di OkCupid perché alcuni dei fondatori del sito di incontri erano anche investitori di Clarifai. La tecnologia di Clarifai è stata poi venduta a governi stranieri, enti militari e dipartimenti di polizia.

I rischi reali del caso FaceApp

Non bisogna però trascurare che, se da un lato questi esempi costituiscono dei precedenti inquietanti, dall’altro sono gli stessi utenti che spesso contribuiscono volontariamente alla realizzazione di simili database. Esempi sono, oltre ai già citati casi di Facebook e Google, anche il recentissimo Faceapp, l’applicazione che, grazie all’intelligenza artificiale, permette di alterare la foto di un volto per mostrarne una versione artificialmente ringiovanita oppure invecchiata. Grazie alla viralità della Face App challenge, in un breve periodo l’azienda Russa che gestisce l’applicazione ha potuto creare un database di oltre 150 milioni di volti.

Benché il trattamento di queste informazioni ricada pienamente nel campo di applicazione della GDPR, è anche evidente che la nazionalità dell’azienda e le sue dimensioni ridotte la rendono relativamente impermeabile ad eventuali ispezioni e sanzioni da parte delle Autorità Nazionali della Privacy dell’Unione, di fatto aprendo la porta ad ogni tipo di scenario per quanto riguarda il futuro utilizzo (trattamento) di questa mole di dati personali.

I rischi non sono tanto relativi alla possibilità che questo database, ed i database di volti in generale, possano essere utilizzati per addestrare una rete neurale a riconoscere le singole persone (la presenza di una singola foto di una persona rende infatti estremamente inefficace il successivo riconoscimento), quanto che tali immagini possano venire utilizzate per altri scopi, ad esempio:

Modifica del volto: probabilmente l’uso più ovvio sarebbe per FaceApp quello di usare le informazioni per migliorare i propri algoritmi. Il database potrebbe anche essere utilizzato per aggiungere nuove funzioni di modifica del volto all’applicazione.
Analisi del viso: mentre il riconoscimento del volto permette di identificare individui specifici, l’analisi del viso mira al riconoscimento di specifiche caratteristiche, come il sesso, l’età o la provenienza etnica. Molti sistemi commerciali utilizzati per questo tipo di analisi sono addestrati utilizzando database open source molto simili a quello che FaceApp ha creato.
Rilevamento del volto: la capacità di identificare la presenza di uno o più volti in un’immagine e le relative posizioni all’interno dell’immagine stessa. Anche quest sistemi possono beneficiare di un ampio database di volti.
Generazione di deepfake: un database di questo tipo potrebbe essere utilizzato per realizzare o migliorare reti neurali capaci di creare volti di persone che non esistono, il che provocherebbe tutta una serie di problemi. La generazione di volti falsi sarebbe già stata usata a fini spionistici, per esempio^[9].

Quest’ultimo esempio è particolarmente interessante. Ormai sono circa tre anni che le ricerche sulla sicurezza indicano il prossimo arrivo di attacchi basati sull’IA, e forse un primo caso può essere indicato: è stato recentemente segnalato un caso in cui una presunta spia ha cercato di “agganciare” i potenziali bersagli su Linkedin, utilizzando un falso profilo e un volto “sintetico”, ovvero creato da un sistema di Intelligenza artificiale^[10].

In Europa il GDPR fornisce un quadro normativo che protegge i cittadini da questo genere di abusi, grazie ad accorgimenti quali il consenso esplicito al trattamento dei dati personali, per indicare solo il più immediatamente evidente. Ma lo scenario attuale, in cui le informazioni sono trattate su scala globale da attori o organizzazioni non europee, sembra richiedere uno sforzo normativo ulteriore, che possa definire uno scenario ispettivo e sanzionatorio che coinvolga i principali Stati e non la sola Unione europea. Ma uno futuro in cui gli Stati possano davvero convergere su un simile obiettivo sembra ancora molto lontano.

______________________________________________________________________________

“Sono dati personali le informazioni che identificano o rendono identificabile, direttamente o indirettamente, una persona fisica e che possono fornire informazioni sulle sue caratteristiche, le sue abitudini, il suo stile di vita, le sue relazioni personali, il suo stato di salute, la sua situazione economica, ecc..”. Definizione del Garante per la Protezione dei dati personali, reperibile su Internet. ↑
“ICE Used Facial Recognition to Mine State Driver’s License Databases”, New York Times del 7 luglio 2019 ↑
Il report è reperibile qui: https://www.gao.gov/products/GAO-19-579T ↑
Si veda ad esempio il mio articolo su Agenda Digitale “Riconoscimento automatico del volto: i rischi della tecnologia” ↑
“Microsoft quietly deletes largest public face recognition data set”, reperibile sul Financial Time del 6 giugno 2019 ↑
Si veda: https://megapixels.cc/datasets/brainwash/ ↑
Ristani E., Tomasi C. “Features for Multi-Target Multi-Camera Tracking and Re-Identification”, reperibile su Arxiv. ↑
“Facial Recognition Tech Is Growing Stronger, Thanks to Your Face” sul New York Times del 13 luglio 2019 ↑
Si veda ad esempio questo articolo di “The Verge”: https://www.theverge.com/2019/6/13/18677341/ai-generated-fake-faces-spy-linked-in-contacts-associated-press ↑
↑