Facebook vs data scraping: quando deve considerarsi illecito

L’uso di strumenti di scraping non risulta di per sé illegale: in realtà il comportamento è illecito quando c’è accesso non autorizzato e indiscriminato al database altrui. Ecco l’offensiva di Facebook e alcuni altri casi recenti

Un’operazione di “data scraping”, la raccolta dati realizzata sulla base di un’automazione non autorizzata allo scopo di estrarre dati online, ha colpito nuovamente Facebook.

Prendendo le mosse dagli strumenti di tutela prescelti dal social network in questione, ci si propone di illustrare quali effetti può avere questa tecnica e in quali occasioni assume il carattere dell’illiceità.

Indice degli argomenti

L’azione legale avviata da Facebook

Il nostro approfondimento prende le mosse da una recente notizia riguardante il social network per antonomasia: Facebook ha deciso di agire in giudizio nei confronti di due società a fronte dell’accertata attività di “data scraping” condotta da queste con riferimento ai dati personali dei propri utenti.

Si tratta di BrandTotal Ltd. e Unimania Inc. che, in evidente violazione di termini e condizioni di servizio della piattaforma, hanno implementato un sistema per realizzare un’operazione internazionale di raccolta dati non autorizzata, mediante accesso abusivo, in danno non soltanto di Facebook e delle sue Twitter ed Instagram, ma anche di Youtube, Linkedin ed Amazon.

In particolare, attraverso una serie di estensioni del browser chiamate “UpVoice” e “Ads Feed” è stato possibile eludere le misure di sicurezza già adottate dal social network proprio in seguito ai subiti tentativi di violazione di dati personali: l’installazione e quindi l’utilizzo dell’estensione hanno consentito ai gestori di avere accesso ai profili social e alle informazioni, anche di carattere personale, in questo modo ottenendo una ingente quantità di dati in assenza del consenso degli interessati e dell’autorizzazione della piattaforma ospite.

Non si tratta del primo caso di data scraping per Facebook, dal momento che già nel marzo del 2019 la società aveva intrapreso un’azione legale nei confronti di due sviluppatori che, in quell’occasione, avevano realizzato la raccolta utilizzando applicazioni a quiz, oltre ad estensioni del browser per raschiare le informazioni del profilo e le liste di amici delle persone su Facebook.

Alla luce della periodicità dei tentativi di accesso e violazione dei dati mediante il sistema di scraping, il provider ha scelto di investire le proprie risorse nella creazione di un team tecnico e di appositi strumenti di monitoraggio per la rilevazione ed il blocco di questa specifica attività.

Che cosa si intende per data scraping?

Per comprendere appieno la contestazione di Facebook, occorre anzitutto soffermarsi sul concetto di scraping.

Lo “scraping” è genericamente inteso come una raccolta dati che viene realizzata sulla base di un’automazione non autorizzata allo scopo di estrarre dati da un sito web o da un’applicazione.

Più in particolare, la raccolta può avvenire per mezzo di estensioni o di software che simulano la navigazione effettuata da utenti reali, al fine di filtrare e acquisire informazioni, dunque dati, che non sempre sono di dominio pubblico. Le informazioni acquisite in forma non autorizzata possono essere oggetto di successiva elaborazione, anche al fine di costituire un database strutturato, e possono senz’altro avere natura di dato personale, fino a consentire la creazione di specifici profili personali.

Scraping, gli “illustri” precedenti: Clearview, Trenit, Atrapalo

L’argomento non è nuovo né per Facebook né per gli operatori del settore.

I più recenti episodi di scraping consentono di comprendere come mediante questa forma di automazione sia possibile realizzare differenti risultati, non tutti destinati ad essere condannati per illiceità. Nel seguito, proponiamo alcuni recenti casi.

Clearview AI

Clearview, società di sorveglianza segreta, durante il 2020 ha venduto alle forze dell’ordine uno strumento di riconoscimento facciale “alimentato” da circa tre miliardi di immagini reperite dal web nella totale ignoranza dei singoli interessati e delle piattaforme ospiti.

Le piattaforme colpite dallo scraping sono state in un primo momento indicate come Facebook, YouTube e Venmo, ma un recente data breach subito dalla società ha potuto mettere in evidenza come il database della stessa fosse stato costruito mediante immagini provenienti anche da altri provider.

A seguito della raccolta, il software sviluppato da Clearview, dotato di intelligenza artificiale, ha consentito di ottenere, mediante il caricamento dell’immagine di un sospetto, l’evidenza di tutti i domini presso cui fossero circolate immagini a questi riconducibili.

In questo caso la tecnica di scraping ha colpito anche dati personali: se, da un lato, l’interesse pubblico al perseguimento dei reati ha potuto giustificare la compressione della privacy del sospetto-interessato, dall’altro, si è concretamente realizzato un accesso non autorizzato a dati personali di titolarità di piattaforme terze, peraltro senza che i loro gestori potessero prevederne le modalità di elaborazione, anche per il tramite di algoritmi.

Trenìt

Nel 2019, la società britannica Gobright Media Ltd ha realizzato “Trenìt”, l’applicativo in grado di comparare i prezzi dei biglietti dei treni, attraverso l’utilizzo della tecnica di scraping. Tra i database coinvolti vi era quello di Trenitalia, che rilevava un trasferimento non autorizzato di informazioni come il traffico ferroviario, il costo dei biglietti, gli orari dei treni, fino ai ritardi e alle mappe dei percorsi.

Trenitalia decideva di ricorrere in via d’urgenza al fine di far cessare la pratica posta in essere.

In quella occasione, oggetto di scraping non risultavano dati identificativi di persone fisiche, quanto informazioni di tipo aggregato, in particolare sulle modalità del servizio di trasporto offerto.

Il Tribunale di Roma, chiamato a pronunciarsi, respingeva la richiesta di blocco del servizio, ritenuto che l’estrazione dei dati non potesse dirsi idonea ad arrecare un pregiudizio per il titolare delle informazioni in quanto avvenuta in maniera parziale; inoltre, la comparazione veniva attivata soltanto su richiesta dell’utente e per singoli campi di ricerca, non venendo in alcun modo replicato l’intero contenuto della piattaforma Trenitalia.

La pronuncia ha fornito un criterio per diversificare le tipologie di scraping e dunque valutarne la liceità, quello della quantità dei dati prelevati. Quando i dati sono parziali e su richiesta specifica dell’utente, l’estrapolazione dei dati non può considerarsi un illecito, e ciò a prescindere dal fatto che la banca dati sia di proprietà di un’altra società.

Atrapalo

Altresì recente il caso Ryanair/Atrapalo: la compagnia aerea irlandese low cost Ryanair ha convenuto in giudizio l’agenzia di viaggi online Atrapalo dopo aver appreso che questa, tramite una tecnica di scraping, presentava sul proprio sito differenti pacchetti, consentendo agli utenti di prenotare stanze di hotel, acquistare biglietti aerei, biglietti del treno e prenotare ristoranti, maturando una percentuale su ciascun acquisto.

Dopo tre gradi di giudizio, il Tribunal Supremo è giunto ad affermare la liceità dello screen scraping, dopo un’attenta analisi del concetto di database.

A parere del Tribunale, l’attività di web scraping è lecita qualora effettuata su un dataset che non possiede le caratteristiche per essere definito giuridicamente come banca dati, o che, qualora le possieda, non sia tutelato in base al diritto d’autore.

Profili di illiceità del data scraping

In linea teorica, l’implementazione e la diffusione di strumenti automatizzati come quelli descritti non risultano di per sé illegale, come hanno avuto modo di chiarire le pronunce citate in precedenza.

Per focalizzare in che occasione si versa in una condotta illecita, occorre chiarire che lo scraping può avere ad oggetto dati personali oppure informazioni di natura non personale.

Nel primo caso, considerato che già il solo accesso al dato costituisce ai sensi dell’art. 4 n. 2 del GDPR un trattamento di dati personali, è necessario che detto trattamento avvenga nel rispetto della normativa vigente: questo si traduce nell’obbligo di prestare idonea informativa su finalità e modalità del trattamento nei confronti degli interessati, nella quale dovrà essere indicata, tra le altre cose, la base giuridica del trattamento.

Pertanto, in primo luogo, è necessario che gli utenti vengano resi edotti sulle modalità di utilizzo dei propri dati; dopodiché, nel caso in cui la base giuridica non possa essere alternativa al consenso, sarà necessario ottenere l’autorizzazione al trattamento da parte di ciascun singolo.

L’utilizzo di tecniche di scraping per la realizzazione di scopi commerciali o addirittura di profilazione si rappresenta, quindi, illecito se effettuato in assenza di un valido consenso.

Spesso il ricorso al sistema automatizzato di scraping mira ad aggirare l’ostacolo della cessione di dati tra titolari autonomi del trattamento, condizionata alla garanzia da parte del cedente di aver fornito adeguata informativa e di aver ottenuto il consenso alla comunicazione a terzi.

Ciò detto sull’evidente frizione con la normativa privacy di alcune tecniche di scraping, come si è avuto modo di osservare nei precedenti citati, in realtà il data scraping è potenzialmente idoneo ad integrare una comportamento illecito quando si traduce nell’accesso non autorizzato ed indiscriminato al database altrui: la possibilità di accedere, e pertanto trasferire, informazioni di tipo commerciale, know-how, segreti industriali ed altri dati a valore aggiunto si traduce evidentemente in una violazione di confidenzialità, se non addirittura di diritti autorali, che oltre ad integrare un danno economico per l’attività del soggetto proprietario potrebbe comportare un pregiudizio reputazionale non indifferente in caso di rivelazione di informazioni “scomode”.

La posizione del Garante privacy sul data scraping

L’argomento dello scraping di dati personali è stato affrontato anche dall’Autorità di controllo.

Con il provvedimento n. 4 del 14 gennaio 2016, il Garante per la protezione dei dati personali si è opposto all’utilizzo di software in grado di reperire “in maniera sistematica e indiscriminata” dati e informazioni per realizzare elenchi telefonici.

Nel caso giunto innanzi al Garante, una società gestiva un sito in cui aggregava e rendeva disponibili i numeri di telefonia fissa e altri dati personali raccolti in maniera automatica e sistematica attraverso script impostati in modo tale da raccogliere qualsiasi informazione pubblicata su fonti web accessibili a tutti, per poi metterla a disposizione degli utenti del sito della società.

In particolare, il Garante ha chiarito che la finalità di raccolta in forma di elenco può essere perseguita attraverso l’utilizzo del data base unico (dbu), l’archivio elettronico che raccoglie numeri di telefono e altri dati dei clienti di tutti gli operatori nazionali di telefonia fissa e mobile. In alternativa, sarà necessario, previo rilascio di idonea informativa, acquisire il consenso libero, informato, specifico per detta finalità che si intende perseguire.

Ancora, con il provvedimento in materia di propaganda elettorale e comunicazione politica del 18 aprile 2019, il Garante ha affermato che è necessario ottenere il consenso informato degli interessati per poter utilizzare recapiti telefonici contenuti in elenchi pubblici e quindi per creare liste, effettuare chiamate o inviare sms e mail a scopi propagandistici.

Il riferimento andava anche ai dati reperibili sul web come, ad esempio, quelli presenti nei profili dei social network, quelli ricavati da forum e blog, i dati pubblicati su siti web per specifiche finalità di informazione aziendale, commerciale o associative, fino ai dati raccolti automaticamente con appositi software di scraping.

Il valore dei dati

Il tema riporta all’attenzione il peculiare valore economico dei dati personali raccolti dalle piattaforme online, apertamente riconosciuto dalla sentenza n. 261/2020 del Tar Lazio che vede protagonista proprio Facebook.

Con detta pronuncia, i Giudici hanno ritenuto che i dati personali possano “costituire un asset” disponibile in senso negoziale, suscettibile di sfruttamento economico e, quindi, idoneo ad assurgere alla funzione di “controprestazione” in senso tecnico di un contratto, fino a poter essere considerati possibile oggetto di un contratto di compravendita.

I dati – ha affermato il Tribunale amministrativo – costituiscono un “patrimonio informativo” per le piattaforme solo apparentemente gratuite che, impiegato dagli attori del mercato ad uso commerciale e per finalità di marketing, assume un valore economico idoneo a ritenere sussistente un rapporto “di consumo” business to consumer, con conseguente applicabilità della normativa consumeristica ai social network.

A ben vedere, si può parlare di patrimonialità del dato personale, che ha già trovato conoscimento da parte del Network europeo di autorità nazionali per la cooperazione della tutela dei consumatori di cui al Regolamento 2006/2004/CE: in occasione della valutazione in ordine alla ricorrenza nelle Condizioni d’uso di Facebook delle clausole abusive proprie dei contratti con i consumatori (art. 33 Codice del consumo), il Network ha affermato che la direttiva deve intendersi applicata anche a quei contratti in cui il contenuto e la profilazione generati dal consumatore rappresentano la controprestazione alternativa al denaro.

Considerato che le collaborazioni commerciali intrattenute dai social network con partner terzi sono alimentate dal volume di dati personali da questo raccolti, potendosi escludere, quindi, la gratuità del servizio, ben può comprendersi il danno economico configurabile per un social network in occasione di una attività di scraping.