la terza via

Botnet “buoni” per misurare il web: come usarli per la ricerca

Effettuare una misurazione del web a fini di ricerca o normativa richiede l’utilizzo di bot, in “flotte” automatizzate o installate sui browser. Entrambi gli approcci presentano dei limiti. Ma c’è una terza via, che richiede meno risorse ed elimina i rischi lato utente: l’uso di botnet di navigazione. Ecco come funzionano

26 Ott 2021
Laura Brandimarte

Assistant Professor of Management Information Systems, University of Arizona

light-digital-texture

Immaginate di essere un accademico che desidera verificare che tutti i siti web siano conformi alle norme di trasparenza imposte dall’Unione Europea tramite il General Data Protection Regulation (GDPR) [1]; o studiare come gli annunci politici siano mirati a determinati utenti su Facebook (ad esempio in questo progetto); o come molti siti web usino i cosiddetti “dark patterns” per portare i visitatori a decisioni che si sentirebbero ingannati o costretti a prendere se fossero pienamente informati sul modo in cui funziona il sito [2].

Oppure immaginate di non essere un ricercatore ma un legislatore, e di voler mantenere una visione aggiornata, magari anche in tempo reale, delle tecniche di targetizzazione e personalizzazione utilizzate dai network pubblicitari, tecniche che sono basate sul tracciamento della navigazione degli utenti su Internet. Per tutte queste attività è necessario misurare diverse caratteristiche del web: la presenza di documentazione sul trattamento dei dati, di pubblicità o messaggi personalizzati, le pratiche di piazzamento di cookies per tracciare la navigazione online degli utenti, e così via.

Come combattere le pratiche commerciali ingannevoli: strategie e strumenti

Due approcci alla misurazione del web

Due sono gli approcci alla misurazione del web disponibili per questo tipo di obiettivi: creare e gestire una flotta di browser automatizzati (bot) con qualche forma di strumentazione che supporti la misurazione, oppure convincere un gran numero di utenti a permettervi di installare sui loro browser un’estensione (come adobserver.org/) o ad utilizzare direttamente un browser speciale (come themarkup.org/citizen-browser) in grado di effettuare automaticamente tutte le operazioni di tracciamento.

WHITEPAPER
Gestione dei contratti e GDPR: guida all’esternalizzazione di attività dei dati personali
Legal
Privacy

Quanto alla prima opzione, creare una flotta di bot su misura per ogni studio richiede molte risorse (in termini di tempo ed impegno) ed è un approccio soggetto ad errori. Anche adattare un bot esistente è spesso una strategia sconsigliabile, in quanto offre un vantaggio minimo se il codice non è stato mantenuto, è difficile da capire o modificare, o non si ricostruisce senza conoscenze speciali [3]. Per esempio, aggirare il rilevamento dei bot è una sfida sempre più difficile, poiché i siti possono bloccare o modificare il loro comportamento quando individuano un bot tra i loro visitatori.

A volte questo blocco è legittimo, poiché i bot possono essere usati per scopi nefasti, come lanciare un attacco DoS (Denial of Service) distribuito, ovvero un attacco che inonda un servizio web di tanto traffico da renderlo indisponibile; o creare artificialmente scarsità di un prodotto, accumulandolo per poi rivenderlo a prezzi più alti. Altre volte, però, i bot sono “benevoli”: la ricerca, l’auditing ed altri progetti legittimi hanno bisogno di aggirare il blocco automatico dei bot, e i continui miglioramenti nelle tattiche di blocco rappresentano un ostacolo considerevole.

La seconda opzione, ovvero convincere gli utenti ad installare estensioni o browser dedicati per uno studio di misurazione, presenta anch’essa i suoi limiti, perché rallenta la navigazione degli utenti ed aggiunge un rischio di privacy personale, in quanto tutta l’attività online dell’utente viene di fatto monitorata da chi ha programmato e distribuito l’estensione o il browser.

La terza opzione: i botnet di misurazione

Proponiamo qui una terza opzione che combina i benefici dei bot con quelli della strumentazione del browser dell’utente, evitando allo stesso tempo molti dei loro svantaggi. In questo approccio, che noi chiamiamo measurement botnet, o rete di bot per la misurazione, gli utenti lasciano che il proprio computer gestisca (pressoché senza intervento alcuno dell’utente stesso) un bot, in quella che così diventa una rete riutilizzabile e distribuita. Per far funzionare questo approccio, agli utenti viene richiesto di installare un programma che gestisce il loro bot, dandogli specifiche istruzioni su quali siti web visitare e cosa misurare esattamente – istruzioni che, ovviamente, possono essere modificate a seconda delle esigenze dello studio. In questo modo, un ricercatore, un regolatore, un revisore o un altro investigatore può semplicemente dichiarare di cosa necessita per il suo studio e farlo eseguire dai bot sulla rete distribuita di computer degli utenti.

I vantaggi dei botnet di misurazione

I botnet di misurazione richiedono meno risorse rispetto alla costruzione di un nuovo bot o all’adattamento di un bot esistente ed eliminano il rischio di privacy per i singoli utenti, i quali si limitano ad ospitare sul proprio computer un bot il cui comportamento è completamente indipendente dalla loro attività di navigazione su Internet, ed il bot funziona solo quando l’utente non ha necessità di utilizzare al massimo le sue risorse di rete e di elaborazione. Allo stesso tempo, i botnet fanno sì che si instauri una sorta di intesa tra gli utenti e tra utenti e ricercatori impegnati nel progetto a cui i bot contribuiscono. Il nostro approccio, infatti, prevede che i ricercatori descrivano i loro progetti in fase di iscrizione alla rete, cosicché i singoli utenti possano scegliere a quali progetti contribuire ed essere ricompensati per come il loro bot contribuisce ai progetti di ricerca. La ricompensa può consistere in un semplice segno di riconoscimento, come un badge per il superamento di un blocco dei bot o per il completamento di un progetto, ma dà motivazione e senso di appartenenza ad un gruppo che ha obiettivi condivisi. È il modello dei progetti Folding@home, che eseguono utili simulazioni di ripiegamento delle proteine sui computer degli utenti durante i periodi di quiescenza ed incoraggiano la connessione tra la comunità di partecipanti e gli obiettivi del progetto (si veda ad esempio la sezione “Share your story” del sito dedicato).

Come può, però, una rete distribuita di bot come quella appena descritta eludere i blocchi prima menzionati che molti siti web incorporano nel loro codice? Ad esempio, se uno dei bot della rete visitasse il sito di Twitter, molto probabilmente verrebbe identificato come visitatore non umano, e gli verrebbe presentato un CAPTCHA, cioè uno di quei puzzle relativamente semplici da risolvere per una persona (ad esempio, “seleziona tutte le immagini che contengono un semaforo”) ma tuttora impossibili da risolvere in maniera automatizzata. La nostra soluzione è semplice: il bot lascia il compito temporaneamente irrisolto, visita altri siti, magari accumulando due o tre CAPTCHA simili, e mentre l’utente non appare impegnato in altre attività oppure a cadenza regolare programmabile dall’utente stesso (ad esempio, tutte le sere ad un orario prestabilito), gli manda una notifica sullo schermo chiedendo di risolverli tutti insieme, così da poter accedere al sito finora bloccato e compiere tutte le misurazioni che era stato programmato a fare.

Come usare i botnet di misurazione

L’approccio che proponiamo può essere utilizzato per vari tipi di misurazione. Ad esempio, alcuni ricercatori [4] hanno studiato il fenomeno della personalizzazione delle pubblicità evidenziandone gli effetti discriminatori (certamente non intenzionali ma reali): per motivi legati al maggior numero di uomini che donne ai vertici aziendali, e quindi alla maggiore probabilità che un uomo si interessi a corsi di alta formazione manageriale, le pubblicità per questo tipo di corsi di fatto vengono mostrate quasi esclusivamente a uomini, risultando in una discriminazione di genere. Per scoprire questi effetti indesiderati della targetizzazione, il gruppo di ricercatori ha dovuto creare migliaia di account finti, alcuni con genere dichiarato maschile, altri femminile, ed osservare quali pubblicità ciascun account ricevesse. Un processo piuttosto macchinoso che invece potrebbe facilmente essere automatizzato grazie ad una rete distribuita di bot come quella da noi proposta.

E ancora, il nostro approccio potrebbe essere usato come un sistema di “early warning” o di allerta precoce per il rilevamento di mis/disinformazione, che sappiamo si diffonde più ampiamente e più velocemente delle informazioni vere [5]. Per esempio, programmando i bot a seguire i principali influencers sui social media, uno studio che utilizza i botnet di misurazione potrebbe rilevare in tempo pressoché reale la diffusione virale delle fake news.

Come si può dedurre dalla diversità dei contesti che abbiamo menzionato, il nostro sistema è altamente flessibile e può essere facilmente adattato a una varietà di paradigmi di sperimentazione diversi. Mettiamo i bot “buoni” a servizio della società, della scienza e della regolamentazione!

Bibliografia

[1] G. Johnson, S. Shriver, e S. Goldberg, “Privacy & Market Concentration: Intended & Unintended Consequences of the GDPR,” SSRN Scholarly Paper ID 3477686, Social Science Research Network, Rochester, NY, gennaio 2021.

[2] A. Mathur, G. Acar, M. J. Friedman, E. Lucherini, J. Mayer, M. Chetty e A. Narayanan, “Modelli oscuri su scala: Finds from a Crawl of 11K Shopping Websites”, Proceedings of the ACM on Human-Computer Interaction, vol. 3, no. CSCW, p. 81, 2019.

[3] C. Collberg e T. A. Proebsting, “Repeatability in computer systems research”, Communications of the ACM, vol. 59, no. 3, pp. 62-69, 2016. Editore: ACM New York, NY, USA.

[4] M. C. Tschantz, A. Datta, A. Datta, e J. M. Wing, “A methodology for information flow experiments,” in Computer Security Foundations Symposium (CSF), 2015 IEEE 28th, pp. 554-568, IEEE, 2015.

[5] S. Vosoughi, D. Roy, e S, Aral, “The spread of true and false news online.” Science 359, no. 6380 (2018): 1146-1151.

@RIPRODUZIONE RISERVATA

Speciale PNRR

Tutti
Incentivi
PA
Sostemibilità
Analisi
Formazione
Salute digitale
Sicurezza
Sostenibilità
Digital Economy
Formazione
Trasferimento tecnologico, il Mise mette sul piatto 7,5 milioni
Strategie
PSN e Strategia Cloud Italia: a che punto siamo e come supportare la PA in questo percorso
Dispersione idrica
Siccità: AI e analisi dei dati possono ridurre gli sprechi d’acqua. Ecco gli interventi necessari
PNRR
Cloud, firmato il contratto per l’avvio di lavori del Polo strategico
Formazione
Competenze digitali, stanziati 48 milioni per gli Istituti tecnologici superiori
Iniziative
Digitalizzazione delle reti idriche: oltre 600 milioni per 21 progetti
Competenze e competitività
PNRR, così i fondi UE possono rilanciare la ricerca e l’Università
Finanziamenti
PNRR, si sbloccano i fondi per l’agrisolare
Sanità post-pandemica
PNRR, Missione Salute: a che punto siamo e cosa resta da fare
Strategie
Sovranità e autonomia tecnologica nazionale: come avviare un processo virtuoso e sostenibile
La relazione
Pnrr e PA digitale, l’alert della Corte dei conti su execution e capacità di spesa
L'editoriale
Elezioni 2022, la sfida digitale ai margini del dibattito politico
Strategie
Digitale, il monito di I-Com: “Senza riforme Pnrr inefficace”
Transizione digitale
Pnrr: arrivano 321 milioni per cloud dei Comuni, spazio e mobilità innovativa
L'analisi I-COM
Il PNRR alla prova delle elezioni: come usare bene le risorse e centrare gli obiettivi digitali
Cineca
Quantum computing, una svolta per la ricerca: lo scenario europeo e i progetti in corso
L'indice europeo
Desi, l’Italia scala due posizioni grazie a fibra e 5G. Ma è (ancora) allarme competenze
L'approfondimento
PNRR 2, ecco tutte le misure per cittadini e imprese: portale sommerso, codice crisi d’impresa e sismabonus, cosa cambia
Servizi digitali
PNRR e trasformazione digitale: ecco gli investimenti e le riforme previste per la digitalizzazione della PA
Legal health
Lo spazio europeo dei dati sanitari: come circoleranno le informazioni sulla salute nell’Unione Europea
Servizi digitali
PNRR e PA digitale: non dimentichiamo la dematerializzazione
Digital Healthcare transformation
La trasformazione digitale degli ospedali
Governance digitale
PA digitale, è la volta buona? Così misure e risorse del PNRR possono fare la differenza
Servizi digitali
Comuni e digitale, come usare il PNRR senza sbagliare
La survey
Pnrr e digitale accoppiata vincente per il 70% delle pmi italiane
Missione salute
Fascicolo Sanitario Elettronico alla prova del PNRR: limiti, rischi e opportunità
Servizi pubblici
PNRR: come diventeranno i siti dei comuni italiani grazie alle nuove risorse
Skill gap
PNRR, la banda ultra larga crea 20.000 nuovi posti di lavoro
Il Piano
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUMPA2022
PNRR e trasformazione digitale: rivedi i Talk di FORUM PA 2022 in collaborazione con le aziende partner
I contratti
Avio, 340 milioni dal Pnrr per i nuovi propulsori a metano
Next Generation EU
PNRR, a che punto siamo e cosa possono aspettarsi le aziende private
Fondi
Operativo il nuovo portale del MISE con tutti i finanziamenti per le imprese
Servizi comunali
Il PNRR occasione unica per i Comuni digitali: strumenti e risorse per enti e cittadini
Healthcare data platform
PNRR dalla teoria alla pratica: tecnologie e soluzioni per l’innovazione in Sanità
Skill
Competenze digitali, partono le Reti di facilitazione
Gli obiettivi
Scuola 4.0, PNRR ultima chance: ecco come cambierà il sistema formativo
Sistema Paese
PNRR 2, è il turno della space economy
FORUM PA 2022
FORUM PA 2022: la maturità digitale dei comuni italiani rispetto al PNRR
Analisi
PNRR: dalla Ricerca all’impresa, una sfida da cogliere insieme
Innovazione
Pnrr, il Dipartimento per la Trasformazione digitale si riorganizza
FORUM PA 2022
PA verde e sostenibile: il ruolo di PNRR, PNIEC, energy management e green public procurement
Analisi
PNRR, Comuni e digitalizzazione: tutto su fondi e opportunità, in meno di 3 minuti. Guarda il video!
Rapporti
Competenze digitali e servizi automatizzati pilastri del piano Inps
Analisi
Attuazione del PNRR: il dialogo necessario tra istituzioni e società civile. Rivedi lo Scenario di FORUM PA 2022
Progetti
Pnrr, fondi per il Politecnico di Torino. Fra i progetti anche IS4Aerospace
Analisi
PNRR, Colao fa il punto sulla transizione digitale dell’Italia: «In linea con tutte le scadenze»
La Svolta
Ict, Istat “riclassifica” i professionisti. Via anche al catalogo dati sul Pnrr
Analisi
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUM PA 2022
Ecosistema territoriale sostenibile: l’Emilia Romagna tra FESR e PNRR
Il Piano
Innovazione, il Mise “centra” gli obiettivi Pnrr: attivati 17,5 miliardi
Analisi
PNRR: raggiunti gli obiettivi per il primo semestre 2022. Il punto e qualche riflessione
Analisi
PNRR: dal dialogo tra PA e società civile passa il corretto monitoraggio dei risultati, tra collaborazione e identità dei luoghi
Webinar
Comuni e PNRR: un focus sui bandi attivi o in pubblicazione
Analisi
Formazione 4.0: cos’è e come funziona il credito d’imposta
PA e Sicurezza
PA e sicurezza informatica: il ruolo dei territori di fronte alle sfide della digitalizzazione
PA e sicurezza
PNRR e servizi pubblici digitali: sfide e opportunità per Comuni e Città metropolitane
Water management
Water management in Italia: verso una transizione “smart” e “circular” 
LE RISORSE
Transizione digitale, Simest apre i fondi Pnrr alle medie imprese
Prospettive
Turismo, cultura e digital: come spendere bene le risorse del PNRR
Analisi
Smart City: quale contributo alla transizione ecologica
Decarbonizzazione
Idrogeno verde, 450 milioni € di investimenti PNRR, Cingolani firma
Unioncamere
PNRR, imprese in ritardo: ecco come le Camere di commercio possono aiutare
I fondi
Industria 4.0: solo un’impresa su tre pronta a salire sul treno Pnrr
Formazione
Trasferimento tecnologico, il Mise mette sul piatto 7,5 milioni
Strategie
PSN e Strategia Cloud Italia: a che punto siamo e come supportare la PA in questo percorso
Dispersione idrica
Siccità: AI e analisi dei dati possono ridurre gli sprechi d’acqua. Ecco gli interventi necessari
PNRR
Cloud, firmato il contratto per l’avvio di lavori del Polo strategico
Formazione
Competenze digitali, stanziati 48 milioni per gli Istituti tecnologici superiori
Iniziative
Digitalizzazione delle reti idriche: oltre 600 milioni per 21 progetti
Competenze e competitività
PNRR, così i fondi UE possono rilanciare la ricerca e l’Università
Finanziamenti
PNRR, si sbloccano i fondi per l’agrisolare
Sanità post-pandemica
PNRR, Missione Salute: a che punto siamo e cosa resta da fare
Strategie
Sovranità e autonomia tecnologica nazionale: come avviare un processo virtuoso e sostenibile
La relazione
Pnrr e PA digitale, l’alert della Corte dei conti su execution e capacità di spesa
L'editoriale
Elezioni 2022, la sfida digitale ai margini del dibattito politico
Strategie
Digitale, il monito di I-Com: “Senza riforme Pnrr inefficace”
Transizione digitale
Pnrr: arrivano 321 milioni per cloud dei Comuni, spazio e mobilità innovativa
L'analisi I-COM
Il PNRR alla prova delle elezioni: come usare bene le risorse e centrare gli obiettivi digitali
Cineca
Quantum computing, una svolta per la ricerca: lo scenario europeo e i progetti in corso
L'indice europeo
Desi, l’Italia scala due posizioni grazie a fibra e 5G. Ma è (ancora) allarme competenze
L'approfondimento
PNRR 2, ecco tutte le misure per cittadini e imprese: portale sommerso, codice crisi d’impresa e sismabonus, cosa cambia
Servizi digitali
PNRR e trasformazione digitale: ecco gli investimenti e le riforme previste per la digitalizzazione della PA
Legal health
Lo spazio europeo dei dati sanitari: come circoleranno le informazioni sulla salute nell’Unione Europea
Servizi digitali
PNRR e PA digitale: non dimentichiamo la dematerializzazione
Digital Healthcare transformation
La trasformazione digitale degli ospedali
Governance digitale
PA digitale, è la volta buona? Così misure e risorse del PNRR possono fare la differenza
Servizi digitali
Comuni e digitale, come usare il PNRR senza sbagliare
La survey
Pnrr e digitale accoppiata vincente per il 70% delle pmi italiane
Missione salute
Fascicolo Sanitario Elettronico alla prova del PNRR: limiti, rischi e opportunità
Servizi pubblici
PNRR: come diventeranno i siti dei comuni italiani grazie alle nuove risorse
Skill gap
PNRR, la banda ultra larga crea 20.000 nuovi posti di lavoro
Il Piano
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUMPA2022
PNRR e trasformazione digitale: rivedi i Talk di FORUM PA 2022 in collaborazione con le aziende partner
I contratti
Avio, 340 milioni dal Pnrr per i nuovi propulsori a metano
Next Generation EU
PNRR, a che punto siamo e cosa possono aspettarsi le aziende private
Fondi
Operativo il nuovo portale del MISE con tutti i finanziamenti per le imprese
Servizi comunali
Il PNRR occasione unica per i Comuni digitali: strumenti e risorse per enti e cittadini
Healthcare data platform
PNRR dalla teoria alla pratica: tecnologie e soluzioni per l’innovazione in Sanità
Skill
Competenze digitali, partono le Reti di facilitazione
Gli obiettivi
Scuola 4.0, PNRR ultima chance: ecco come cambierà il sistema formativo
Sistema Paese
PNRR 2, è il turno della space economy
FORUM PA 2022
FORUM PA 2022: la maturità digitale dei comuni italiani rispetto al PNRR
Analisi
PNRR: dalla Ricerca all’impresa, una sfida da cogliere insieme
Innovazione
Pnrr, il Dipartimento per la Trasformazione digitale si riorganizza
FORUM PA 2022
PA verde e sostenibile: il ruolo di PNRR, PNIEC, energy management e green public procurement
Analisi
PNRR, Comuni e digitalizzazione: tutto su fondi e opportunità, in meno di 3 minuti. Guarda il video!
Rapporti
Competenze digitali e servizi automatizzati pilastri del piano Inps
Analisi
Attuazione del PNRR: il dialogo necessario tra istituzioni e società civile. Rivedi lo Scenario di FORUM PA 2022
Progetti
Pnrr, fondi per il Politecnico di Torino. Fra i progetti anche IS4Aerospace
Analisi
PNRR, Colao fa il punto sulla transizione digitale dell’Italia: «In linea con tutte le scadenze»
La Svolta
Ict, Istat “riclassifica” i professionisti. Via anche al catalogo dati sul Pnrr
Analisi
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUM PA 2022
Ecosistema territoriale sostenibile: l’Emilia Romagna tra FESR e PNRR
Il Piano
Innovazione, il Mise “centra” gli obiettivi Pnrr: attivati 17,5 miliardi
Analisi
PNRR: raggiunti gli obiettivi per il primo semestre 2022. Il punto e qualche riflessione
Analisi
PNRR: dal dialogo tra PA e società civile passa il corretto monitoraggio dei risultati, tra collaborazione e identità dei luoghi
Webinar
Comuni e PNRR: un focus sui bandi attivi o in pubblicazione
Analisi
Formazione 4.0: cos’è e come funziona il credito d’imposta
PA e Sicurezza
PA e sicurezza informatica: il ruolo dei territori di fronte alle sfide della digitalizzazione
PA e sicurezza
PNRR e servizi pubblici digitali: sfide e opportunità per Comuni e Città metropolitane
Water management
Water management in Italia: verso una transizione “smart” e “circular” 
LE RISORSE
Transizione digitale, Simest apre i fondi Pnrr alle medie imprese
Prospettive
Turismo, cultura e digital: come spendere bene le risorse del PNRR
Analisi
Smart City: quale contributo alla transizione ecologica
Decarbonizzazione
Idrogeno verde, 450 milioni € di investimenti PNRR, Cingolani firma
Unioncamere
PNRR, imprese in ritardo: ecco come le Camere di commercio possono aiutare
I fondi
Industria 4.0: solo un’impresa su tre pronta a salire sul treno Pnrr

Articoli correlati