l'analisi

Covid-19 e tracking: le sfide tecnologiche sui dati

La comprensione dei modelli di comportamento sociale tramite i dati sulla mobilità può aiutare a ricostruire la diffusione e a prevedere l’evoluzione della pandemia. Vediamo le sfide della ricerca e le prospettive dell’integrazione tra i dati di geolocalizzazione degli operatori di rete mobile e quelli detenuti dagli OTT

27 Apr 2020
Ernesto Damiani

docente di Reti di calcolatori all’Università Statale di Milano, presidente del Consorzio Interuniversitario Nazionale per l’Informatica (CINI)


La pandemia è stata l’occasione dell’integrazione tra i dati di geolocalizzazione detenuti dagli operatori di rete mobile e quelli detenuti dagli OTT (Over-the-Top) come Google, tradizionalmente concorrenti, e della rappresentazione uniforme dell’incertezza. Le conseguenze di questa integrazione saranno ancora più evidenti con l’arrivo del 5G, anche se ancora non sono ben chiare le prospettive economiche.

La sfida di ricerca che occorre affrontare consiste nell’utilizzare i dati sulla mobilità per tarare modelli a bassa latenza, individuali e collettivi, in grado di stimare il rischio e la diffusione spazio-temporale della malattia. L’obiettivo è duplice:

  • promuovere iniziative di sorveglianza attiva e test per identificare comportamenti epidemiologicamente rilevanti di gruppi e individui,
  • prevedere in modo affidabile il numero di casi e pianificare le risorse necessarie di cui avremo bisogno, compreso il numero di letti, ventilatori e personale medico. Le informazioni sulla mobilità sono molto sensibili e anche la privacy delle persone deve essere presa in considerazione.

Dati sulla mobilità e diffusioe del Covid-19

Oggi, la mobilità individuale sta emergendo come un elemento cruciale per il monitoraggio a lungo termine delle pandemie.

Mentre, infatti, molti aspetti dell’epidemia di Covid-19, come la sua stagionalità, ci sono ancora oscuri, sappiamo che il virus è trasmesso principalmente attraverso il contatto ravvicinato con persone infette o superfici contaminate. Pertanto, la comprensione dei modelli di comportamento sociale tramite i dati sulla mobilità può aiutare a ricostruire la diffusione dell’infezione, nonché a prevederne l’evoluzione.

L’analisi spazio-temporale dei dati di infezione storicamente si è basata sull’uso di dati aggregati per identificare le regioni che mostrano un’elevata variabilità del rischio. L’analisi spazio-tempo dei dati aggregati ha prodotto risultati importanti, ma copre solo una piccola parte delle applicazioni epidemiologiche.

I dati di posizione grezzi vanno benissimo per il law enforcement (ad esempio, per le indagini giudiziarie) ma contengono incertezze spaziali e temporale di diversi tipi e richiedono un’attenta elaborazione preliminare e un arricchimento semantico prima di poter essere inseriti in modelli di previsione più avanzati.

Concentriamoci su due limiti: mancanza di un singolo riferimento temporale (timestamp) tra le diverse fonti di dati e una diversa rappresentazione dell’incertezza.

Questi limiti influenzano il tipo e la profondità delle deduzioni che si possono trarre dai dati (ad esempio, date due regioni con una data densità e un certo grado di incertezza nella stima, qual è la densità prevista per la loro intersezione e qual è l’incertezza di tale valore?).

Il problema dell’ingestione

I dati sulla posizione dei telefoni cellulari sono disponibili lato operatore e lato terminale. I CDR (Call Detail Record) raccolti dagli operatori di rete mobile (MNO, Mobile Network Operator), sono una ricca fonte di dati. Il numero di CDR generati in tutto il mondo ogni giorno supera i 400 miliardi. I CDR sono generati dalle attività di comunicazione telefonica (ad esempio, effettuare/ricevere una telefonata) e tengono traccia delle informazioni pertinenti (ad esempio, chiamante/chiamata, ora, durata) di ciascun evento. Inoltre contengono un identificatore univoco della cella telefonica (Cell-ID) che gestisce la comunicazione. Le coppie Cell-ID e timestamp sono disponibili per gli MNO per ciascun telefono connesso alla rete, anche quando nessuna chiamata è attiva.

Nonostante la loro granularità spaziale grossolana, i dati CDR e i dati Cell-ID possono fornire la base per un posizionamento relativamente preciso e con un tipo di incertezza probabilistica ben definito. Per farlo occorre eseguire inferenze appropriate basate sui timestamp (che consentono di sfruttare i vincoli relativi ad esempio all’inerzia del movimento) e sulle informazioni contestuali fornite dalle mappe (ci sono regioni non accessibili agli utenti che hanno probabilità zero).

I dati GPS, invece, sono dati di posizionamento preferiti da chi sviluppa applicazioni grazie alla loro notevole precisione, ma il GPS è il metodo di posizionamento più dispendioso in termini di consumo batteria, quindi è meno frequentemente reso disponibile dall’utente del telefono a terzi. Per questo i dati delle reti sociali (come Twitter) sono spesso non-georeferenziati. Però i telefoni cellulari di oggi sono dispositivi multi-sensore che includono accelerometri, fotocamere digitali di alta qualità, schede WiFi. Tutte queste informazioni aggiuntive possono essere utilizzate per migliorare la geolocalizzazione e darle un modello di incertezza probabilistico, eseguendo opportuni algoritmi di inferenza, che possono essere eseguiti sul telefono dell’utente o da terzi.

Per passare da un dato grezzo a un dato utilizzabile occorre tenere presente che le stime del posizionamento assoluto del telefono cellulare di un utente possono essere caratterizzate da diversi tipi di incertezze.

La stima dell’incertezza

Nelle applicazioni epidemiologiche siamo interessati principalmente all’incertezza probabilistica (funzione di densità di probabilità di presenza che in un dato istante dipende dalle coordinate geografiche) perché ci permette di ottenere, al termine di una catena di inferenze, la probabilità di eventi di interesse (ad esempio, la probabilità che si sia verificato un contatto tra due specifici utenti a meno di due metri).

Tipicamente, le probabilità di posizionamento vengono migliorate tenendo conto dei vincoli contestuali provenienti dalle mappe attraverso tecniche bayesiane. Data la stima delle coordinate spaziali e temporali di due utenti, è possibile stimare la probabilità che si sia verificato un contatto e la prevedibile durata del contatto, utilizzando la regola della somma di Bayes.

Per migliorare ulteriormente la stima delle probabilità con vincoli aggiuntivi è possibile utilizzare altre sorgenti di dati, come le attività sui social network, le ricerche su Google e altri record di attività sui social media, che i rispettivi detentori stanno rendendo disponibili gratuitamente in forma anonimizzata.

Prospettive tecnologiche

Attualmente, la ricerca tecnologica sta lavorando su piattaforme di back-end che consentono di definire protocolli di attenzione, per individuare i modelli di comportamento individuale e collettivo che aumentano la probabilità di trasmissione del virus, ed identificare chi li mette in atto.

Gli scopi sono l’individuazione di soggetti e gruppi specifici da coinvolgere in test mirati nel contesto delle politiche di sorveglianza attiva, ma anche la verifica dell’efficacia delle politiche di orientamento al comportamento territoriale, nonché la previsione delle esigenze di cura nell’area locale.

Il modello applicato può essere generalizzato a qualsiasi nodo entrato in contatto con il paziente con diversi livelli di probabilità.

Conclusioni

Il vaso di Pandora è stato rotto, e le conseguenze saranno ancora più visibili con il rilascio del supporto alla geolocalizzazione fine (anche al chiuso) che fa parte della tecnologia 5G. Le prospettive economiche e l’impatto sulla vita quotidiana post-pandemia sono ancora tutti da valutare.

@RIPRODUZIONE RISERVATA

Articolo 1 di 4