La matematica per domare l'epidemia: modelli e big data

I modelli matematici rappresentano strumenti fondamentali nell’analisi dell’andamento epidemico. Servono però big data di qualità che possano garantire una corretta previsione. Ecco perché è necessaria una “strategia delle 3T” in grado di fornire data lake efficienti

La crisi sanitaria che ha coinvolto l’intero pianeta all’inizio del 2020 ha sollevato enormi interrogativi sulla capacità della nostra società di organizzarsi facendo fronte a un problema complesso e drammatico. In questo scenario i modelli matematici e la gestione dei big data si rivelano strumenti fondamentali per l’interpretazione dell’epidemia e a sostegno della Sanità digitale. Vediamoli al lavoro.

Indice degli argomenti

Coronavirus, gli errori “nascosti” nei dati

L’opinione pubblica mondiale, soprattutto quella abituata a decenni di benessere e di straordinari avanzamenti della ricerca scientifica e tecnologica, ha reagito con sorpresa davanti alla sostanziale impreparazione di tutti gli stati nell’affrontare un problema sanitario peraltro simile ad altri già tristemente conosciuti nella storia, anche recentissima, dell’umanità. In effetti, solo nell’ultimo ventennio abbiamo avuto almeno tre epidemie virali simili (Ebola, SARS e MERS) che, nonostante non abbiano avuto la stessa estensione geografica di Covid-19, non sono completamente risolte.

La matematica è stata sin dall’inizio indicata come uno strumento essenziale per fornire, ad esempio previsioni sull’andamento dell’infezione per intervalli di tempo di giorni, mesi, e addirittura anni, in termini di indice di contagio (R0 all’inizio, Rt nelle fasi successive dopo aver adottato misure di contenimento), data di occorrenza del “picco” e entità dello stesso, e, più tristemente, numero delle vittime. Tutti numeri a cui l’opinione pubblica si è rapidamente assuefatta grazie a un’informazione veloce ma necessariamente approssimativa, oltre che spesso poco specialistica (famoso è il caso dell’R0 “negativo” come condizione di sicurezza per attenuare le restrizioni).

È probabile che queste aspettative siano state raffreddate dalla constatazione che il concetto di picco, mantra del mese di marzo, non è poi sembrato così risolutivo, e le curve dei nuovi infetti giornalieri non avevano poi quell’andamento così regolare e simmetrico (nella fase di crescita e in quella di decrescita) di una gaussiana. Ovviamente non è la matematica la responsabile del comportamento lontano dalle attese di queste curve: i veri “indiziati” sono i dati, ovvero gli elementi fattuali. E qui è doveroso introdurre un primo fattore di criticità.

Ognuno degli insiemi di dati forniti quotidianamente dalle autorità è affetto da errori: alcuni più accettabili, dovuti alla mancanza di coerenza con cui vengono raccolti a livello territoriale, altri più sostanziali, quasi tutti sottostimati (il numero di nuovi contagi, per via di una insufficiente effettuazione di tamponi, e il numero di decessi da attribuire al coronavirus, giusto per citarne due macroscopici). Inoltre, per diverse settimane non sono stati attribuiti a morti da Covid-19 molti decessi avvenuti in RSA, una “trascuratezza” molto significativa dal punto di vista dimensionale.

Modelli matematici applicati all’epidemia

Il problema dell’incoerenza e dell’incompletezza dei dati, va osservato ad onor del vero, ha flagellato tutti i Paesi (non solo l’Italia), vuoi per incapacità, vuoi (talvolta) per un uso politico distorto dell’emergenza. Qualunque ne sia stata la causa, questo aspetto ha reso ancora più difficile la comprensione del processo epidemiologico. Una lezione che certamente faremmo bene ad imparare, in vista dell’inevitabile “coda lunga” della pandemia.

Peraltro, la conoscenza dei dati (anche di tutti i dati, i più corretti e completi possibili) può da un lato consentirci di rappresentare un processo, ma non necessariamente di interpretarlo e gestirlo. Questo lo fanno i modelli epidemiologici, basati su equazioni matematiche che utilizzano i dati ma forniscono previsioni, ovvero l’evoluzione nel tempo di variabili (le soluzioni) che servono a caratterizzare in modo completo il processo epidemiologico.

I modelli matematici per lo studio delle epidemie esistono da oltre un secolo. Il più celebre fu sviluppato nel lontano 1927 da William Kermack e Anderson McKendrick formulato per spiegare la rapida crescita e successiva decrescita del numero di persone infette osservate in alcune epidemie, in particolare di peste e di colera (altri tempi).

In questi modelli è fondamentale individuare le variabili in grado di descrivere il processo, ad esempio il numero di infetti, di suscettibili, di esposti al contagio, di ospedalizzati, di guariti o, sfortunatamente, deceduti. Ma esistono anche modelli con molte più variabili, e quindi molte più equazioni. Queste variabili costituiranno le soluzioni del modello, la loro dipendenza dal tempo ci consentirà di capire come varieranno in futuro in funzione dei dati raccolti in passato, e pertanto di avere una descrizione quantitativa completa della dinamica del processo epidemiologico.

Il modello ci consente anche di descrivere scenari diversi, in funzione ad esempio dell’applicazione di diverse strategie di contenimento (lockdown, distanziamento sociale, chiusura di scuole, fabbriche, esercizi commerciali, teatri e musei, ad esempio), o della disponibilità o meno di trattamenti farmacologici o della somministrazione del vaccino a percentuali crescenti di popolazione, infetti o suscettibili. È anche possibile introdurre delle variabili di controllo, al fine di consentire entro certi limiti una governance dell’epidemia. È compito dei costruttori di modelli matematici individuare le variabili necessarie a costruire lo strumento matematico con effettive capacità predittive e di controllo, ed è compito della politica e delle autorità sanitarie predisporre le strutture giuridiche e tecniche per la raccolta dei dati.

L’Italia dimentica il tracing, testing, treatment: ecco perché è un problema

Dati biometrici, tracing e geolocalizzazione

Nel caso della diffusione di un’infezione che avviene per prossimità, come Covid-19, è fondamentale individuare al più presto le persone infette e i contatti che esse hanno avuto prima di essere confinate. Dei due compiti, il primo è più problematico del secondo, perché l’infezione, nel caso di Covid-19, non ha effetti manifesti prima di alcuni giorni – un numero variabile – o addirittura può non avere alcun effetto (il caso dei cosiddetti asintomatici).

Il lasso di tempo in cui una persona può trasmettere il virus ad altre persone è quindi molto grande, e data la densità umana delle più comuni condizioni di vita (la maggior parte della popolazione mondiale vive ormai nelle città), il numero di infezioni aumenta, come si dice ormai anche comunemente, in maniera esponenziale. I medici hanno individuato alcuni segnali di possibile infezione (aumento della temperatura, tosse, problemi respiratori, riduzione del senso del gusto… ) che possono essere utilizzati per valutare la condizione personale, e sicuramente questo tipo di anamnesi deve essere affiancata e rafforzata da un sistema di controllo sul territorio che riceva le prime segnalazioni e le approfondisca, confermandole o smentendole.

Diverse App sono oramai disponibili per la rilevazione di dati biometrici (ad esempio il progetto di solidarietà Covid-19 Zcare e AllertaLom di Regione Lombardia, per citarne due). Più semplice, in teoria, è il controllo dei contatti, con soluzioni tecnologiche che tutti possiamo avere già oggi in tasca, letteralmente, grazie ai nostri smartphone.

In questo ambito, l’Italia con la App Immuni per il contact tracing ha scelto una soluzione tecnologica in linea con quanto proposto da Apple e Google, mettendo al centro la privacy degli utenti, affidando a ciascuno il compito di isolarsi e presentarsi al servizio sanitario nel caso in cui si riceva una notifica di un contatto con una persona rivelatasi positiva grazie alla tecnologia Bluetooth.

Utilizzo dei dati rilevati da tecnologie digitali

La gestione dell’evoluzione dell’epidemia potrebbe tuttavia più efficacemente avvantaggiarsi dalla geolocalizzazione delle persone, ossia del tracciamento degli spostamenti (effettuabile sempre attraverso gli smartphone); in questo modo diventa implementabile un’azione puntuale di controllo sulla singola persona, attraverso l’analisi dei flussi di spostamento. Questo tipo di azione può essere rafforzata attraverso sistemi di riconoscimento alternativi, quali telecamere con riconoscimento facciale o altri metodi identificativi.

Ognuno di questi metodi presuppone, necessariamente, una partecipazione attiva e volontaria dei singoli individui, in un contesto di trasparenza che permetta a ognuno di capire qual è la portata spaziale e temporale della raccolta di informazioni che si propone e quali sono le sue finalità, oltre che, naturalmente, chi ne sia il garante per un corretto trattamento. Se infatti l’implementazione del tracing attraverso tecnologia Bluetooth (con gestione decentralizzata dei dati) non ha particolari ripercussioni sulla privacy delle persone (nessuno spostamento viene rilevato, né alcuna dichiarazione di “positività” viene associata a persone fisiche), la geolocalizzazione e la donazione volontaria di dati biometrici presuppongono che il cittadino consegni informazioni sul suo stato di salute e sulle sue abitudini.

La gestione di queste problematiche non è compito dei matematici, come s’è detto. È però compito loro evidenziare l’importanza della condivisione dei dati al fine di “nutrire” i modelli che descrivono e predicono l’andamento dell’epidemia; questo sprone vale sia per i proprietari dei dati sia per coloro che devono assicurare le condizioni di sicurezza del loro trattamento e comunicarle adeguatamente ai cittadini. Questo è il senso delle conclusioni a cui sono giunte autorevoli commissioni, che deve guidare le scelte future.

Covid-19: così Regione Veneto ha monitorato l’epidemia con la biosorveglianza

Big data, machine learning, modelli epidemiologici

Grazie a modelli matematici e algoritmi di machine learning è possibile estrarre indicazioni per simulare, prevedere ed ottimizzare. Big data e machine learning sono parole diventate di uso comune, al fine di migliorare e rendere più efficaci ed efficienti svariati processi in ambito industriale e sociale. Oggi, questi stessi strumenti possono essere impiegati in contesti sanitari emergenziali o post-emergenziali.

Vi sono altri due aspetti, fondamentali, oltre al “tracciamento”: il testing (con tamponi e test sierologici), e il trattamento (le famose 3T di cui tanto si parla). Tracciamento e testing sono degli straordinari generatori di dati (anzi, di Big Data: quantità gigantesche di dati fra loro eterogenei). Un fattore cruciale per un loro utilizzo efficace è quello della loro “riconciliazione” che sia preliminare alla costruzione di un data lake che alimenti i modelli epidemiologici sopra descritti. Un’attività in cui si è distinta per eccellenza la Regione Veneto, grazie alla georeferenziazione dei casi infetti, al monitoraggio dei micro-cluster di infetti, sia nelle abitazioni che negli ambienti di lavoro, al monitoraggio dello stato di infezione degli operatori del SSR e a quello degli ospiti delle strutture per anziani. Questa attività si è accompagnata al monitoraggio delle capacità produttive delle microbiologie in termini di numero di tamponi per laboratorio di erogazione.

La disponibilità di un data lake sufficientemente ricco ed affidabile diventa fondamentale anche per poter sfruttare nel modo più efficace possibile lo straordinario potere predittivo dei modelli epidemiologici: identificando potenziali nuovi focolai, anticipando l’early detection dei contagiati, ottimizzando il processo di gestione sanitaria e di trattamento terapeutico, anche attraverso l’esplorazione di diversi scenari corrispondenti al rafforzamento o rilassamento di misure di contenimento.

A titolo di esempio si possono vedere in Figura 1 e 2 una stima dell’evoluzione in Italia della percentuale di infetti in due diversi giorni, a 10 giorni e 30 giorni dal “giorno zero”, il 25 febbraio 2020 (primo rilascio di dati ISTAT sulla epidemia)

Figura 1: Stima della distribuzione della percentuale di infetti sul totale della popolazione a livello provinciale al giorno 10 (Courtesy: E. Miglio, N. Parolini, Politecnico di Milano)

Figura 2: Stima della distribuzione della percentuale di infetti sul totale della popolazione a livello provinciale al giorno 30 (Courtesy: E. Miglio, N. Parolini, Politecnico di Milano)

Come già osservato, fondamentale per l’affidabilità del potere previsionale di questi modelli spazio-temporali è la disponibilità di dati affidabili e geograficamente distribuiti, da usarsi per inizializzare tali modelli e a scopo di verifica. Spesso però questi dati sono incompleti, si pensi ad esempio al numero di decessi per i quali mancano ad oggi informazioni per molti comuni, o ai dati che dovrebbero descrivere il flusso delle relazioni sociali o di mobilità su reti.

Modelli matematici e statistici possono consentire di “rimediare”, almeno parzialmente, anche a queste incompletezze. Un esempio è fornito nelle Figure 3 e 4 che riportano la distribuzione del numero totale di decessi ogni 1000 abitanti (per singolo comune in un’area che contiene la Lombardia) in due giorni diversi nella fase critica del contagio: 16 e 31 marzo. (Questa distribuzione è ottenuta da una rielaborazione statistica a partire da dati ISTAT.) Da queste figure si può anche apprezzare l’estrema variabilità spaziale del fenomeno, il che rende essenziale l’uso di modelli epidemiologici spazio-temporali.

I dati sono fondamentali per alimentare i modelli ma anche per la loro costruzione, consentendo la calibrazione dei modelli stessi, soprattutto nel caso in cui essi si applicano a fenomeni del tutto nuovi (e dagli sviluppi terribilmente imprevedibili) come è il caso dell’epidemia Covid-19.