la lezione della pandemia

Covid-19, se i numeri “non tornano”: i danni di usare dati inaffidabili

Nelle analisi e nelle previsioni sull’andamento dell’epidemia, ci siamo accorti troppo tardi che i dati che volevamo o dovevamo utilizzare non erano precisi, o aggiornati. Sono molte le lezioni da imparare e chi si occupa di informazione, deve convincersi che non solo i fatti devono essere controllati ma anche i numeri

25 Giu 2020
Massimo Bernaschi

Istituto Applicazioni del Calcolo. Consiglio Nazionale delle Ricerche


Nei (circa) tre mesi trascorsi da quando la pandemia ha investito l’Italia siamo stati letteralmente sommersi da numeri di ogni tipo, a volte presentati con un vero e proprio rituale, come se si trattasse di dogmi da accettare senza discutere. Non è in realtà una novità. Più o meno consapevolmente, molte persone associano automaticamente ai dati, ed in particolare ai numeri, l’etichetta di verità assoluta. Anche nel passato abbiamo sentito affermazioni del tipo “ci sono i numeri a conferma di” (idea, proposta, etc.), ma è ormai chiaro che, purtroppo, la realtà del Covid 19 è molto meno digitale di quanto ci piacerebbe. Non esiste solo “vero” o “falso” ma, proprio i numeri che sembrerebbero quanto di più preciso si possa immaginare, offrono moltissime sfumature che corrispondono all’affidabilità del numero stesso.

Si è visto come le “previsioni” cambiassero (e ancora cambino) di continuo, ogni volta sulla “base dei dati disponibili” che suona come “il meglio di quanto sia possibile”. È importante capire che i problemi che hanno reso non molto precise, per usare un eufemismo, le nostre previsioni sull’andamento della pandemia non sono dovuti tanto all’inadeguatezza dei modelli o alla difficoltà della matematica o alla lentezza dei nostri calcolatori, ma proprio alla scarsa qualità dei dati. Cerchiamo di capire tramite un esempio perché è importante che i numeri siano veri.

La curva logistica

Nelle settimane appena trascorse si è molto parlato della curva logistica che rappresenta, con una forma che ricorda una S, l’evoluzione di vari tipi di fenomeni. All’inizio la crescita è quasi esponenziale, successivamente rallenta, diventando quasi lineare, per raggiungere un livello stabile (anche detto asintotico) dove non c’è più crescita. Un esempio di curva logistica è riportato nella figura che segue

Figura 1 Esempio di curva logistica

Nel caso di un’epidemia, ad esempio, una curva logistica può rappresentare il numero di decessi nel corso del tempo. È ragionevole, ed auspicabile, che il numero, pur crescendo nel tempo, arrivi ad un certo valore che non viene superato ed è questa situazione che la curva logistica rappresenta. Naturalmente, quello che tutti vorrebbero sapere, in anticipo, è quale è il valore asintotico (dove la curva si ferma)?

A questo scopo bisogna sapere che la curva logistica è descritta da una formula matematica abbastanza semplice dove e è il numero di Eulero ed è uguale a 2,718…. (con infinite cifre decimali); A, B, C sono i parametri che determinano la forma precisa della curva. In particolare, C è il valore asintotico che si vorrebbe conoscere. Infine t indica il tempo (potremmo immaginare di misurarlo in giorni). A, B, C si possono stimare applicando dei metodi matematici e statistici che richiedono la conoscenza di alcuni dei punti della curva (ad esempio il numero dei decessi nei primi giorni).

Qui cominciano le difficoltà. Se conoscessimo quei valori con esattezza, la stima sarebbe altrettanto precisa (stiamo semplificando un po’ ma la sostanza è questa); però sei i valori non sono precisi le conseguenze possono essere catastrofiche. Per dare un’idea, se i valori che usiamo per stimare sono sbagliati di un 5% (che sembra un’inezia), l’errore sulla stima non è il 5% ma può tranquillamente essere di un ordine di grandezza, cioè 10 volte più piccolo o più grande del valore reale di C.

Il motivo per cui la differenza può essere così ampia è legato alle caratteristiche particolari della curva logistica e non ci si può fare nulla. Altre curve sarebbero magari più tolleranti all’errore ma non descriverebbero bene il fenomeno. Se però i valori usati per stimare sono più precisi, ad esempio con un errore limitato al 1%, la situazione migliora di molto. Non raggiungiamo la precisione, ma non sbagliamo in maniera eclatante.

Nelle analisi e nelle previsioni sull’andamento dell’epidemia, ci siamo accorti troppo tardi (ed in alcuni casi forse neanche ce ne siamo accorti) che i dati che volevamo o dovevamo utilizzare non erano precisi, aggiornati, coerenti. In altre parole avevano tutti i difetti che normalmente imputiamo alle informazioni qualitative ed ancora di più alle fake news. Siamo arrivati a non sapere quanti fossero, veramente, i posti disponibili in terapia intensiva nei giorni più critici dell’emergenza, non dico in tutta Italia, ma in una singola città.

I numeri sono peggio delle parole

WHITEPAPER
Ricerca IDC: come aggregare i dati per un'analisi ottimale
Big Data
Business Analytics

I dati, i numeri, che non abbiamo, non li possiamo “inventare” (e, se qualcuno lo ha fatto siamo ben oltre il problema delle fake news) e non possiamo manipolare i numeri per interpretarli come ci conviene al momento. Da questo punto di vista i numeri sono peggio delle parole: sono rigidi, non si possono adattare al contesto. Significa che non c’è speranza di utilizzare i numeri visto che non saranno mai perfetti? Assolutamente no, significa piuttosto che è necessario cercare di migliorare continuamente il modo con cui sono raccolti ed utilizzati evitando di porsi il problema solo in emergenza. Ad esempio, le anomalie possono essere banalmente il risultato di una misura non precisa, oppure utili indicatori che c’è qualche fenomeno che non comprendiamo. Nel primo caso vanno opportunamente rimosse (imparando a prendere misure con maggiore attenzione) ma nel secondo caso rappresentano uno stimolo ad avanzare la nostra comprensione dei fenomeni, a non accontentarci.

È necessario imporsi una grandissima disciplina affinché i numeri siano il più possibile affidabili. Se l’esperimento di Michelson e Morley che dimostrò l’indipendenza della velocità della luce rispetto all’ipotetico “vento d’etere” non fosse stato così preciso (anche se non perfetto), forse ad Einstein non sarebbe venuto in mente di ipotizzare la costanza della velocità della luce. Per fortuna, non serve sempre utilizzare strumentazioni innovative, almeno per quell’epoca, come l’interferometro inventato da Michelson. Spesso basta applicare alcune regole di base per capire che c’è qualcosa che non va.

Nel 2017 la Polizia Stradale ha festeggiato i 70 anni dalla sua fondazione organizzando un’interessante sfida. Furono messi a disposizione dati, opportunamente anonimizzati, raccolti con un sistema simile, ma distinto, dal Tutor sui passaggi di veicoli su un tratto (molto ridotto) della rete autostradale. Vari gruppi di ricerca hanno accettato la sfida di analizzare questi numeri, apparentemente molto semplici, in sostanza alcuni milioni di registrazioni dell’ora di passaggio, in un determinato punto, di un veicolo identificato in maniera univoca ma anonima. Calcolare la velocità di un veicolo che è passato tra due punti di cui è nota la distanza richiede una semplice divisione (distanza diviso la differenza dei tempi). Nonostante questa semplicità, un minimo di analisi statistica corretta evidenziava fenomeni a dir poco curiosi, come veicoli che viaggiavano ben oltre i 1000 Km all’ora (il massimo raggiunto era 27000 Km all’ora ma a quel punto anche 270 Km all’ora comincia a destare sospetti. Sarà un altro errore oppure veramente un pilota alla guida di una macchina da formula 1 ha percorso quel tratto?). In quel caso, lavorando con il personale, molto professionale, della Polizia Stradale, si è arrivati a capire cosa non andava, ma il dubbio che in molti altri casi numeri e dati vengano resi disponibili senza essere prima controllati con il necessario scrupolo rimane molto forte.

Un problema non solo italiano

Deve essere comunque chiaro che non è un problema esclusivamente italiano, anche se noi rimaniamo un paese a cultura prevalentemente crociana (ricordiamo che Benedetto Croce guardava con sufficienza alla scienza moderna che si basa sui numeri). Gli Stati Uniti si sono trovati impreparati, da questo punto di vista, almeno quanto noi, come è stato ben evidenziato da una serie di articoli comparsi su fivethirtyeight. Per chi non lo conoscesse, questo è un sito molto interessante, che tratta vari temi, dalla politica allo sport, con un approccio quasi sempre (perché nessuno è perfetto) rigoroso ma accessibile a chiunque sia pronto a fare un piccolo sforzo per comprendere, invece di accettare pedissequamente qualunque presa di posizione basata su numeri gli venga propinata.

Conclusioni

Qual è alla fine la lezione che dobbiamo a tutti i costi imparare, visto che ci è costata e ci sta costando così cara? Credo che ce ne sia un po’ per tutti: i professionisti devono imparare a produrre, individuare e utilizzare quality data piuttosto che ubriacarsi di big data, perché la quantità non supplisce alla scarsa qualità; gli utilizzatori, a tutti i livelli, dal decisore politico al comune cittadino devono imparare a non accettare passivamente i dati e soprattutto i numeri, pretendendo (nel senso anglosassone) di capirli.

Un sano scetticismo (che non vuol dire rifiuto a priori, perché quello significherebbe essere ottusi) è fondamentale per evitare di cadere in trappole pericolose; chi si occupa di informazione, chi deve o anche solo vuole comunicare, deve convincersi che non solo i fatti devono essere controllati ma anche i numeri, perché magari qualcuno non li inventa con fini maliziosi ma più banalmente li copia male da uno strumento di misura. Il danno che l’errore può provocare non è per questo meno grave e da parte di chi scrive si svolge comunque quel ruolo di cacciatore e custode della verità che non può essere demandato genericamente alla comunità ed alla rete. Tutti possiamo contribuire a fare in modo che una nuova (anche se, ovviamente, non auspicabile) pandemia ci trovi più preparati, da questo punto di vista, con dati e numeri che siano, il più possibile, veri.

È quindi doveroso esigere di conoscere le fonti dei dati che sono state utilizzate per prendere decisioni che hanno un impatto, e non di poco conto, sulla vita di tutti noi. Almeno una parte delle tante energie spese a discutere di modello centralizzato o di accesso al codice sorgente della app per il tracciamento sarebbe stato meglio indirizzarla a richiedere, con forza, la verità sui numeri.

@RIPRODUZIONE RISERVATA

Articolo 1 di 3