Assistiamo e siamo allo stesso tempo protagonisti di una fase storica in cui l’accumulazione di dati digitali cresce in quantità tali che l’unico limite è dato dalla capacità di rappresentarli mediante fenomeni fisici, usualmente binari. I dati digitali (dati nel seguito) sono un artefatto che è al tempo stesso tecnologia, servizio, risorsa, rappresentazione del mondo.
Le tecnologie dei telefoni mobili, dell’internet delle cose e delle reti sociali, e le tecniche di analisi sono una fonte inesauribile di dati; esse nascono e si diffondono con la promessa di rappresentare potenzialmente ogni aspetto del mondo, ad esempio:
- il sequenziamento del genoma umano,
- la rappresentazione del territorio resa possibile dalla precisione delle immagini riprese dai satelliti e dai droni, e dalla applicazione di tecniche di deep learning per la trasformazione delle immagini digitali in mappe.
- la nostra simpatia o emozione per una foto su Facebook, espressa da un like.
La capacità sempre più ampia che i dati hanno di rappresentare il mondo evolve secondo tre direzioni: le proprietà degli oggetti della realtà (ad es. la temperatura corporea di una persona), le classi di oggetti (ad es. le diverse tipologie di persone, i giovani, gli anziani, ecc.) e la loro evoluzione nel tempo (ad es. la posizione della palla in un incontro di tennis).
La sfera sfocata e il rischio di “data overload”
Da una parte, come accade metaforicamente se cerchiamo di gonfiare una sfera di plastica (1), la superficie della sfera costituita dai “big data” si espande continuamente; la pelle della sfera – che corrisponde ad esempio in un dominio di cybersecurity, alle risorse disponibili per contrastare gli attacchi – si assottiglia continuamente; infine, l’aria nella sfera, che corrisponde all’insieme degli oggetti e delle relazioni esistenti all’interno della sfera, si espande continuamente con una complessità enormemente ampliata dallo spazio tridimensionale dello spazio e del tempo rappresentato in figura. Tutto ciò porta ad una crescente estensione, ma anche ad un crescente sfocamento, delle informazioni a noi disponibili, e della conoscenza che ne possiamo derivare.
Ciò che abbiamo chiamato sfocamento è dovuto alla enorme espansione delle sorgenti che alimentano il mondo digitale, e al conseguente moltiplicarsi dei punti di vista che possono essere condivisi. La potenza comunicativa delle reti sociali, e il tempo sempre più rapido che dedichiamo alla percezione delle informazioni su web (il tempo che ci metto a “sfogliare” un quotidiano digitale sul web è di molto inferiore a quello che ci metto a sfogliare la copia cartacea) garantiscono alla sorgente dei dati una platea sempre più ampia, e sempre più superficiale. Dobbiamo ammettere che quando Trump dice che con un suo tweet raggiunge 50 milioni di persone, mentre la copia digitale del NYT è letta al massimo da 2 milioni di persone, non solo ha ragione, ma dimostra in maniera inequivocabile la nostra affermazione. Tutto ciò, come osservato anche dal campione di scacchi Jerry Kasparov, accresce la nostra conoscenza del mondo, ma anche la nostra incertezza, il nostro tasso di dubbio. Allo stesso tempo, quando i dati a nostra disposizione aumentano a dismisura, all’inizio la loro utilità aumenta, ma dopo un po’ essa raggiunge un massimo, e a questo punto diminuisce, generando il fenomeno chiamato information overload; per contrastare questo fenomeno, noi dobbiamo agire a livello cognitivo “comprimendo” i dati in astrazioni, cioè potenti sintesi che permettono di controllarne l’espansione.
Dati digitali come rappresentazione della realtà
Il secondo aspetto riguarda il cambiamento del modo in cui, nel mondo dei dati digitali, noi percepiamo e conosciamo la realtà e la sua evoluzione. I dati digitali si manifestano attraverso varie rappresentazioni, di tipo linguistico, come le tabelle o i documenti organizzati mediante una struttura, ovvero di tipo percettivo, facenti riferimento cioè ai nostri sensi, come le fotografie, le immagini, i video, i suoni. In questo processo la realtà è progressivamente sostituita da bit, numeri, codifiche, sistemi di simboli, che spesso ne modificano la percezione del significato, come è accaduto, ad esempio, in India quando in alcuni stati, per accrescere la trasparenza dei processi amministrativi legati al catasto e ridurre la corruzione attraverso la automazione, le mappe analogiche del passato sono state sostituite da rappresentazioni digitali (vedi figura successiva).
Datacy, comprendere l’impatto dei dati sulla società
La precedente pur breve sintesi ha lo scopo di introdurre il tema della novità che la cosiddetta scienza dei dati impone alla cultura di un paese e alla sua politica economica e sociale. Il livello di cultura di una comunità viene misurato usualmente per mezzo di due categorie, la literacy e la numeracy. La literacy fa riferimento alla capacità di leggere, comprendere e analizzare criticamente varie forme di comunicazione, inclusi il linguaggio parlato, i testi scritti, i media analogici e digitali. La numeracy riguarda la abilità di usare modelli e abilità matematiche per risolvere problemi in contesti complessi.
La diffusione dei dati digitali, visti come grande fenomeno che influenza tanti aspetti della nostra vita individuale e collettiva, richiede la considerazione di una nuova categoria culturale, che possiamo chiamare con un neologismo, datacy. La datacy misura la capacità di:
- ragionare su un vasto insieme di tipologie di dati, quali i dati tabellari, i testi, le immagini,
- rappresentarli mediante modelli, essendo in grado di comprenderne il significato,
- valutarne la qualità (accuratezza, veridicità, ecc.) e la utilità sociale ed economica,
- utilizzare linguaggi e tecniche per la loro rappresentazione, elaborazione, interrogazione, gestione e analisi al fine di percepire la realtà, risolvere problemi e prendere decisioni complesse.
Datacy, nuove norme e nuova alfabetizzazione
La categoria culturale della datacy comprende anche la comprensione dell’impatto che i dati hanno sulla società nel descrivere e influenzare i fenomeni sociali e nel determinare nuove regole economiche nei rapporti tra singoli, nelle collettività, nel mercato e nelle nazioni. Inoltre, richiede l’elaborazione di un nuovo quadro normativo per regolare lo sfruttamento e l’accesso ai dati, e la elaborazione di regole etiche che i processi di diffusione, scambio e utilizzazione dei dati devono rispettare, per influenzare in modo equo la vita delle persone e delle comunità.
La necessità di fornire strumenti e modelli descrittivi, interpretativi e di analisi dei dati digitali, tema fondamentale nella Scienza dei dati, si traduce perciò in una esigenza di alfabetizzazione verso l’intera popolazione di un paese moderno, e di formazione di figure di data scientist nei cicli della scuola superiore e universitari. La cultura che va creata e condivisa ha certamente nei suoi paradigmi di base la informatica e la statistica, ma riguarda tante altre aree, dalle scienze cognitive alle scienze sociali, la economia, le scienze giuridiche, e trova applicazione in un vasto insieme di domini applicativi, tutti quelli che usano dati digitali.
Per fare un solo esempio, il tema delle astrazioni che abbiamo visto come strumento cognitivo per contrastare l’information overload, è stato studiato da Boisot, un economista esperto di rappresentazione della conoscenza. Boisot propone di utilizzare l’astrazione (vedi figura seguente) insieme alla codifica e alla scarsità per rappresentare in uno spazio informativo la utilità economica delle informazioni. Nella visione di Boisot accanto alla scarsità, classica categoria economica, la codifica permette lo scambio e il riuso sulla base di una tassonomia comune, mentre la astrazione dà valore alla informazione sulla base del livello di generalità con cui rappresentare, e quindi condividere e scambiare, un vasto insieme di artefatti e fenomeni.
Conclusioni
I cosiddetti big data possono essere una rilevante risorsa che crea valore nella società, in economia, nella ricerca scientifica. Essi richiedono però cambi di paradigma e la diffusione di una nuova cultura orientata alla datacy, area culturale di crescente importanza in tutti i settori della formazione e della società.