Capire i Big Data: tre fronti della ricerca

Che cosa c’è da sapere, dal punto di vista tecnologico, commerciale ed etico. Nascono i primi casi di studio di sfruttamento economico del fenomeno (Passur e Sears Holdings)

I big data (BD) sono un insieme di dati raccolti da una pluralità sempre più crescente di sorgenti. Fonti di questi dati (tecnicamente l’informazione è il dato una volta trattato e reso gestibile) possono essere semplici clic in Internet, transazioni di denaro attraverso dispositivi mobili, le piattaforme user content generated e tutti i social media. Altri BD vengono raccolti attraverso reti di sensori distribuiti nel nostro ambiente quotidiano. L’analisi a tappetto di tutti i patrimoni genetici di coloro che vivono in una determinata zona, anche questo rientra nei metodi dei BD. Sanità, ingegneria, processi produttivi, decisionali, politici ed erogazioni di servizi possono essere monitorati costantemente per raccogliere dati ed elaborare informazioni da incrociare tra di loro per aumentare l’efficienza, ridurre rischi, prendere decisioni e fare previsioni.

Ovviamente per fare questo sono necessari potenze di calcolo, un tempo impensabili, e software, ora sempre più diffusi ed economici, per gestire simultaneamente informazioni pervasive e provenienti da più sorgenti.

Questi nuovi potentissimi sguardi possono integrare in maniera significativa le statistiche ufficiali, i sondaggi e gli archivi di dati che tradizionalmente sono statici, aggiungendo profondità e dettagli e soprattutto in tempo reale, senza la mediazione di operatori umani deputati a fasi di raccolta ed elaborazione.

Possiamo suddividere i BD sulla base della fonte: dati pubblici, dati privati, dati esausti, dati di comunità e dati auto-quantificati.

– I dati pubblici sono quelli raccolti da enti statali, organizzazioni governative e comunità locali. Possono riguardare i trasporti, il consumo di risorse, l’assistenza sanitaria e supportano decisioni amministrative.

– I dati privati vengono invece raccolti dalle imprese private, dalle organizzazioni non-profit ed altre realtà che gestiscono e offrono servizi in maniera non pubblica. Possono comprendere ad esempio transazioni commerciali, circolazione di beni e di risorse aziendali, navigazioni internet e comunicazioni tra cellulari.

– I dati passivi sono quelli che invece vengono raccolti con uno scopo diverso, ma possono comunque essere incrociati con altri dati e fornire informazioni che hanno un valore.

– Ogni azione umana oggi è caratterizzata da una scia di informazioni che viene rilasciata dall’utilizzo di dispositivi tecnologici: chiamate al cellulare, pagamenti con carta di credito, interazioni digitali con altre persone, ricerche su internet. Questa scia costituisce i dati cosiddetti esausti.

– I dati auto-quantificati sono dati che vengono raccolti dall’individuo, come ad esempio i braccialetti per misurare la corsa, l’auto-monitoraggio del consumo di elettricità, di benzina etc.

Esistono inoltre 3 prospettive sotto le quali considerare i BD:

1. Tecnologica;

2. Commerciale;

3. Etica.

1. L’attuale livello di tecnologia produce una mole di dati-informazioni ad altissimo volume. Seguono alcuni esempi che meglio fanno capire l’entità e le fonti di questo flusso:

– a partire dal 2012 ogni giorno vengono generati circa 2,5 exabyte, misura che dovrebbe essere raddoppiata e raddoppiare ogni 40 mesi;

– il novanta per cento di tutti i dati nel mondo è stata prodotta negli ultimi due anni;

– il volume di tutte le informazioni raccolte dall’umanità fino al 1999, stimato in 16 miliardi di megabyte, sarà lo stesso di quello che si prevede fornirà ogni nove settimane il futuro radio telescopio più grande del mondo, lo Square Kilometre Array, che andrà a regime entro il 2020;

– un pilota di formula 1 genera 20 gigabyte di dati raccolti da 150 sensori sulla vettura: questi analizzano le prestazioni tecniche dei componenti meccanici, del conducente, dei ritardi nei pit stop e le comunicazioni tra il team;

– si stima che Walmart (la multinazionale proprietaria degli omonimi negozi, ora anche online) collezioni più di 2,4 petabyte* ogni ora dalle transazioni dei suoi clienti.

La necessità di gestire questi volumi di potenziali informazioni (è ciò che trasforma questi dati in valore) ha creato notevoli investimenti in data center sparsi in tutto il mondo: solamente negli States ci sono 2,9 milioni di webfarm. Google, Microsoft e Facebook hanno speso miliardi di dollari per le proprie strutture. Lo spazio complessivo occupato negli USA dai centri per l’elaborazione dei dati è di circa 666 milioni di metri quadrati, che dovrebbe salire a 727 nel 2016. Attualmente stanno sorgendo data center ad Hong Kong e Dubai.

Un altro aspetto è il cosiddetto “Internet of Things”, la comunicazione tra apparecchi, veicoli e altri dispositivi interconnessi a oggetti: entro il 2020 saranno 26 miliardi i dispositivi che non sono PC collegati tra loro, rispetto al miliardo del 2009.

Un’altra caratteristica tecnologica del processo di raccolta dei BD e della trasformazione in informazione, sono considerate la velocità e la varietà.

– La velocità si riferisce all’ottenere i dati da analizzare in tempo reale, in quanto la loro lettura può presiedere processi di decision making e gestione degli eventi in corso, oltre che di previsione di quelli immediatamente successivi.

– La varietà fa riferimento alla pluralità di formati e tipologia dei dati, che rispetto ai metodi e ai dati tradizionali che raccoglievano per lo più insieme di dati strutturati, sono invece privi di una struttura comune: possono essere flussi di comunicazioni raccolte dai social media, audio, video, documenti di vario tipo, e-mail, pagine web e post.

2. Ovviamente a fronte di ingenti investimenti non possono che coesistere interessi maggiori: se i dati in quanto tali possono non avere un valore che giustifica i costi dei BD, le informazioni che derivano dalla loro gestione generano un valore prima impensabile. Ad esempio servizi finanziari stanno utilizzando alte prestazioni di calcolo per identificare frodi che prima non erano visibili; dall’altra parte, sono state registrate possibili frodi proprio sfruttando la velocità di calcolo per prevedere e sfruttare repentini mutamenti nelle quotazioni in borsa analizzando in tempo reale il comportamento di tutti gli investitori e automaticamente, applicando modelli matematici e appositi programmi, vendere o comprare istantaneamente.

Le aziende altresì hanno la possibilità di monitorare in tempo reale le risposte dei consumatori ai loro prodotti e prendere decisioni in brevissimo tempo, quando simili ricerche di mercato duravano giorni se non settimane. La vera novità dei BD non è la loro mole. Di fatto con l’arrivo dei primi calcolatori si assistette ad una “quantofrenia” di raccolta di statistiche di dimensioni socio grafiche ed economiche, con relative correlazioni che risultavano tra variabili misteriosamente collegate tra loro ingenerando le più curiose congetture. La vera novità che i BD non solo derivano da sistemi di controllo diffusi, ma possono venire raccolti, analizzati e portare a delle decisioni automatiche ed istantanee di sistemi autoregolanti, nell’erogazione del flusso di risorse, di cure o ad altre decisioni a livello micro.

Vi sono alcuni casi di studio che illustrano l’utilizzo dei BD per ottenere dei vantaggi economici.

– La PASSUR fornisce analisi predittive e soluzioni di risparmio sui costi ai principali aeroporti e compagne del Nord America. Da una ricerca interna agli Stati Uniti era emerso che il dieci per cento dei voli differiva di 10 minuti, in più o in meno, nell’arrivo previsto e il trenta per cento di cinque minuti. Questo di fatto si traduce in disagio per i passeggeri, bloccati a bordo, e in costi inutili per le aziende, quando il personale in servizio rimane in attesa dell’effettivo atterraggio. Nel 2001 PASSUR ha iniziato ad offrire un servizio chiamato “RightETA” (corretto orario di arrivo – Estimate Time of Arrival‏) di raccolta e elaborazione di dati pubblicamente disponibili, come il meteo e gli orari dei voli, con altri dati prodotti dall’azienda, come la traccia all’interno di una rete di stazioni radar, per raccogliere dati su ogni aereo in volo nel cielo locale. L’azienda raccoglie ogni 4,6 secondi un ampio spettro di informazioni su ogni areo che monitora. Questo ovviamente costituisce un flusso enorme e costante di dati digitali che costituiscono uno storico smisurato di variabili multidimensionali per costruire e perfezionare procedure e modelli sempre più precisi ed efficienti. Questo produce un risparmio – secondo la PASSUR – di diversi milioni di dollari in ogni aeroporto: grazie ai BD produce migliori previsioni che conducono a decisioni migliori.

– Un altro esempio è quello di Sears Holdings, un rivenditore con una catena di negozi fisici e online negli Stati Uniti che si è convertita all’utilizzo dei Big Data per avere analisi più rapide ed economiche sul comportamento di acquisto dei loro clienti. Ha creato una rete di server economici coordinati da un unico software: l’azienda può così gestire simultaneamente e confrontare dati su tutti i suoi prodotti saltando così molti passaggi e fare perciò molto più rapidamente (i tempi si sono accorciati da 8 settimane a meno di una), in modo preciso e mirato, promozioni per i suoi prodotti.

3. Raccogliere BD diventa sempre più economico e le nuove pratiche dei consumatori creano una scia incredibile di dati: la tendenza attuale è quella di raccogliere più informazioni possibili. Questo apre non poche considerazioni su aspetti della privacy. Di fatto, è come se la società fosse diventata una grande matrice di dati: metodologicamente il problema non è più quello della campionatura rappresentativa di una popolazione che si vuole studiare all’interno di un universo, è tutto l’universo ad essere mappato numericamente, si tratta solo di avere programmi per scegliere i dati che servono, di elaborarli in informazioni e, eventualmente, di disporre di sistemi (Intelligenze Artificiali) che interpretino le informazioni e prendano decisioni. Nasceranno sistemi sempre più evoluti per confrontare dati e informazioni raccolte precedentemente: sono riportati esperimenti con software per il riconoscimento facciale che hanno identificato le foto anonime in siti per incontri, oppure sono risaliti alle identità dei pazienti di informazioni anonime diffuse tra gli operatori sanitari negli USA.

Per cui, l’autorizzazione che diamo ora per l’utilizzo dei nostri dati non ci tutela da ulteriori sfruttamenti futuri a fronte di nuove applicazioni e utilizzi nella gestione degli stessi ma soprattutto non ci garantisce, neppure nel presente, contro forme di hackeraggio. Se queste portano a un danno economico quantificabile, possono in qualche maniera essere riparate, ma se rubano i dati personali degli individui, le loro identità, informazioni private su ogni aspetto della loro vita e vissuto quotidiano, che possono in qualche maniera pregiudicare la reputazione degli individui, come si può porvi riparo?

E questo vale ancora di più per tutte quelle scie di dati che le persone passivamente lasciano: passaggi in autostrada, entrate e uscite da sistemi di controllo urbano, verifiche fiscali e nella sicurezza stradale e le tante intercettazioni telefoniche. Per il momento sono dati raccolti in una qualche memoria, un domani potranno esistere sistemi ed intenzioni al di fuori di qualsiasi nostra volontà espressa e degli operatori deputati alla raccolta e dei loro responsabili.

Mi chiedo infine – riguardo alle indagini per l’efferato omicidio di Yara – come hanno fatto gli inquirenti ad organizzare e gestire le informazioni di 18.000 patrimoni genetici. Su questo i giornali sono stati ancora poco chiari: scrivono di un test per l’alcool, di un vecchio francobollo su una patente e di un femore dissotterrato.

Da sociologo, non conosco la legittimità di usare test e documenti per rilevare altri dati importanti come il codice genetico – m’immagino la banca dati in natura più ricca e complessa che esista – e non ignoro la scomodità di sollevare dubbi in un caso di cronaca nera dai risvolti così emotivi. Spero che si possa davvero portare giustizia e, per quanto possibile, serenità tra le persone colpite da questo crimine. Da studioso mi chiedo però – per quanto letto e riportato dalla letteratura internazionale** – chi tuteli e come su dati così sensibili: questi potrebbero rilevare correlazioni con malattie che potrebbero far ritenere la persona e i suoi consanguinei meno adatti a certi lavori, ad ottenere assicurazioni sanitarie o sulla vita o semplicemente chi ha un peccato di gioventù da nascondere per l’armonia di più persone e famiglie coinvolte.

* Un petabyte è un quadrilione di byte, l’equivalente di un testo di circa 20 milioni di cartelle. Un exabyte sono mille petabyte, un miliardo di gigabyte.

**Fonti principali:

– George G., Haas M., Pentland A.S., Big Data and Management, 2014, Vol. 57, No. 2, 321–326.

– Nunan D., Di Domenico M.L., International Journal of Market Research, Vol. 55, No. 4, 2013

– McAfee A, Brynjolfsson E., Big Data: The Management Revolution, Harvard Business Review October 2012 (i casi di studio riportati da questa fonte si trovano anche in blogs.hbr.org/2012/09/big-datas-management-revolutio/)