Così un software statistico rivoluzionerà il lavoro delle Pa sugli open data

open data

Si chiama R. È il software per l'analisi dei dati più conosciuto e utilizzato al mondo. In Italia stenta ancora a decollare ma già ne fanno uso alcuni enti pubblici e Università. Ora è nata una comunità italiana, InsulaR, che vuole lanciare il programma anche nel nostro paese. Questo significa tempi più rapidi e servizi più personalizzati anche per le aziende e i privati

di Paola Bacchiddu

È uno dei software per l'analisi statistica dei dati più conosciuti e utilizzati al mondo. E ora comincia ad attecchire anche tra le Pa italiane.

Si chiama R.  Nasce, nella versione prodromica, nel 1996, nel dipartimento di statistica dell'Università di Auckland, in Nuova Zelanda. Nel team che lo sviluppò - una decina di tecnici, provenienti da tutto il mondo – c'era anche un italiano: Guido Masarotto, docente dell'Università di Padova.

Oggi uno dei suoi allievi, Gianmarco Altoè, ricercatore di psicometria dall'Università di Cagliari, ha fondato insieme ad altri due colleghi – Davide Massidda e Francesco CabidduInsulaR: una delle pochissime comunità italiane di utenti del software. Mentre negli Stati Uniti e nel resto del mondo le comunità sono cresciute e si sono propalate in breve tempo, in Italia l'utilizzo di R stenta ancora a decollare, perché ancora poco conosciuto: si contano gli “usergroup” di Padova, Milano, Torino e alcuni enti ed Università che ne fanno uso, come Verona e Trento. Eppure il software non solo è uno dei più potenti al mondo, in grado di gestire un'imponente quantità di dati, ma è anche gratuito, in open source.

Così sofisticato da consentire di rispondere a qualsiasi esigenza mirata di analisi, e in continuo aggiornamento perché un'intera comunità mondiale di utenti contribuisce a migliorarlo ogni giorno: un dispositivo ghiotto non solo per le Pa e gli enti che, dopo la direttiva europea sugli open data, dovranno adeguarsi, entro due anni, a rilasciare i dati pubblici a loro disposizione. Ma un'occasione anche per le aziende e i privati in cerca di nuovi business, soprattutto in un periodo di crisi come questo. Del resto, il precedente degli Stati Uniti è positivo: R è utilizzato dalla gran parte degli enti istituzionali e delle società private.

“L'unico ostacolo che le Pa e gli enti devono superare – racconta uno dei fondatori di InsulaR, Gianmarco Altoè – è la formazione necessaria che deve essere somministrata al personale, per poterlo utilizzare. Ma è una sciocchezza, a fronte del risparmio di decine di migliaia di euro che una struttura pubblica dovrebbe spendere all'anno per acquistare la licenza di un software a pagamento, peraltro molto meno potente e sofisticato. Senza considerare che anche gli aggiornamenti hanno un costo preciso, mentre R si autocorregge ogni giorno, sempre in maniera gratuita”. Proprio per questo il programma si è diffuso molto velocemente in aree economicamente svantaggiate del mondo, come Africa e Sudamerica. “Nella nostra comunità – prosegue il docente – in poco meno di due mesi si sono già sviluppate 5 mila librerie, cioè dei “pacchetti aggiuntivi” che possono essere scaricati gratuitamente e consentono di integrarsi al software di base per effettuare l'analisi di differenti tipologie di dati, elaborare grafici, disegnare esperimenti e gestire database molto più grandi di quello che consentirebbe un ordinario programma a pagamento. Prima, ad esempio, dovevo lavorare con 6, 7 software per le analisi più complesse, come quelle in genetica, ad esempio, o per le mappe georeferenziate: ora è sufficiente R”.

Il paradosso è che molte aziende chiedono profili professionali specializzati che siano in grado di utilizzarlo, ma le Università faticano a trovare giovani da formare. Il New York Times, due anni fa, lanciò un suggerimento a chi era in cerca di occupazione sicura: iscrivetevi alla Facoltà di Statistica. Ma in Italia, nell'ultimo anno, le nuove matricole al corso di laurea indicato, sono state appena 300. Ora le Università di Padova, Verona e Cagliari utilizzano R e formano studenti e dottorandi in corsi specifici per l'utilizzo del software, ma i numeri sono ancora piuttosto bassi, rispetto alle richieste del mercato.

“Con InsulaR – spiega Altoè – ci rivolgiamo a università, enti, pa, ricercatori e studenti: ci piacerebbe coinvolgere anche i privati, e soprattutto giovani che abbiano in mente di avviare una startup nel settore digitale. I corsi su cui lavoreremo sono due: uno introduttivo e l'altro più avanzato. Il primo insegnerà come si manipolano i dati, attraverso grafici e indici di statistica descrittiva. Il secondo, invece, sarà ritagliato sulla gestione dei pacchetti aggiuntivi”.

Davide Massidda, un altro dei fondatori di InsulaR, si occupa di consulenza statistica nel campo delle scienze psicologiche, sanitarie e sociali. Per l’Università di Cagliari lavora nell'ambito della psicometria e delle analisi epidemiologiche. “All'Istat utilizzano già R, anche se il personale medio degli statistici si è formato negli anni 70 e 80 e deve essere formato. Quando abbiamo lanciato InsulaR, a inizio maggio, divulgando R attraverso i social, vi è stata una propalazione molto superiore alle nostre attese. Anche gli studenti della facoltà di economia si sono interessati. Grazie al volano di Sardegna Ricerche – l'ente che gestisce il parco tecnologico sardo – l'idea è poi esplosa”.

Ma in che modo l'utilizzo del programma può segnare una differenza per le aziende nello sviluppo del lavoro?

“Io ho fatto il consulente per un'agenzia di telecomunicazioni – prosegue Massidda - Giravano molti file sui client, raccolti in maniera disorganica e slegati da una relazione. Con R, invece, sono riuscito a creare non solo programmi automatizzati per raccogliere i dati, ma anche database che creassero report, grafici e analisi. Tutto in maniera automatica e gratuita. Questo ha ottimizzato i tempi e consentito di offrire dei servizi molto più personalizzati. Non solo, grazie alla lettura dei dati, cercavamo di orientare il lavoro dell'azienda in maniera mirata su ciascun cliente".

Per il personale meno esperto, inoltre, è stato possibile fornire con R programmi con interfacce da cui schiacciare dei bottoni per l'elaborazione di dati specifici di supporto ai manager. Le aziende, negli ultimi tempi, stanno maturando sempre più la consapevolezza di quanto una politica di opendata possa essere sfruttata in maniera redditizia: ma l'accesso ai dati è il primo passo, poi occorrono strumenti che riescano a elaborarli e attribuirne, in questo modo, un valore aggiunto.

Duccio Rocchini è ricercatore della Fondazione Edmund Mach, centro di ricerca e innovazione, a San Michele all'Adige, in provincia di Trento. Fa parte del gruppo di ricerca di gis e telerilevamento, al Dipartimento Biodiversità ed Ecologia Molecolare, coordinata da un vero e proprio “guru” in materia, il professor Marku Georg Neteler.

“Utilizziamo R per l'analisi dei dati ambientali – racconta Rocchini – Possiamo effettuare una stima della biodiversità, attraverso le immagini satellitari. Misuriamo l'eterogeneità di un determinato ambiente, e la mettiamo in relazione con i campionamenti a terra. Riusciamo così a prevedere i cambiamenti climatici attraverso dei modelli che vengono sviluppati su R. Alcuni algoritmi risultanti vengono, attraverso il software, ripresi e migliorati. Rispetto agli altri programmi, R è molto più preciso e non si rischia di “falsare” l'analisi dei dati: permette, infatti, di entrare con un cacciavite dentro le funzioni e capire quali si stanno processando. È così possibile seguire l'intero iter dall'input dei dati fino all'elaborazione del grafico finale”.

Ogni giorno, inoltre, ciascun utente che esprime un'esigenza personale su un preciso lavoro chiede aiuto alla comunità che risponde in maniera tempestiva e gratuita. La velocità che consente R ha rivoluzionato anche il settore delle pubblicazioni scientifiche. “Prima – spiega Rocchini – dal concepimento dell'idea allo sviluppo del suo articolo scientifico potevano trascorrere anche anni: ora ci vogliono pochi mesi. Questo ha consentito alla ricerca dei passi da gigante. Inoltre, poiché si possono pubblicare anche i codici delle analisi, le amministrazioni, oggi, riescono a scambiarsi i pacchetti, riprendere il lavoro, modificarlo, ritagliarlo su misura, e migliorarlo".

Anche dal punto di vista didattico è cambiato tutto: con R è più semplice insegnare. Si individuano immediatamente gli errori all'interno delle funzioni e si risparmiano soldi, tempo ed energie. Nella ricerca un tempo si elaboravanio le domande rispetto al software statistico utilizzato. Ora è vero il contrario: si pone la domanda e R risponde.

"Le PA dovrebbero cogliere al volo questa occasione preziosa - dice Rocchini - cambiando il passo, però: non si seleziona più il personale in base alle competenze sul software che sa usare, ma lo si forma su R e si ottimizzano costi e tempi”.

Come si riesce a entrare nella comunità di R? È semplice: è sufficiente iscriversi al sito www.insular.it. Dopo un'autorizzazione dello staff tecnico si può diventare “autore” e pubblicare i prorpi contribuiti, integrandosi alla comunità italiana del portale. 

16 Luglio 2013

TAG: open data, casi, bacchiddu