Vitalizzare gli open data della PA, con la "smart disclosure"

La smart disclosure è un’idea per porre fine al sequestro dei nostri dati nel “fortino PA” e la separazione tra proprietario del dato e mero gestore, ha tra le sue conseguenze la fine del monopolio della PA sui servizi di eGovernment

Gli Open Data vengono spesso rappresentati come il substrato per un nuovo ecosistema di servizi on-line basati su applicazioni web di terze parti. Su questo tema sono state avviate diverse iniziative ad opera di Pubbliche Amministrazioni, dapprima in maniera estemporanea e poi via via in modo più sistematico, ed emerge un sempre più chiaro legame con l’idea delle Smart Cities e delle Smart Communities. L’iniziativa Open Data nel suo complesso, tuttavia, sembra avere un impatto pratico ancora limitato, e non solamente in Italia: nel Regno Unito, uno dei Paesi più avanzati su questo tema, il portale Open Data governativo recensisce circa 20000 dataset ma solamente 355 applicazioni che ne fanno uso. La gran parte dei dataset, dunque, rimane inutilizzata.

Le cause di tale mancato utilizzo sono varie. Sicuramente l’assenza di direttive chiare riguardo a cosa pubblicare e al formato da utilizzare disincentiva l’utilizzo: un’applicazione basata su dati relativi ai servizi di trasporto pubblici potrà funzionare solo laddove tali dati sono pubblicati in maniera machine readable, il che avviene solo in poche aree fortunate, e ciò limita a priori l’utilizzabilità dell’applicazione e dunque l’interesse stesso a svilupparla. Un altro problema, che potrà avere in futuro un impatto marcato, è dato dalla prevalente pubblicazione di dati privi di semantica: è facile prendere dei dati e metterli fuori così come sono, ben più laborioso invece ripulirli e dotarli di semantica chiara e machine readable. Ma, accanto a questi problemi innegabili, esiste un altro problema, un problema di fondo. Secondo noi, la principale limitazione degli Open Data consiste proprio nella loro natura di dati statici, aggregati, anonimizzati e comunque non di natura personale. Questi dati sono di indubbia utilità sul piano logistico e politico ma di limitato interesse, da soli, nei servizi personalizzati al cittadino e all’impresa, laddove inevitabilmente le informazioni di carattere individuale dell’utente hanno un ruolo centrale.

Stiamo perciò esplorando una generalizzazione del concetto di Open Data che preveda l’esportazione e l’uso di dati personali degli individui, precondizione per la creazione e il funzionamento di servizi online personalizzati. Quando parliamo di “dati personali” pensiamo alla enorme mole di dati anagrafici, tributari, sanitari, previdenziali, catastali, dispersa nelle varie Pubbliche Amministrazioni. Segregando tali dati, le PA detengono il monopolio dei servizi di eGovernment; in questo modo, per esempio, la compilazione interamente online della dichiarazione dei redditi, un obbiettivo legittimo che va ben oltre quanto promesso dall’attuale governo, potrà vedere la luce solo se e quando varie PA si metteranno d’accordo in chiave di cooperazione applicativa.

La natura personale o addirittura sensibile di molti dati detenuti dalle PA pone un ovvio problema di privacy che giustamente impedisce la libera esportazione di questi dati sul web. Ma siamo sicuri che l’unica possibilità di tutela della privacy consista nella totale segregazione dei dati nel “fortino PA” da cui fuoriescono, quando va bene, solo verso il nostro browser attraverso le pagine web delle PA? Costringere ciascuno di noi a scrivere e riscrivere ovunque i propri dati personali, fare fotocopie di scontrini delle farmacie, trascrivere sul rigo XYZ la rendita catastale dell’appartamento ABC etc., è l’inevitabile prezzo da pagare per la privacy o è solamente indice di arretratezza tecnologica? E che ne è della privacy quando i nostri dati, copiati o allegati sulla modulistica di svariati procedimenti amministrativi, finiscono comunque sparsi qua e là? Siamo certi che non esista alcun modo sicuro di usare i dati in possesso delle varie PA in modo automatico e diretto, senza passare dal nostro browser, senza doverli copiare, senza doverci registrare sui siti delle più svariate PA, senza inserire ogni volta password e PIN per questo e per quello? Quei dati, dopotutto, sono gestiti dalle PA ma sono nostri. E noi non ci accontentiamo di poterli scaricare e stampare o allegare in modi complicati: vogliamo che le applicazioni del futuro possano reperire quei dati direttamente alla fonte, su nostro mandato, col minimo sforzo da parte nostra, e senza compromettere la privacy più di quanto non accada di già.

Secondo noi esiste un’alternativa intelligente all’attuale sequestro generalizzato dei dati personali. Si chiama smart disclosure e consiste nell’esportazione controllata dei dati personali verso il web previa autorizzazione digitale online del proprietario, ossia dell’individuo o impresa a cui i dati si riferiscono.

Proviamo a spiegare il funzionamento della smart disclosure senza scendere in dettagli troppo tecnici. Una applicazione web che intende prelevare dati personali di un certo soggetto presso un repository (gestito da una PA o da altri soggetti) deve assoggettarsi a un protocollo di autorizzazione. Seguendo i passi di tale protocollo, essa deve prima ottenere una autorizzazione digitale temporanea da un server di autorizzazione. Quest’ultimo rilascia l’autorizzazione solo previo assenso (una tantum o volta per volta) del soggetto proprietario dei dati, che può concedere diritti di accesso diversificati in base alle operazioni richieste e all’applicazione che le richiede. Munita di tale autorizzazione digitale, l’applicazione può interrogare i vari datastore; ciascuno di essi verifica l’integrità e validità dell’autorizzazione digitale e in caso positivo eroga i dati richiesti. L’applicazione web che intende fare uso dei dati è tipicamente fornita da terze parti e può essere eseguita direttamente dal proprietario dei dati o da un suo delegato. In ogni caso il proprietario dei dati rivelerà password o PIN solamente al server di autorizzazione [1].

In sostanza mediante la smart disclosure i dati personali possono definirsi “open” benché non “public”, poiché essi sono esportati verso il web ma risultano inaccessibili senza l’autorizzazione del proprietario. Inoltre la separazione logica tra il server di autorizzazione e i vari repository di dati personali permette di scindere il proprietario dei dati dal mero gestore. L’unione di questi due risultati apre a scenari d’uso molto innovativi specie nel caso dei servizi di eGovernment e della Sanità.

La smart disclosure, infatti, con la fine del sequestro dei nostri dati nel “fortino PA” e la separazione tra proprietario del dato e mero gestore, ha tra le sue conseguenze la fine del monopolio della PA sui servizi di eGovernment: chiunque a quel punto potrebbe sviluppare applicazioni che, dopo aver ricevuto l’autorizzazione digitale del proprietario dei dati, prelevano i dati personali (ma anche quelli pubblici e gli Open Data) presso i datastore delle varie PA e li utilizzano a nome e per conto dell’utente che ha richiesto il servizio. Nascerebbe così un nuovo ecosistema di servizi online personalizzati, in cui la PA nel suo complesso manterrebbe il ruolo di gestore dei dati per conto di cittadini e imprese, garantirebbe sicurezza e integrità delle informazioni ed eserciterebbe una funzione marginale e sussidiaria rispetto ai servizi online da erogare [2].

Certamente si tratta di una visione abbastanza estrema, che peraltro possiede prerequisiti non banalissimi tra cui la fatturazione elettronica generalizzata e l’adesione di banche e associazioni di categoria all’iniziativa di esportazione dei dati. Però non siamo i soli ad aver pensato queste cose; lo scenario conseguente alla smart disclosure, con la PA che si occupa più di dati che di servizi, è simile a quello che Tim O’Reilly nel 2010 ha identificato con la locuzione “government as a platform”:

“…the federal government must reimagine its role as an information provider. Rather than struggling, as it currently does, to design sites that meet each end-user need, it should focus on creating a simple, reliable and publicly accessible infrastructure that “exposes” the underlying data. Private actors, either nonprofit or commercial, are better suited to deliver government information to citizens and can constantly create and reshape the tools individuals use to find and leverage public data. The best way to ensure that the government allows private parties to compete on equal terms in the provision of government data is to require that federal websites themselves use the same open systems for accessing the underlying data as they make available to the public at large.”[3]

Il nostro lavoro in questa direzione [4] prosegue, non senza difficoltà. Una delle difficoltà che soffriamo maggiormente è la mancanza di modalità di interlocuzione con l’Agenzia per l’Italia digitale, che pure avrebbe tra i suoi obbiettivi il supporto e la promozione delle attività di ricerca in questo settore. Un’altra difficoltà consiste nel fatto che progetti di questo tipo non si prestano ad essere sviluppati senza la collaborazione di PA di livello nazionale. Al momento, dopo aver sviluppato un prototipo dimostrativo (compilazione automatica del mod. 730) stiamo affrontando aspetti di importanza pratica e non del tutto ovvii, quali: concessione di autorizzazioni anticipate, situazioni di “comproprietà” dei dati (es. fattura elettronica, che appartiene a chi l’ha emessa e anche a chi l’ha ricevuta), delegabilità della facoltà di autorizzare l’accesso ai dati (es. soggetti fiscalmente a carico), autorizzazione di accesso in base al ruolo e non per identità personale (es. accesso operato da personale PA per motivi ispettivi o da forze dell’ordine su mandato di un magistrato).

I protocolli di autorizzazione non sono una novità. Uno di essi, OAuth 2.0, è ampiamente usato da attori del calibro di Google e Facebook per gestire l’accesso ai dati personali dei loro milioni di utenti. Gli utenti di Facebook che hanno provato ad installare una delle app di Facebook avranno notato che, per prima cosa, sul browser appare una finestra in cui viene richiesto di autorizzare quella app ad accedere e utilizzare i dati personali; si tratta di una delle fasi del protocollo di autorizzazione. OAuth 2.0 nasce per i social network ed è inadeguato agli scenari di eGovernment, ma è un buon punto di partenza.
G. Ciaccio, M. Ribaudo. Open Data for the Masses – Unleashing Personal Data into the Wild. Proc. 8th Int.l Conf. on Web Information Systems and Technologies (WEBIST), 2012
T. O’Reilly. Government as a platform. Cap. 2 in D. Lathrop, L. Ruma, “Open Government: Collaboration, Transparency, and Participation in Practice”. O’Reilly Media, 2010. ISBN 0596804350 9780596804350. Online http://chimera.labs.oreilly.com/books/1234000000774/
G. Ciaccio, A. Pastorino, M. Ribaudo. Open Data and Personal Information: A Smart Disclosure Approach Based on OAuth 2.0. Proc. 13th European Conf. on eGovernment (ECEG), 2013