Direttiva Open Data: il problema dei formati e il “buco” sulla sicurezza

La Direttiva Open Data favorisce l’eterogeneità dei formati secondo il principio di neutralità tecnologica: una scelta che complica la standardizzazione dei processi e la facilità dell’accesso. Non un rigo, inoltre, sulla sicurezza del ciclo di vita degli open data: quali rischi si corrono, come porvi rimedio

La Direttiva UE 2019/1024, detta Direttiva Open Data, è stata recepita nel nostro ordinamento con il D. Lgs. 200/2021, entrato in vigore dal 15 dicembre 2021.

La norma, relativa all’apertura dei dati e al riutilizzo dell’informazione nel settore pubblico, rientra nel processo di “armonizzazione informatica” perseguita dall’Unione ma rappresenta una discontinuità rispetto a precedenti provvedimenti come il GDPR (Regolamento UE 2016/679), la direttiva NIS (Direttiva UE 2016/1148) e il Cybersecurity Act (Regolamento UE 2019/881).

Sono state infatti compiute scelte precise sui formati ed è stato tralasciato in toto il tema della sicurezza. Vediamo in dettaglio.

Open data e big data pubblici, cosa sono e perché sono connessi

Indice degli argomenti

Direttiva Open Data: da dove nasce e con quali obiettivi

La direttiva Open Data ha abrogato la precedente direttiva 2003/98/CE, a sua volta già modificata dalla direttiva 2013/37/UE.

Le tre direttive sono accomunate dall’obiettivo di facilitare l’accesso e la fruizione dei dati del settore pubblico per incentivarne l’utilizzo, a fini commerciali o meno.

Per il legislatore europeo, fornire tali informazioni significa permettere ai soggetti interessati, privati cittadini o persone giuridiche, di studiare nuove forme e modi di utilizzarli per creare prodotti e servizi nuovi e innovativi^[1].

Ad esempio: lo sfruttamento degli Open Data potrebbe favorire lo sviluppo del mercato interno e incentivare la creazione di nuove applicazioni per i consumatori.

Vi sono poi le tematiche di trasparenza e responsabilizzazione: poter riutilizzare dati e documenti gestiti da un ente pubblico potrebbe infatti portare alla nascita di potenziali scambi di idee tra l’ente e il riutilizzatore.

L’ente pubblico potrebbe quindi ricevere delle informazioni con cui migliorare la qualità dei dati raccolti nell’adempimento delle proprie mansioni.

Un altro elemento a favore del riutilizzo degli Open Data è nell’ambito della ricerca scientifica: la possibilità di poter raccogliere, aggregare ed elaborare grandissime moli di dati permette di affrontare in maniera olistica ed efficiente moltissime problematiche.

Direttiva Open Data: quali sono le organizzazioni interessate

La direttiva Open Data interessa gli enti pubblici e le imprese pubbliche.

Per ente pubblico nella Direttiva si intende: “le autorità statali, regionali o locali, gli organismi di diritto pubblico o le associazioni formate da una o più di tali autorità oppure da uno più di tali organismi di diritto pubblico” (cfr. art. 2 punto 1);
Per impresa pubblica nella Direttiva si intende: “qualsiasi impresa attiva nei settori di cui all’articolo 1, paragrafo 1, lettera b) su cui gli enti pubblici possono esercitare, direttamente o indirettamente, un’influenza dominante perché ne sono proprietari, vi hanno partecipazione finanziaria, o in virtù di norme che disciplinano l’impresa in questione” (cfr. art. 2 punto 3).

Come vengono classificati gli Open Data

Quando si parla di Open Data, nell’ottica del legislatore europeo non ci si riferisce a una determinata tipologia di dato, bensì alla pratica di pubblicazione dei dati (grezzi) in modo che siano accessibili, riutilizzabili, leggibili con dispositivi elettronici e concessi in licenza liberamente^[2].

Per dato grezzo si intende un dato derivato da enti/imprese pubbliche che non è stato manipolato e/o già riutilizzato.

Rispetto all’infrastruttura normativa precedente, la Direttiva classifica gli Open Data in tre macrocategorie:

1. dati dinamici: documenti in formato digitale, “soggetti ad aggiornamenti frequenti o in tempo reale, in particolare a causa della loro volatilità o rapida obsolescenza; i dati generati da sensori sono solitamente considerati dati dinamici”;

2. dati della ricerca: documenti in formato digitale, “diversi dalle pubblicazioni scientifiche, raccolti o prodotti nel corso della ricerca scientifica e utilizzati come elementi di prova nel processo di ricerca, o comunemente accettati nella comunità di ricerca come necessari per convalidare le conclusioni e i risultati della ricerca”;

3. serie di dati di elevato valore: “documenti il cui riutilizzo è associato a importanti benefici per la società, l’ambiente e l’economia, sin particolare in considerazione della loro idoneità per la creazione di servizi, applicazioni a valore aggiunto e nuovi posti di lavoro dignitosi e di alta qualità, nonché del numero dei potenziali beneficiari dei servizi e delle applicazioni a valore aggiunto basati su tali serie di dati”.

Direttiva Open Data: la scelta sui formati

La Direttiva Open Data non è esente da problematiche: un tema molto importante della divulgazione e fruizione di questi dati provenienti dal settore pubblico è quello del formato.

Da un lato, infatti, c’è la necessità di mantenere una formulazione di formato più aperta possibile e rispettosa del principio della neutralità tecnologica, in modo tale da rendere la normativa elastica e adattabile alla future scoperte e innovazioni in ambito tecnologico e non esporla a un rischio prematuro di obsolescenza.

Dall’altro, però, non fornire precise indicazioni metodologiche e tecnico-organizzative rischia di complicare il processo di raccolta e aggregazione dati auspicato dallo stesso legislatore in ottica di standardizzazione e omologazione degli Open Data.

Soggetti pubblici diversi potrebbero adottare quindi formati diversi per i loro Open Data che, seppur singolarmente conformi alle richieste della presente normativa, potrebbero rendere più complesso e oneroso il processo di riutilizzazione al punto di disincentivare i soggetti interessati nel far ricorso a queste fonti di dati.

All’art. 5 par. 1 della Direttiva Open Data è sancito che: “Fatto salvo il capo V [relativo alla gestione delle serie di dati di elevato valore], gli enti pubblici e le imprese pubbliche mettono a disposizione i propri documenti in qualsiasi formato o lingua preesistente e, ove possibile e opportuno, per via elettronica, in formati aperti, leggibili meccanicamente, accessibili, reperibili e riutilizzabili, insieme ai rispettivi metadati. Sia il formato che i metadati sono, ove possibile, conformi a standard formali aperti”.

Su questo paragrafo è bene fare diverse osservazioni.

Per formato aperto si intende: «un formato di file indipendente dalla piattaforma e messo a disposizione del pubblico senza restrizioni che impediscano il riutilizzo dei documenti» (cfr. art. 2 punto 14);
Per formato leggibile meccanicamente si intende: «un formato di file strutturato in modo tale da consentire alle applicazioni software di individuare, riconoscere ed estrarre facilmente dati specifici, comprese dichiarazioni individuali di fatto e la loro struttura interna» (cfr. art. 2 punto 13);
Per standard formale aperto si intende: «uno standard che è stato definito in forma scritta, precisando in dettaglio i requisiti per assicurare l’interoperabilità del software» (cfr. art. 2 punto 15).

È possibile rinvenire un riferimento al concetto di formato aperto anche all’articolo 20 del GDPR, sul diritto alla portabilità.

Anche in quel caso, il legislatore europeo accenna, senza dovizia di dettagli, ad “un formato strutturato, di uso comune e leggibile da dispositivo automatico”. Le problematiche, anche in questo caso, sono ancora riscontrabili a distanza di anni.

Il diritto alla portabilità è stato infatti pesantemente modificato nel testo finale rispetto alle prime bozze, che avevano un orientamento molto più stringente sulle procedure di rilascio dei dati personali.

Anche nel caso della Direttiva Open Data, l’approccio del legislatore europeo è stato quello di propendere verso un’assunzione del rischio di eterogeneità dei formati conformi alla normativa, in favore del principio di neutralità tecnologica e di una norma maggiormente flessibile e durevole nel tempo.

Direttiva Open Data: i rischi per la sicurezza

Sul formato degli Open Data, il legislatore europeo ha fornito, seppur in linea prevalentemente astratta, delle indicazioni: vi è però una strana latitanza di riflessioni, anche a livello dei Considerando, per quanto concerne la sicurezza di queste informazioni.

Per sicurezza, si fa riferimento al ciclo di vita di questi dati e alla loro disponibilità, consistenza ed esattezza.

Non sono rinvenibili, infatti, all’interno del testo della Direttiva, riferimenti neanche ad alto livello su come dovrebbe essere impostato e gestito il ciclo di vita degli Open Data.

Senza linee guida adeguate su gestione e governance di questi dati, il rischio è la creazione di problematiche nella loro erogazione e fruizione.

Ad esempio, senza dei criteri comuni, enti pubblici locali afferenti allo stesso ambito potrebbero adottare politiche di gestione diverse con produzione di informazioni diverse. A tutto svantaggio del processo di integrazione e aggregazione del dato o, peggio, incentivando la propagazione di errori durante la diffusione delle informazioni.

In che termini deve essere garantita l’esattezza (e la continuità) dei dati diffusi? Quali misure di sicurezza adottare in relazione a sistemi (come le API) che potrebbero consentire la fruizione di Open Data? Tutto tace.

Altro aspetto da non sottovalutare è quello relativo a possibili attacchi con l’obiettivo di produrre e divulgare false informazioni.

Come è emerso dal ENISA Threat Landscape 2021, infatti, sono nate due nuove tipologie di attacco informatico^[3]: i misinformation attack e i disinformation attack.

Attacchi che, come intuibile dal nome, si basano sull’ingegneria sociale e hanno l’obiettivo di far circolare informazioni fasulle per creare all’interno della collettività bias cognitivi e/o credenze errate.

Diventa ragionevole chiedersi se sia possibile manipolare i sistemi di erogazione degli open data del settore pubblico, molto carente sulle misure di sicurezza informatiche, per “avvelenare” determinati ambiti degli open data.

Altra faccia della stessa medaglia: potrebbero essere utilizzati open data per manipolare informazioni?

Conclusioni

L’auspicio, dunque, è che in futuro il legislatore europeo, o quanto meno quello italiano, prenda dei provvedimenti per affrontare da un punto di vista anche più pratico la gestione degli open data, al fine di mitigare:

a) le problematiche che deriveranno dall’eterogeneità dei formati;

ii) le criticità sulla sicurezza degli open data che riguarda tutta la loro catena produttiva, dalla creazione all’elaborazione e presentazione fino alla divulgazione.

________________________________________________________

Note

Cfr. Considerando 8 Direttiva (UE) 2019/1024. ↑
Cfr. EU Vocabularies. ↑
Cfr. S. Bonavita, A. Cortina “Sicurezza informatica, pandemia e fake news: principali relazioni e possibili scenari”, su «CyberSecurity360», in Internet disponibile all’indirizzo https://www.cybersecurity360.it/nuove-minacce/sicurezza-informatica-pandemia-e-fake-news-principali-relazioni-e-possibili-scenari/. ↑