scienza aperta

European Open Science Cloud (EOSC): sfide e opportunità cruciali per il futuro della ricerca Ue

L’Ue è nella posizione ideale per assumere un ruolo guida a livello mondiale nello sviluppo di un cloud in ambito scientifico. Lo European Open Science Cloud (EOSC) sarà l’ambiente virtuale dove dati multidisciplinari, infrastrutture per l’accesso e per il calcolo verranno rese disponibili a ricercatori e privati

14 Giu 2022
Daniele Bailo

EPOS-ERIC IT Officer Istituto Nazionale di Geofisica e Vulcanologia (INGV)

cloud - Strategia Cloud Italia - Gaia-X

L’Europa promuove da sempre la condivisione dei dati della ricerca scientifica che – ricordiamolo – sono un investimento su cui gli Stati nazionali e la Comunità europea stanno puntando cifre elevate, nell’ordine di miliardi di euro.

Ma come sfruttare pienamente le informazioni e la ricchezza nascosta nei dati per permettere a privati e ricercatori di creare innovazione?

European Open Science Cloud: funzioni e obiettivi del primo centro di competenza italiano

Per rispondere a questa domanda l’Europa sta investendo nella costruzione di un Cloud europeo, lo European Open Science Cloud (EOSC), che costituirà l’ambiente virtuale dove dati multidisciplinari, infrastrutture per l’accesso e per il calcolo verranno rese disponibili a ricercatori e privati.

Le sfide che questa impresa comporta sono molte e vanno ben oltre la dimensione tecnica. La governance, la condivisione degli obiettivi e il community building sembrano essere gli aspetti al momento cruciali di questa impresa too big too fail, sui cui solo nel periodo 2018-2020 la commissione ha investito 250 milioni di euro tramite progetti di ricerca.

Vediamo allora quali sono i vantaggi, i colli di bottiglia e le possibili evoluzioni dello European Open Science Cloud.

Perché un cloud Europeo?

Tutti i dati, anche quelli già utilizzati per produrre conoscenza, possono contenere informazioni ancora nascoste, sia perché ancora non cercate da nessuno oppure perché ancora non sono stati sviluppati i modelli matematici necessari per analizzare i dati e per individuarle.

WHITEPAPER
Costruire una VERA DATA STRATEGY: machine learning, sicurezza e valorizzazione del dato.
Amministrazione/Finanza/Controllo
Big Data

Progressi in questo senso li abbiamo già visti: gli ingenti investimenti nel machine learning applicato ai big data stanno portando ad un vero e proprio cambio di paradigma nella ricerca scientifica [1], come già previsto nel 2009 da Tony Hey [2], ex vicepresidente della Microsoft Research nel suo famoso “The Fourth Paradigm” [3] e possono creare nuove opportunità di condivisione delle conoscenze e di ricerca, così come di sviluppo e attuazione di politiche pubbliche.

La Commissione europea è cosciente, già da anni, delle potenzialità del cloud nel contesto del mercato europeo [4]: il cloud infatti consente di trasferire, condividere e riutilizzare dati con facilità tra mercati e frontiere e tra istituzioni e discipline di ricerca. Vista la capacità attualmente disponibile in Europa, i dati prodotti dalla ricerca e dall’industria dell’UE sono spesso trattati altrove, il che spinge i ricercatori e gli innovatori europei verso luoghi in cui disporre in tempi più brevi di elevate capacità di dati e di calcolo. Al tempo stesso, dal momento che l’Europa è la principale fonte di conoscenze scientifiche in tutto il mondo, il vecchio continente è nella posizione ideale per assumere un ruolo guida a livello mondiale nello sviluppo di un cloud in ambito scientifico [4].

Le quattro sfide fondamentali da affrontare

Per poter sfruttare i dati allora l’Europa deve trovare risposta a quattro sfide fondamentali che possono essere sintetizzate dalle seguenti domande:

  • Come sfruttare al massimo gli incentivi per la condivisione di dati e potenziare la capacità di sfruttarli?
  • Come garantire che i dati possano essere utilizzati il più possibile, tra diverse discipline scientifiche e tra il settore pubblico e quello privato?
  • Qual è il modo migliore per collegare le infrastrutture di dati esistenti e quelle nuove in tutta Europa?
  • Come coordinare al meglio gli strumenti di supporto disponibili per le infrastrutture di dati europee man mano che si avvicinano al calcolo su scala Exa[1] ?

Ecco allora spiegato il perché della necessità di un cloud europeo coerente con la strategia per il mercato unico digitale[2] che mira, tra l’altro, a massimizzare il potenziale di crescita dell’economia digitale europea [5]. L’iniziativa mira a sviluppare l’European Open Science Cloud (cloud europeo per la scienza aperta), uno spazio sicuro e aperto in cui la comunità scientifica possa archiviare, condividere e riutilizzare dati e risultati scientifici.

Cinque azioni che consentiranno all’Europa di sfruttare pienamente il potenziale dei dati

In primo luogo, molte imprese europee, comunità di ricerca ed enti pubblici devono ancora sfruttare la potenzialità che i dati hanno di trasformare le loro attività e il modo di fare ricerca, come già avvenuto in altri settori [7] (si pensi al mondo marketing). Il sintomo chiaro è che i dati provenienti dalla ricerca finanziata con fondi pubblici non sono sempre aperti, ed è quindi necessario stabilire una chiara struttura di incentivi e riconoscimenti per la condivisione dei dati (soprattutto a livello accademico), una chiara base giuridica [8] (in particolare nel settore pubblico), e la promozione di competenze legate ai dati, nonché un più ampio riconoscimento del loro valore (in tutti i settori).

Scienza aperta? In Italia è un mito: ecco tutti i problemi irrisolti

Una piena interoperabilità dei dati

In secondo luogo, la necessità di una piena interoperabilità dei dati permetterà di far fronte alle grandi sfide sociali che richiedono un’efficiente condivisione dei dati e un approccio pluridisciplinare, come nel caso del cambiamento climatico, di cui non possono occuparsi solo i climatologi. Passi avanti in questo senso sono stati fatti innanzitutto con la definizione dei principi FAIR [9], che prescrivono che i dati debbano essere Findable (Ricercabili), Accessible (accessibili), Interoperable (interoperabili), Reusable (riutilizzabili), poi con le iniziative correlate [10] e infine con la readazione dello European Interoperability Framework [11].

Limitare la frammentazione nella produzione dei dati

In terzo luogo, è necessario limitare la frammentazione nella produzione dei dati, che ostacola la scienza basata sui dati (data driven science). Specialmente nella long tail of science si assiste ad una pletora di laboratori, singoli istituti, centri di ricerca locali o – infine – iniziative basate su progetti limitati nel tempo che producono dati senza seguire standard largamente condivisi, oppure senza aprirli al pubblico (ad esempio con portali Open Data). Questo significa produrre dati che sono inutilizzabili, o peggio che sono persi. Le infrastrutture di dati, suddivise in settori scientifici ed economici per paese e per modelli di governance, sono il luogo deputato a concentrare questi sforzi e a raccogliere i dati dispersi, creando modelli comuni, condividendo esperienze e pratiche sui dati di un certo settore disciplinare. È quIndi necessario, se non vitale, sostenere le Infrastrutture di Ricerca Europee, in particolare quelle inserite nelle agende Europee come l’ESFRI roadmap [12], poiché sono proprio queste il luogo in cui – a livello Europeo – i ricercatori possono creare una comunità attiva dove si trovino strandard e pratiche comuni per la raccolta, e la presevazione e la condivisone dei dati della ricerca. Mentre infatti queste attività sono spesso onerose per singoli istituti di ricerca o per le università, esse diventano più attuabili quando inserite in un contesto europeo dove vengono condivise expertise, competenze e conoscenze specifiche per una certa disciplina, come avviene nel caso delle Scienze della Terra solida con l’infrastruttura EPOS [13].

Un’HPC di punta per l’elaborazione dei dati

In quarto luogo, in Europa è sempre più richiesta un’infrastruttura di calcolo ad alte prestazioni (HPC) di punta per l’elaborazione dei dati in ambito scientifico e ingegneristico. A livello mondiale, gli Stati Uniti, la Cina, il Giappone, la Russia e l’India stanno progredendo rapidamente. Questi paesi hanno indicato l’HPC come priorità strategica, finanziano programmi per lo sviluppo di ecosistemi HPC nazionali (hardware, software, applicazioni, competenze, servizi e interconnessioni) e lavorano sulla diffusione di supercomputer su scala exa [14]. Visto che l’Europa dipende sempre più da altre regioni per tecnologie di importanza fondamentale, corre il rischio di chiusura tecnologica, arretratezza o carenza di know-how strategico. Nessuno Stato membro preso singolarmente dispone delle risorse finanziarie per sviluppare il necessario ecosistema HPC in tempi che consentano di competere con gli Stati Uniti, il Giappone o la Cina, per cui si sta procedendo ad attuare politiche di integrazione delle risorse di calcolo per la scienza, come nel caso di PRACE [15] e della EuroHPC JU [16]. Tuttavia, la strada per una vera integrazione delle risorse di calcolo è ancora lunga e richiede sforzi maggiori nonostante gli investimenti siano notevoli [16].

La protezione dei dati

Infine, chi produce e utilizza dati scientifici deve poterli riutilizzare e avvalersi di tecniche di analisi avanzate, come l’estrazione di testi e dati (text mining e data mining), in un ambiente affidabile almeno quanto le proprie strutture. L’uso e il riutilizzo di dati scientifici deve garantire che i dati personali siano adeguatamente protetti ai sensi delle norme dell’UE sulla protezione dei dati. In particolare, l’attuazione del GDPR pone interessanti sfide nella sua applicazione a dati scientifici, sebbene questi ultimi godano di uno stato particolare che permette una ricerca senza eccessive restrizioni [17].

A che punto siamo con la creazione dello European Open Science Cloud

È la stessa commissione europea ad informarci che “L’attuazione dell’EOSC si basa su un processo a lungo termine di allineamento e coordinamento perseguito dalla Commissione dal 2015 con le numerose e diverse parti interessate del panorama europeo della ricerca.” [18]

Nella fase iniziale di attuazione (2018-2020), la Commissione europea ha investito circa 250 milioni di euro per prototipare componenti dell’EOSC attraverso progetti nell’ambito del programma Horizon 2020, ed ha inoltre lanciato una governance provvisoria dell’EOSC per preparare gli orientamenti strategici per l’attuazione dell’EOSC dopo il 2020.

L’attuale fase (2021-2030) si svolge nel contesto della EOSC European co-programmed partnership lanciata in occasione delle Research and Innovation Days 2021 e secondo la Strategic Research and Innovation Agenda che è co-sviluppata con l’intera comunità EOSC.

#RiDaysEU | Memorandum of Understanding signature ceremony for EU Partnerships

L’EOSC sta quindi passando a un approccio bottom-up che coinvolga maggiormente le parti interessate, ad esempio HPC providers, infrastrutture di ricerca, Università etc. con una visione condivisa, obiettivi comuni e contributi complementari a livello europeo, nazionale e istituzionale.

Per i prossimi 7 anni è previsto un coinvestimento (con contributi in natura e finanziari) da parte dei partner UE e non UE di almeno 1 miliardo di euro.

Una struttura tripartita di governance guiderà l’EOSC, che coinvolge: l’UE rappresentata dalla Commissione europea, i paesi partecipanti rappresentati nel comitato direttivo dell’EOSC (EOSC Steering Board) e la comunità di ricerca rappresentata dall’Associazione EOSC.

È possibile vedere la direzione che sta prendendo l’EOSC e gli ultimi sviluppi sull’ EOSC Portal che si propone come il gateway alle informazioni, ai servizi e alle risorse messe a comune dai partner dell’EOSC.

Opportunità e rischi di un’impresa too big to fail

Le opportunità e le ambizioni dell’EOSC sono a questo punto chiare: reggere il confronto a livello digitale con gli altri competitors sul mercato mondiale, vale a dire Stati Uniti, Cina, Giappone, Russia e India, anche considerando che l’Europa rimane il punto di riferimento per quanto riguarda la quantità e la qualità di dati scientifici (e relativo potenziale innovativo) prodotti.

L’EOSC potrà avere quindi un grande impatto innanzitutto sulla ricerca, che potendo usufruire di dati multidisciplinari, servizi e risorse di calcolo, potrà creare una sempre maggiore innovazione di cui l’Europa prima fra tutti dovrà fare tesoro. Gli effetti positivi riguardano anche tutto il mercato che gravita intorno alla ricerca, costituito da soggetti privati che forniscono risorse di supporto e consulenze. Tali soggetti inoltre possono partecipare anche alle iniziative con cui l’EOSC viene implementato, vale a dire i progetti europei nel già citato Horizon 2020 (e il futuro programma LIFE programme 2021-2027) con un chiaro vantaggio sia per i soggetti stessi, sia per la ricerca che sempre di più è chiamata a stabilire delle forme di collaborazione pubblico-privato.

C’è anche da sottolineare che lo strumento di implementazione dei progetti, quello che la Commissione utilizza oramai da decenni, sta rivelando già adesso i suoi limiti. Questo è un rischio che va considerato seriamente. Un rapido sguardo alla timeline dell’EOSC mostra come i progetti utilizzati per l’implementazione dell’EOSC siano molti. Come gestire allora il trasferimento di conoscenza tra progetti? Come assicurare che i risultati di un progetto siano coerenti con quanto sviluppato in un altro progetto? Come garantire che il coinvolgimento degli attori principali, vale a dire le infrastrutture di ricerca e le infrastrutture di calcolo HPC siano equamente coinvolte nelle iniziative?

Immagine che contiene testo Descrizione generata automaticamente

Fig. 1: EOSC timeline

Queste domande trovano parziale risposta nelle roadmap e nell’organizzazione della commissione, che ben lungi dal lasciare all’iniziativa dei proponenti dei progetti la strutturazione di una architettura coerente, ha proposto una governance chiara e una organizzazione delle attività che promuove integrazione tra gli output dei vari progetti.

Le ingenti risorse investite dall’Unione Europea nell’ EOSC, se da una parte sono una garanzia che questa iniziativa sia too big to fail, dall’altra rappresentano una rischiosa opportunità, che può drenare sforzi di singoli istituti e distrarre le attività di centri di ricerca, che al fine di conformarsi alle aspettative dell’EOSC devono effettuare una robusta operazione organizzativa e di integrazione delle attività interne con quelle dell’ EOSC, aspirazione quanto mai ambiziosa se non supportata da una chiara visione sul Cloud Europeo a livello nazionale.

Eppure, se c’è una certezza, questa è che anche lo European Open Science Cloud produrrà dei risultati per la ricerca e per i partner privati, come è già evidente dalla conclusione delle prime iniziative che hanno avuto il merito di promuovere una maggiore interoperabilità a livello tecnico (dati FAIR), legale-amministrativo (GDPR) e di governance (costruzione di associazioni e organizzazioni) tra soggetti che nel passato agivano in maniera quasi indipendente e con un basso livello di coordinamento.

Forse con un passo lento, in maniera articolata e di difficile coordinazione, ma dei benefici ci saranno e solo il tempo saprà indicarci con quale rapporto costi-benefici.

Bibliografia

[1] Come il machine learning sta trasformando la ricerca: il caso del laboratorio ENEA

[2] Tony Hey su Wikipedia

[3] Kristin Tolle; Tony Hey; Stewart Tansley (2009). The Fourth Paradigm: Data-Intensive Scientific Discovery (Volume 1). Microsoft Research. ISBN 978-0-9825442-0-4.

[4] Comunicazione della Commissione al Parlamento europeo, al Consiglio, al Comitato economico e sociale europeo e al Comitato delle regioni European Cloud Initiative – Costruire un’economia competitiva dei dati e della conoscenza in Europa

[5] Comunicazione della Commissione al Parlamento europeo, al Consiglio, al Comitato economico e sociale europeo e al Comitato delle regioni Strategia per il mercato unico digitale in Europa

[6] si vedano i lavori preparatori della Commissione avviati con un gruppo di esperti ad alto livello incaricato di formulare pareri sulla sua struttura

[7] Ad esempio, nel settore della salute (e i progetti del Cer Biotensors, Diocles, Smac), dell’astronomia (ad esempio SparseAstro), del cambiamento climatico, della migrazione o di internet (ad esempio Diadem, Migrant, Rapid, Thinkbig).

[8] La direttiva 2007/2/CE (direttiva INSPIRE) fornisce un acquis per la condivisione dei dati territoriali. L’ambito di applicazione di tali leggi è tuttavia limitato a determinati dati e servizi legati alle politiche per l’ambiente, le calamità naturali e la sanità, e non tutti gli ostacoli correlati alle politiche in materia di dati sono stati superati in modo efficace.

[9] Wilkinson, M., Dumontier, M., Aalbersberg, I. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data 3, 160018 (2016).

[10] Nel simpatico articolo Principi e Dati F.A.I.R.: cosa sono? (Perché) ne abbiamo bisogno? vengono elencati progetti e risorse correlati ai principi FAIR

[11] questo interessante articolo discute l’impatto dello European Interoperability Framework sulla trasformazione digital per il “citizen empowerment”.

[12] L’ESFRI, il Forum strategico europeo sulle infrastrutture di ricerca, è uno strumento strategico per sviluppare l’integrazione scientifica dell’Europa e rafforzare la sua diffusione internazionale.

[13] EPOS, l’European Plate Observing System, è un’infrastruttura di ricerca distribuita multidisciplinare che facilita l’uso integrato di dati, prodotti di dati e strutture della solida comunità scientifica della Terra in Europa.

[14] A titolo di esempio, questo articolo riporta indiscrezioni secondo cui la Cina sarebbe già in possesso di tre infrastrutture di calcolo Exascale

[15] La missione di PRACE (Partnership for Advanced Computing in Europe) è consentire la scoperta scientifica ad alto impatto e la ricerca ingegneristica e lo sviluppo in tutte le discipline per migliorare la competitività europea a beneficio della società. PRACE cerca di realizzare questa missione offrendo risorse e servizi informatici e di gestione dei dati di livello mondiale attraverso un processo di revisione tra pari.

[16] La European High-Perfomance Computing Joint Undertaking (EuroHPC JU) è un’impresa comune della CE e di 32 paesi europei che mette insieme risorse europee per finanziare HPC europeo integrato e infrastrutture di dati di livello mondiale e supporta un HPC altamente competitivo e innovativo e un ecosistema Big Data. Il suo budget per il 2019-20 è di 1,1 miliardi di euro.

[17] Nell’articolo “The impact of the GDPR on scientific data” viene trattato l’impatto del GDPR sui dati della ricercar anche facendo riferimento al A Preliminary Opinion on data protection and scientific research effettuato dall’autorità indipendente “European Data Protection Supervisor (EDPS)”

[18] European Open Science Cloud (EOSC): What the cloud is, how it was developed and being implemented

  1. Il calcolo exascale si riferisce a sistemi informatici in grado di calcolare almeno 1018 operazioni in virgola mobile al secondo (1 exa FLOPS). La terminologia si riferisce generalmente alle prestazioni dei sistemi di supercomputer (https://hmn.wiki/it/Exascale).
  2. La strategia del mercato unico digitale intende garantire che l’economia, l’industria e la società europee traggano il massimo vantaggio dalla nuova era digitale. Insieme a dati, soluzioni elettroniche e servizi digitali transfrontalieri, tale strategia è parte integrante del progetto dell’UE per un’Europa digitale. (https://www.consilium.europa.eu/it/policies/digital-single-market/ )
WHITEPAPER
Big Data Analytics: dai browser ai social. Come analizzare la quantità crescente di dati?
@RIPRODUZIONE RISERVATA

Articolo 1 di 4