Associazione editori

Editori e big tech, regole condivise per i diritti di text e data mining: ecco perché conviene

Lo sviluppo di soluzioni machine readable per esprimere diritti e licenze associati ai contenuti in rete può consentire lo sviluppo di servizi innovativi, tutelando anche la creatività e il lavoro autoriale e editoriale che li rende possibili. Serve però una soluzione standard condivisa tra editori e aziende tecnologiche

09 Mar 2021
Giulia Marangoni

coordinatrice, in rappresentanza dell’Associazione Italiana Editori (AIE), del W3C Community Group “Text and Data Mining Reservation Protocol”

diritto di cronaca copyright

Una gestione corretta del diritto d’autore è essenziale per consentire a tutti i creatori di contenuti di poter esprimere le condizioni sotto cui i contenuti online si aprono all’utilizzo da parte delle applicazioni dell’intelligenza artificiale. Serve perciò un’intesa al massimo livello per l’individuazione di standard tecnologici semplici e adeguati tra i produttori e le aziende tecnologiche, che faciliti l’acquisizione delle licenze per il text and data mining, evitando la creazione di un regime di protezione differenziato per i contenuti autoprodotti e quelli realizzati in modo professionale.

In questo senso si muove il lavoro del Community Group del W3C, che si prefigge di individuare soluzioni machine readable semplici, basate sugli standard già in uso nel web, che consentano ad autori e editori di riservare i diritti per il “text and data mining” per finalità commerciali e di comunicare le eventuali licenze disponibili, facilitando lo sviluppo di applicazioni di intelligenza artificiale basate sull’uso legittimo dei contenuti protetti dal diritto d’autore.

La Direttiva europea sul diritto d’autore nel mercato unico digitale

Per comprendere l’importanza di questi temi, partiamo da un semplice dato di contesto. Alcune applicazioni dei sistemi di intelligenza artificiale sono oggi di uso comune e note a tutti noi: dagli assistenti vocali ai sistemi di traduzione automatizzata, ne facciamo esperienza quotidianamente e ci hanno sicuramente reso la vita più facile. Quello che è meno noto è che le intelligenze artificiali nascono e crescono con il contributo di tutti: la gigantesca miniera di informazioni e dati disponibili in rete è infatti la “benzina” che alimenta le intelligenze artificiali e che viene ottenuta tramite tecniche di estrazione e analisi automatizzata del testo e dei dati (text and data mining) da parte di agenti software in grado di individuare nuovi modelli, tendenze, correlazioni tra i dati, generando nuova conoscenza.

WHITEPAPER
Retail: come costruire il buyer journey perfetto grazie ai dati?
Fashion
Retail

La Direttiva europea sul diritto d’autore nel mercato unico digitale, che dovrà essere recepita negli Stati membri entro giugno 2021, introduce due nuove eccezioni per gli utilizzi dei contenuti protetti da diritto d’autore per le finalità di text and data mining.

La prima (art. 3), non è controversa e consente agli enti di ricerca e agli istituti di tutela del patrimonio culturale di effettuare riproduzioni ed estrazioni, per scopi non commerciali di ricerca scientifica, di testo e dati dalle opere a cui hanno legalmente accesso (ad esempio in abbonamento o tramite licenze ad accesso aperto), al fine di armonizzare e promuovere l’applicazione dell’intelligenza artificiale in ausilio alla ricerca scientifica.

La seconda eccezione (art. 4) estende invece la possibilità di applicare le tecniche di text and data mining a qualunque soggetto e per qualsiasi scopo, anche commerciale, a meno che tale utilizzo non venga espressamente riservato dagli aventi diritto. Nel caso dei contenuti liberamente accessibili sul web, la riserva dei diritti per il text and data mining potrà essere effettuata tramite strumenti “machine readable”, stringhe di codice presenti nei siti che possano essere interpretati automaticamente dalle applicazioni software che esplorano la rete (di cui l’esempio più immediato sono i web crawler che indicizzano le pagine per i motori di ricerca).

Il Text and Data Mining Reservation Protocol del Community Group del W3C

L’eccezione introdotta all’art. 4 mette a confronto da una parte le opportunità delle tecniche di intelligenza artificiale applicate ai contenuti liberamente accessibili in rete, dall’altra il diritto di chi scrive e pubblica i testi sul web – articoli, notizie, blog, pubblicazioni in accesso aperto – di decidere se e quando autorizzarne lo sfruttamento da parte di soggetti con finalità commerciali: nasce da questa doppia necessità il lavoro avviato dal Community Group del W3C “Text and Data Mining Reservation Protocol” che coordino in rappresentanza dell’Associazione Italiana Editori (AIE), insieme al francese Laurent Le Meur di EDRLab, organizzazione impegnata nello sviluppo di standard aperti e interoperabili per i contenuti editoriali. Il gruppo è sostenuto dalla Federazione degli editori europei (FEP) e dalla associazione francese degli editori (SNE).

Per mettere a punto tali strumenti è fondamentale orientarsi verso soluzioni standard, aperte, in linea con le pratiche già in uso nell’industria dei contenuti e con i formati e i protocolli in uso nel web e per le quali non vi siano barriere tecnologiche o economiche all’utilizzo. Occorre infatti garantire che gli strumenti per effettuare la riserva dei diritti siano accessibili a tutti, dal grande editore ai singoli utenti della rete che, con i contenuti autoprodotti, potrebbero diventare i principali “lavoratori non retribuiti” nel processo di istruzione delle intelligenze artificiali.

Per questo, il lavoro del Community group è una risorsa per tutti, che consentirà di generare nuovi servizi e valorizzare al contempo il lavoro di chi quei contenuti li ha prodotti.

L’importanza di una gestione corretta del diritto d’autore

Non è sempre facile spiegare quanto sia cruciale una gestione corretta del diritto d’autore per promuovere l’innovazione in questo campo, se non altro perché non siamo in grado di conoscere oggi le potenzialità delle tecniche di text and data mining tra cinque anni e quali nuovi progressi faranno le intelligenze artificiali. Possiamo fare però degli esempi, delle ipotesi che già ci danno un ordine di grandezza della rilevanza del tema. Già da diversi anni alcune agenzie di stampa hanno sperimentato la creazione automatizzata di articoli che danno conto degli andamenti di Borsa di un determinato titolo azionario: è relativamente semplice farlo perché si tratta di riportare numeri e percentuali già determinati, collegandoli tra loro attraverso frasi e considerazioni che seguono degli andamenti standard. Ma è possibile che in un futuro non molto remoto gli articoli giornalistici prodotti dalle intelligenze artificiali siano sempre più complessi e che vengano creati sulla base dell’enorme mole di articoli già presenti online: in assenza di strumenti adeguati di gestione dei diritti in ambiente digitale un’azienda tecnologicamente all’avanguardia potrebbe istruire e sfruttare commercialmente, meglio di quanto possa fare una testata, un “robot giornalista” sfruttando il lavoro dei giornalisti in carne e ossa senza adeguata remunerazione del loro lavoro. E ancora: se una piattaforma di streaming utilizzasse l’enorme mole di recensioni sulle serie tv presenti in rete, per analizzare il “sentiment” di ogni puntata o di ogni genere proposto, e questo le permettesse di guadagnare di più individuando meglio quali progetti finanziare, tale piattaforma non dovrebbe in qualche modo darne conto a chi quei giudizi li ha scritti? A fronte di questi scenari, lo sviluppo di soluzioni machine readable per esprimere i diritti e le licenze associati ai contenuti in rete può consentire lo sviluppo di servizi innovativi, tutelando allo stesso tempo la creatività e il lavoro autoriale e editoriale che li rende possibili.

I danni all’innovazione in assenza di soluzioni condivise

Se questi due esempi possono spiegare anche solo in parte l’importanza di una corretta gestione dei diritti d’autore per lo sviluppo delle applicazioni basate sull’intelligenza artificiale, va ricordato che una gestione il più possibile automatizzata delle licenze è indispensabile alle stesse aziende tecnologiche affinché i servizi di text and data mining per finalità diverse dalla ricerca possano decollare.

Il quadro di incertezza che si verrebbe a creare in assenza di soluzioni di licenza condivise tra produttori di contenuti e aziende tecnologiche spingerebbe inevitabilmente i primi a decidere di negare tout court l’accesso ai testi, e questo sarebbe un danno all’innovazione. Inoltre, l’assenza di una soluzione standard condivisa che possa essere promossa su scala europea rischia di incentivare la proliferazione di strumenti e tecnologie differenti per autorizzare il text and data mining, il che renderebbe estremamente dispendioso e inefficiente per le aziende tecnologiche ottenere le licenze quando invece la raccolta dei big data ha senso proprio se può essere fatta in maniera automatizzata e veloce. Va infine ricordato che la definizione rigorosa delle licenze di utilizzo dei contenuti in rete è importante anche per evitare confusione tra applicazioni dell’intelligenza artificiale con diverse finalità. In particolare, la riserva dei diritti per finalità di text and data mining non deve pregiudicare l’accesso dei produttori di contenuti ad altri servizi forniti dalle aziende tecnologiche quale l’indicizzazione dei contenuti ai fini della loro ricercabilità nei risultati dei motori di ricerca.

Conclusioni

La sfida che ci troviamo davanti è sicuramente molto difficile, ma anche estremamente interessante: stiamo definendo le regole di un gioco che ancora non sappiamo come influenzerà la nostra vita futura, ma già sappiamo che la influenzerà moltissimo.

@RIPRODUZIONE RISERVATA

Speciale PNRR

Tutti
Incentivi
PA
Sostemibilità
Analisi
Formazione
Salute digitale
Sicurezza
Sostenibilità
Digital Economy
Formazione
Trasferimento tecnologico, il Mise mette sul piatto 7,5 milioni
Strategie
PSN e Strategia Cloud Italia: a che punto siamo e come supportare la PA in questo percorso
Dispersione idrica
Siccità: AI e analisi dei dati possono ridurre gli sprechi d’acqua. Ecco gli interventi necessari
PNRR
Cloud, firmato il contratto per l’avvio di lavori del Polo strategico
Formazione
Competenze digitali, stanziati 48 milioni per gli Istituti tecnologici superiori
Iniziative
Digitalizzazione delle reti idriche: oltre 600 milioni per 21 progetti
Competenze e competitività
PNRR, così i fondi UE possono rilanciare la ricerca e l’Università
Finanziamenti
PNRR, si sbloccano i fondi per l’agrisolare
Sanità post-pandemica
PNRR, Missione Salute: a che punto siamo e cosa resta da fare
Strategie
Sovranità e autonomia tecnologica nazionale: come avviare un processo virtuoso e sostenibile
La relazione
Pnrr e PA digitale, l’alert della Corte dei conti su execution e capacità di spesa
L'editoriale
Elezioni 2022, la sfida digitale ai margini del dibattito politico
Strategie
Digitale, il monito di I-Com: “Senza riforme Pnrr inefficace”
Transizione digitale
Pnrr: arrivano 321 milioni per cloud dei Comuni, spazio e mobilità innovativa
L'analisi I-COM
Il PNRR alla prova delle elezioni: come usare bene le risorse e centrare gli obiettivi digitali
Cineca
Quantum computing, una svolta per la ricerca: lo scenario europeo e i progetti in corso
L'indice europeo
Desi, l’Italia scala due posizioni grazie a fibra e 5G. Ma è (ancora) allarme competenze
L'approfondimento
PNRR 2, ecco tutte le misure per cittadini e imprese: portale sommerso, codice crisi d’impresa e sismabonus, cosa cambia
Servizi digitali
PNRR e trasformazione digitale: ecco gli investimenti e le riforme previste per la digitalizzazione della PA
Legal health
Lo spazio europeo dei dati sanitari: come circoleranno le informazioni sulla salute nell’Unione Europea
Servizi digitali
PNRR e PA digitale: non dimentichiamo la dematerializzazione
Digital Healthcare transformation
La trasformazione digitale degli ospedali
Governance digitale
PA digitale, è la volta buona? Così misure e risorse del PNRR possono fare la differenza
Servizi digitali
Comuni e digitale, come usare il PNRR senza sbagliare
La survey
Pnrr e digitale accoppiata vincente per il 70% delle pmi italiane
Missione salute
Fascicolo Sanitario Elettronico alla prova del PNRR: limiti, rischi e opportunità
Servizi pubblici
PNRR: come diventeranno i siti dei comuni italiani grazie alle nuove risorse
Skill gap
PNRR, la banda ultra larga crea 20.000 nuovi posti di lavoro
Il Piano
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUMPA2022
PNRR e trasformazione digitale: rivedi i Talk di FORUM PA 2022 in collaborazione con le aziende partner
I contratti
Avio, 340 milioni dal Pnrr per i nuovi propulsori a metano
Next Generation EU
PNRR, a che punto siamo e cosa possono aspettarsi le aziende private
Fondi
Operativo il nuovo portale del MISE con tutti i finanziamenti per le imprese
Servizi comunali
Il PNRR occasione unica per i Comuni digitali: strumenti e risorse per enti e cittadini
Healthcare data platform
PNRR dalla teoria alla pratica: tecnologie e soluzioni per l’innovazione in Sanità
Skill
Competenze digitali, partono le Reti di facilitazione
Gli obiettivi
Scuola 4.0, PNRR ultima chance: ecco come cambierà il sistema formativo
Sistema Paese
PNRR 2, è il turno della space economy
FORUM PA 2022
FORUM PA 2022: la maturità digitale dei comuni italiani rispetto al PNRR
Analisi
PNRR: dalla Ricerca all’impresa, una sfida da cogliere insieme
Innovazione
Pnrr, il Dipartimento per la Trasformazione digitale si riorganizza
FORUM PA 2022
PA verde e sostenibile: il ruolo di PNRR, PNIEC, energy management e green public procurement
Analisi
PNRR, Comuni e digitalizzazione: tutto su fondi e opportunità, in meno di 3 minuti. Guarda il video!
Rapporti
Competenze digitali e servizi automatizzati pilastri del piano Inps
Analisi
Attuazione del PNRR: il dialogo necessario tra istituzioni e società civile. Rivedi lo Scenario di FORUM PA 2022
Progetti
Pnrr, fondi per il Politecnico di Torino. Fra i progetti anche IS4Aerospace
Analisi
PNRR, Colao fa il punto sulla transizione digitale dell’Italia: «In linea con tutte le scadenze»
La Svolta
Ict, Istat “riclassifica” i professionisti. Via anche al catalogo dati sul Pnrr
Analisi
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUM PA 2022
Ecosistema territoriale sostenibile: l’Emilia Romagna tra FESR e PNRR
Il Piano
Innovazione, il Mise “centra” gli obiettivi Pnrr: attivati 17,5 miliardi
Analisi
PNRR: raggiunti gli obiettivi per il primo semestre 2022. Il punto e qualche riflessione
Analisi
PNRR: dal dialogo tra PA e società civile passa il corretto monitoraggio dei risultati, tra collaborazione e identità dei luoghi
Webinar
Comuni e PNRR: un focus sui bandi attivi o in pubblicazione
Analisi
Formazione 4.0: cos’è e come funziona il credito d’imposta
PA e Sicurezza
PA e sicurezza informatica: il ruolo dei territori di fronte alle sfide della digitalizzazione
PA e sicurezza
PNRR e servizi pubblici digitali: sfide e opportunità per Comuni e Città metropolitane
Water management
Water management in Italia: verso una transizione “smart” e “circular” 
LE RISORSE
Transizione digitale, Simest apre i fondi Pnrr alle medie imprese
Prospettive
Turismo, cultura e digital: come spendere bene le risorse del PNRR
Analisi
Smart City: quale contributo alla transizione ecologica
Decarbonizzazione
Idrogeno verde, 450 milioni € di investimenti PNRR, Cingolani firma
Unioncamere
PNRR, imprese in ritardo: ecco come le Camere di commercio possono aiutare
I fondi
Industria 4.0: solo un’impresa su tre pronta a salire sul treno Pnrr
Formazione
Trasferimento tecnologico, il Mise mette sul piatto 7,5 milioni
Strategie
PSN e Strategia Cloud Italia: a che punto siamo e come supportare la PA in questo percorso
Dispersione idrica
Siccità: AI e analisi dei dati possono ridurre gli sprechi d’acqua. Ecco gli interventi necessari
PNRR
Cloud, firmato il contratto per l’avvio di lavori del Polo strategico
Formazione
Competenze digitali, stanziati 48 milioni per gli Istituti tecnologici superiori
Iniziative
Digitalizzazione delle reti idriche: oltre 600 milioni per 21 progetti
Competenze e competitività
PNRR, così i fondi UE possono rilanciare la ricerca e l’Università
Finanziamenti
PNRR, si sbloccano i fondi per l’agrisolare
Sanità post-pandemica
PNRR, Missione Salute: a che punto siamo e cosa resta da fare
Strategie
Sovranità e autonomia tecnologica nazionale: come avviare un processo virtuoso e sostenibile
La relazione
Pnrr e PA digitale, l’alert della Corte dei conti su execution e capacità di spesa
L'editoriale
Elezioni 2022, la sfida digitale ai margini del dibattito politico
Strategie
Digitale, il monito di I-Com: “Senza riforme Pnrr inefficace”
Transizione digitale
Pnrr: arrivano 321 milioni per cloud dei Comuni, spazio e mobilità innovativa
L'analisi I-COM
Il PNRR alla prova delle elezioni: come usare bene le risorse e centrare gli obiettivi digitali
Cineca
Quantum computing, una svolta per la ricerca: lo scenario europeo e i progetti in corso
L'indice europeo
Desi, l’Italia scala due posizioni grazie a fibra e 5G. Ma è (ancora) allarme competenze
L'approfondimento
PNRR 2, ecco tutte le misure per cittadini e imprese: portale sommerso, codice crisi d’impresa e sismabonus, cosa cambia
Servizi digitali
PNRR e trasformazione digitale: ecco gli investimenti e le riforme previste per la digitalizzazione della PA
Legal health
Lo spazio europeo dei dati sanitari: come circoleranno le informazioni sulla salute nell’Unione Europea
Servizi digitali
PNRR e PA digitale: non dimentichiamo la dematerializzazione
Digital Healthcare transformation
La trasformazione digitale degli ospedali
Governance digitale
PA digitale, è la volta buona? Così misure e risorse del PNRR possono fare la differenza
Servizi digitali
Comuni e digitale, come usare il PNRR senza sbagliare
La survey
Pnrr e digitale accoppiata vincente per il 70% delle pmi italiane
Missione salute
Fascicolo Sanitario Elettronico alla prova del PNRR: limiti, rischi e opportunità
Servizi pubblici
PNRR: come diventeranno i siti dei comuni italiani grazie alle nuove risorse
Skill gap
PNRR, la banda ultra larga crea 20.000 nuovi posti di lavoro
Il Piano
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUMPA2022
PNRR e trasformazione digitale: rivedi i Talk di FORUM PA 2022 in collaborazione con le aziende partner
I contratti
Avio, 340 milioni dal Pnrr per i nuovi propulsori a metano
Next Generation EU
PNRR, a che punto siamo e cosa possono aspettarsi le aziende private
Fondi
Operativo il nuovo portale del MISE con tutti i finanziamenti per le imprese
Servizi comunali
Il PNRR occasione unica per i Comuni digitali: strumenti e risorse per enti e cittadini
Healthcare data platform
PNRR dalla teoria alla pratica: tecnologie e soluzioni per l’innovazione in Sanità
Skill
Competenze digitali, partono le Reti di facilitazione
Gli obiettivi
Scuola 4.0, PNRR ultima chance: ecco come cambierà il sistema formativo
Sistema Paese
PNRR 2, è il turno della space economy
FORUM PA 2022
FORUM PA 2022: la maturità digitale dei comuni italiani rispetto al PNRR
Analisi
PNRR: dalla Ricerca all’impresa, una sfida da cogliere insieme
Innovazione
Pnrr, il Dipartimento per la Trasformazione digitale si riorganizza
FORUM PA 2022
PA verde e sostenibile: il ruolo di PNRR, PNIEC, energy management e green public procurement
Analisi
PNRR, Comuni e digitalizzazione: tutto su fondi e opportunità, in meno di 3 minuti. Guarda il video!
Rapporti
Competenze digitali e servizi automatizzati pilastri del piano Inps
Analisi
Attuazione del PNRR: il dialogo necessario tra istituzioni e società civile. Rivedi lo Scenario di FORUM PA 2022
Progetti
Pnrr, fondi per il Politecnico di Torino. Fra i progetti anche IS4Aerospace
Analisi
PNRR, Colao fa il punto sulla transizione digitale dell’Italia: «In linea con tutte le scadenze»
La Svolta
Ict, Istat “riclassifica” i professionisti. Via anche al catalogo dati sul Pnrr
Analisi
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUM PA 2022
Ecosistema territoriale sostenibile: l’Emilia Romagna tra FESR e PNRR
Il Piano
Innovazione, il Mise “centra” gli obiettivi Pnrr: attivati 17,5 miliardi
Analisi
PNRR: raggiunti gli obiettivi per il primo semestre 2022. Il punto e qualche riflessione
Analisi
PNRR: dal dialogo tra PA e società civile passa il corretto monitoraggio dei risultati, tra collaborazione e identità dei luoghi
Webinar
Comuni e PNRR: un focus sui bandi attivi o in pubblicazione
Analisi
Formazione 4.0: cos’è e come funziona il credito d’imposta
PA e Sicurezza
PA e sicurezza informatica: il ruolo dei territori di fronte alle sfide della digitalizzazione
PA e sicurezza
PNRR e servizi pubblici digitali: sfide e opportunità per Comuni e Città metropolitane
Water management
Water management in Italia: verso una transizione “smart” e “circular” 
LE RISORSE
Transizione digitale, Simest apre i fondi Pnrr alle medie imprese
Prospettive
Turismo, cultura e digital: come spendere bene le risorse del PNRR
Analisi
Smart City: quale contributo alla transizione ecologica
Decarbonizzazione
Idrogeno verde, 450 milioni € di investimenti PNRR, Cingolani firma
Unioncamere
PNRR, imprese in ritardo: ecco come le Camere di commercio possono aiutare
I fondi
Industria 4.0: solo un’impresa su tre pronta a salire sul treno Pnrr

Articoli correlati