Text e Data Mining: come tutelare il database dopo la Direttiva Copyright

Il Text and Data Mining comporta la riproduzione delle fonti utilizzate e pone rischi alla tutela del database: i dettagli della direttiva Copyright, gli accorgimenti da adottare

Il “Text and Data Mining” (o “TDM”) è l’analisi computazionale automatizzata di contenuti digitali: un’attività che ha assunto un ruolo centrale in numerosissimi settori dell’economia dei dati, dalla ricerca farmaceutica, allo sfruttamento dell’Intelligenza Artificiale e dei cosiddetti Big Data^[1].

Dal 12 dicembre 2021^[2], la Legge sul diritto d’autore (L. 22 aprile 1941 n. 633, di seguito “l.d.a.”) contiene due previsioni che disciplinano espressamente il TDM alla luce della direttiva Copyright. Le due eccezioni giuridiche impattano sulla tutela delle banche dati. Vediamo in dettaglio.

Editori e big tech, regole condivise per i diritti di text e data mining: ecco perché conviene

Indice degli argomenti

Text e Data Mining: la definizione giuridica e cosa comporta

L’art. 70 ter l.d.a. definisce il text e data mining, l’estrazione di testo e dati, come “qualsiasi tecnica automatizzata volta ad analizzare grandi quantità di testi, suoni, immagini, dati o metadati in formato digitale con lo scopo di generare informazioni, inclusi modelli, tendenze e correlazioni”.

Si tratta di attività svolte tramite software che, grazie a elevate capacità computazionali, sono in grado di individuare, estrarre e analizzare informazioni rilevanti da fonti digitali, identificando così modelli e correlazioni che per un umano sarebbe estremamente difficoltoso riconoscere a causa della quantità di dati coinvolti.

Nel caso del TDM, è un’attività paragonabile a quella del ricercatore che studi o analizzi opere o banche dati altrui, salvo per il fatto che il lavoro di studio e analisi è svolto da un computer e che la quantità di informazioni coinvolte è spesso enorme.

Tuttavia, mentre lo studio di un archivio o un’opera da parte di un ricercatore umano non pone grandi problemi giuridici, l’estrazione automatizzata di dati può scontrarsi con il diritto d’autore e i diritti ad esso connessi.

Questo perché il TDM presuppone normalmente la riproduzione, anche solo temporanea, delle fonti utilizzate, incluse le eventuali opere protette o intere porzioni delle banche dati impiegate.

Nella maggior parte dei casi, per analizzare dei dati un software deve estrarli dalla fonte originale e riprodurli^[3]. Ciò può costituire una violazione del diritto d’autore (in particolare, del diritto esclusivo di riproduzione ex art. 13 l.d.a.)^[4]. Inoltre, può essere in contrasto con il diritto del costitutore di un database di vietare l’estrazione o il reimpiego della totalità o di una parte sostanziale dello stesso (artt. 102 bis e 102 ter l.d.a.)^[5].

Il TDM può essere pertanto considerato uno strumento fondamentale per lo sviluppo dell’economia dei dati e, dunque, per la crescita del mercato unico digitale dell’Unione Europea^[6].

Il conflitto tra la necessità di tutelare la proprietà intellettuale, da un lato, e l’esigenza di salvaguardare la competitività del mercato europeo, dall’altro, impone un attento bilanciamento dei diritti e degli interessi in gioco.

Condizionare l’attività di text and data mining alla necessità di ottenere in ogni caso l’autorizzazione dei titolari dei diritti di privativa coinvolti, significherebbe imporre elevati costi transattivi, che limiterebbero grandemente lo sfruttamento delle moderne tecnologie di ricerca, ponendo freni eccessivi allo sviluppo. È per tali ragioni che il legislatore dell’UE ha riformato la materia, introducendo delle eccezioni e limitazioni al diritto d’autore obbligatorie per ogni Stato Membro^[7].

Text Data Mining: le eccezioni giuridiche della direttiva Copyright

È nella sopra descritta ottica che vanno letti gli art. 70 ter e 70 quater l.d.a. che consentono l’estrazione di dati da fonti e database cui si abbia lecitamente accesso, senza alcuna necessità di autorizzazione da parte degli eventuali titolari dei diritti d’autore e/o del diritto sui generis sulle banche dati.

Le due norme, che attuano rispettivamente gli art. 3 e 4 della Direttiva Copyright, hanno però ambiti di applicazione e operatività distinti.

Mentre l’art. 70 ter riguarda unicamente l’estrazione per fini scientifici da parte di organismi di ricerca e istituti di tutela del patrimonio culturale, l’art. 70 quater consente l’estrazione di testo e dati in generale, da parte di chiunque, anche per mero fine di lucro.

Ciò detto, le due norme condividono un presupposto – l’estrazione è permessa solo a chi abbia legittimo accesso alla fonte – ma presentano differenze sostanziali.

Infatti, la norma che consente l’estrazione per fini di ricerca è imperativa e ogni patto contrario è nullo per espressa previsione normativa (art. 70 ter, c. 9, l.d.a). Al contrario, l’estrazione di dati per fini diversi è concessa solo quando l’utilizzo delle opere e degli altri materiali riprodotti nell’ambito dell’attività di text and data mining non sia stato espressamente riservato dai titolari dei relativi diritti.

Text Data Mining: i rischi per la tutela del database

Il recepimento della Direttiva Copyright rende più complessa la tutela dei diritti di privativa sulle banche dati digitali, con un impatto maggiore sul diritto sui generis del costitutore del database rispetto al diritto d’autore^[8].

Il costitutore ha, infatti, la facoltà di impedire la riproduzione di tutta o di una parte sostanziale della banca dati (art. 102 bis l.d.a.). Tuttavia, mentre l’art. 70 ter l.d.a. introduce una deroga con un ambito di applicazione piuttosto limitato (vale soltanto per il TDM svolto per fini scientifici da una categoria ristretta di soggetti), l’art. 70 quater l.d.a. introduce un’eccezione di carattere generale che consente a qualunque utente di svolgere in maniera automatizzata, senza necessità di alcuna autorizzazione, una serie di attività che, di fatto, costituiscono il normale uso di una banca dati.

A meno che il proprietario del database non adotti i giusti accorgimenti, pertanto, il suo diritto sui generis rischia di essere fortemente limitato, al punto di essere svuotato di gran parte del proprio valore^[9].

Gli accorgimenti da adottare per tutelare il database

La prima considerazione da fare è che il TDM rimane consentito soltanto per l’utente legittimo, colui che abbia il diritto di accedere legalmente alla banca dati^[10]. Un primo accorgimento per impedire a terzi di effettuare il TDM dei propri database sarebbe dunque di limitarne l’accesso.

Tuttavia, almeno per quanto riguarda l’eccezione generale di TDM, vi è la possibilità di impedire l’estrazione non autorizzata di informazioni senza impedire la consultazione della banca dati:

si tratta dell’opt-out previsto dall’art. 70 quater l.d.a.

In base a esso, il TDM è consentito di default, a meno che l’uso delle opere e dei materiali in questione non sia espressamente riservato dal titolare dei diritti. Inoltre – la norma italiana di recepimento non lo dice ma la Direttiva Copyright è chiara sul punto – tale riserva deve essere espressa in “modo appropriato”.

Da un lato, parrebbe che l’opt-out possa essere esercitato in ogni caso tramite l’inserimento di un’apposita clausola in un contratto. Tale assunto è confermato dal fatto che l’art. 7.1 della Direttiva Copyright non menziona l’art. 4 (sull’eccezione generale di TDM) tra le norme inderogabili.

Dall’altro lato, il legislatore comunitario ha fornito alcune indicazioni che potrebbero essere interpretate in senso più restrittivo, laddove ha scritto che, nel caso di contenuti resi disponibili online, “dovrebbe essere ritenuto appropriato” esercitare l’opt-out “solo attraverso l’uso di strumenti che consentano una lettura automatizzata^[11]” (Considerando 18, Direttiva Copyright)^[12].

In definitiva, non vi è ancora chiarezza sulla questione, che pure assume una grande rilevanza per i soggetti che vogliano riservare il diritto di estrazione sulle proprie banche dati.

Diviene dunque importante comprendere cosa intenda il legislatore comunitario con l’espressione “strumenti che consentano una lettura automatizzata”.

A tale proposito, non si può dubitare che un software, in astratto, possa essere in grado di riconoscere un opt-out espresso in caratteri testuali nei termini d’uso di un sito. Tale accorgimento potrebbe quindi essere ritenuto sufficiente a esprimere in modo appropriato la riserva di cui all’art. 70 quater l.d.a.

D’altro canto, non vi è dubbio che l’utilizzo di strumenti informatici come un file robots.txt^[13] potrebbero essere più efficaci e, in definitiva, tutelare maggiormente il titolare dei diritti.

____________________

Note

Cfr. D. Gervais, “Exploring the Interfaces Between Big Data and Intellectual Property Law”, 10 (2019), JIPITEC 3, para 1. ↑
Data in cui è entrato in vigore il decreto legislativo n. 177/2021 che recepisce nell’ordinamento italiano la Direttiva (UE) 2019/790 del Parlamento europeo e del Consiglio, del 17 aprile 2019, sul diritto d’autore e sui diritti connessi nel mercato unico digitale e che modifica le direttive 96/9/CE e 2001/29/CE (“Direttiva Copyright”). ↑
V. R. Ducato, A. Strowel, “Ensuring Text and Data Mining: Remaining Issues With the EU Copyright Exceptions and Possible Ways Out”, CRIDES Working Paper Series n. 1/2021. ↑
L’impostazione secondo la quale la riproduzione di un’opera nell’ambito del TDM può costituire una violazione del diritto d’autore deriva dalla ampia tutela del diritto di riproduzione fornita dall’art. 2 della direttiva 2001/29/CE (la c.d. direttiva InfoSoc, o direttiva copyright del 2001). Sul punto cfr. C. Geiger, G. Frosio e O. Bulayenko, “Text and Data Mining: Articles 3 and 4 of the Directive 2019/790/EU”, in SSRN Electronic Journal, Ottobre 2019. V. anche R. Ducato, A. Strowel, op. cit. ↑
Tramite gli artt. 102 bis e ter l.d.a. il legislatore italiano ha recepito nell’ordinamento nazionale il c.d. diritto sui generis del costitutore di una banca dati, disciplinato a livello dell’Unione Europea dalla c.d. direttiva Database (direttiva 96/9/CE). Si tratta del diritto di vietare le operazioni di estrazione di un database ovvero il reimpiego della totalità o di una parte sostanziale dello stesso, fatta salva la mera consultazione da parte dell’utente legittimo e l’estrazione e/o il reimpiego di parti non sostanziali. ↑
V. Considerando 8 ss., Direttiva Copyright. ↑
Mentre, in precedenza, erano state introdotte delle eccezioni opzionali, rispetto alle quali i singoli Stati Membri avevano potuto scegliere se e come adottarle. Si pensi ad esempio alle deroghe facoltative di cui all’art. 6(2) della direttiva Database. ↑
V. P. B. Hugenholtz, “The New Copyright Directive: Text and Data Mining (Articles 3 and 4)”, 2019, in Kluwer Copyright Blog, http://copyrightblog.kluweriplaw.com. ↑
A maggior ragione se si considera che sono già escluse dall’ambito di tutela di cui agli art. 102 bis e ter l.d.a. la mera consultazione da parte dell’utente legittimo e l’estrazione e/o il reimpiego di parti non sostanziali della banca dati (art. 102 ter, c. 3, l.d.a.) e che la Corte di Giustizia dell’Unione europea ha già avuto modo di precisare che l’estrazione e l’utilizzo del contenuto di una banca dati debba considerarsi proibito ai sensi della direttiva Database soltanto qualora “pregiudichino l’investimento [del costitutore] nel conseguimento, nella verifica o nella presentazione di tale contenuto, ossia costituiscano un rischio per la possibilità di riscattare tale investimento attraverso il normale funzionamento della banca dati in questione” (v. sentenza della Corte di Giustizia del 3 giugno 2021 nel caso C-762/19, SIA “CV-Online Latvia” v SIA “Melons”, ECLI:EU:C:2021:434). ↑
È lo stesso legislatore comunitario a precisare che la nozione di accesso legale dovrebbe comprendere sia l’accesso ai contenuti su base gratuita, sia l’accesso sulla base di accordi contrattuali, quali termini d’uso, accordi di licenza o abbonamenti (Considerando 14 della direttiva Copyright). ↑
“Machine-readable means”, nella versione inglese della Direttiva Copyright. ↑
Invero, l’art. 4(3) della medesima Direttiva menziona soltanto a titolo di esempio l’utilizzo di strumenti c.d. “machine-readable”, in parziale contrasto con quanto espresso nel succitato Considerando 18. Questo, tuttavia, conserva una valenza interpretativa e non deve essere ignorato. ↑
“Il protocollo di esclusione robot (in inglese Robots Exclusion Standard) indica, nel gergo di internet e più in generale del web, le regole indicate dai gestori di un sito web ai crawler che lo visitano, chiedendo di applicare restrizioni di analisi sulle pagine del sito. Esse sono contenute nel file robots.txt”, tratto da https://it.wikipedia.org/wiki/Protocollo_di_esclusione_robot. ↑