Il “Text and Data Mining” (o “TDM”) è l’analisi computazionale automatizzata di contenuti digitali: un’attività che ha assunto un ruolo centrale in numerosissimi settori dell’economia dei dati, dalla ricerca farmaceutica, allo sfruttamento dell’Intelligenza Artificiale e dei cosiddetti Big Data.

Dal 12 dicembre 2021, la Legge sul diritto d’autore (L. 22 aprile 1941 n. 633, di seguito “l.d.a.”) contiene due previsioni che disciplinano espressamente il TDM alla luce della direttiva Copyright. Le due eccezioni giuridiche impattano sulla tutela delle banche dati. Vediamo in dettaglio.

Text e Data Mining: la definizione giuridica e cosa comporta

L’art. 70 ter l.d.a. definisce il text e data mining, l’estrazione di testo e dati, come “qualsiasi tecnica automatizzata volta ad analizzare grandi quantità di testi, suoni, immagini, dati o metadati in formato digitale con lo scopo di generare informazioni, inclusi modelli, tendenze e correlazioni”.

Si tratta di attività svolte tramite software che, grazie a elevate capacità computazionali, sono in grado di individuare, estrarre e analizzare informazioni rilevanti da fonti digitali, identificando così modelli e correlazioni che per un umano sarebbe estremamente difficoltoso riconoscere a causa della quantità di dati coinvolti.

Nel caso del TDM, è un’attività paragonabile a quella del ricercatore che studi o analizzi opere o banche dati altrui, salvo per il fatto che il lavoro di studio e analisi è svolto da un computer e che la quantità di informazioni coinvolte è spesso enorme.

Tuttavia, mentre lo studio di un archivio o un’opera da parte di un ricercatore umano non pone grandi problemi giuridici, l’estrazione automatizzata di dati può scontrarsi con il diritto d’autore e i diritti ad esso connessi.

Questo perché il TDM presuppone normalmente la riproduzione, anche solo temporanea, delle fonti utilizzate, incluse le eventuali opere protette o intere porzioni delle banche dati impiegate.

Nella maggior parte dei casi, per analizzare dei dati un software deve estrarli dalla fonte originale e riprodurli. Ciò può costituire una violazione del diritto d’autore (in particolare, del diritto esclusivo di riproduzione ex art. 13 l.d.a.). Inoltre, può essere in contrasto con il diritto del costitutore di un database di vietare l’estrazione o il reimpiego della totalità o di una parte sostanziale dello stesso (artt. 102 bis e 102 ter l.d.a.).

Il TDM può essere pertanto considerato uno strumento fondamentale per lo sviluppo dell’economia dei dati e, dunque, per la crescita del mercato unico digitale dell’Unione Europea.

Il conflitto tra la necessità di tutelare la proprietà intellettuale, da un lato, e l’esigenza di salvaguardare la competitività del mercato europeo, dall’altro, impone un attento bilanciamento dei diritti e degli interessi in gioco.

Condizionare l’attività di text and data mining alla necessità di ottenere in ogni caso l’autorizzazione dei titolari dei diritti di privativa coinvolti, significherebbe imporre elevati costi transattivi, che limiterebbero grandemente lo sfruttamento delle moderne tecnologie di ricerca, ponendo freni eccessivi allo sviluppo. È per tali ragioni che il legislatore dell’UE ha riformato la materia, introducendo delle eccezioni e limitazioni al diritto d’autore obbligatorie per ogni Stato Membro.

Text Data Mining: le eccezioni giuridiche della direttiva Copyright

È nella sopra descritta ottica che vanno letti gli art. 70 ter e 70 quater l.d.a. che consentono l’estrazione di dati da fonti e database cui si abbia lecitamente accesso, senza alcuna necessità di autorizzazione da parte degli eventuali titolari dei diritti d’autore e/o del diritto sui generis sulle banche dati.

Le due norme, che attuano rispettivamente gli art. 3 e 4 della Direttiva Copyright, hanno però ambiti di applicazione e operatività distinti.

Mentre l’art. 70 ter riguarda unicamente l’estrazione per fini scientifici da parte di organismi di ricerca e istituti di tutela del patrimonio culturale, l’art. 70 quater consente l’estrazione di testo e dati in generale, da parte di chiunque, anche per mero fine di lucro.

Ciò detto, le due norme condividono un presupposto – l’estrazione è permessa solo a chi abbia legittimo accesso alla fonte – ma presentano differenze sostanziali.

Infatti, la norma che consente l’estrazione per fini di ricerca è imperativa e ogni patto contrario è nullo per espressa previsione normativa (art. 70 ter, c. 9, l.d.a). Al contrario, l’estrazione di dati per fini diversi è concessa solo quando l’utilizzo delle opere e degli altri materiali riprodotti nell’ambito dell’attività di text and data mining non sia stato espressamente riservato dai titolari dei relativi diritti.

Text Data Mining: i rischi per la tutela del database

Il recepimento della Direttiva Copyright rende più complessa la tutela dei diritti di privativa sulle banche dati digitali, con un impatto maggiore sul diritto sui generis del costitutore del database rispetto al diritto d’autore.

Il costitutore ha, infatti, la facoltà di impedire la riproduzione di tutta o di una parte sostanziale della banca dati (art. 102 bis l.d.a.). Tuttavia, mentre l’art. 70 ter l.d.a. introduce una deroga con un ambito di applicazione piuttosto limitato (vale soltanto per il TDM svolto per fini scientifici da una categoria ristretta di soggetti), l’art. 70 quater l.d.a. introduce un’eccezione di carattere generale che consente a qualunque utente di svolgere in maniera automatizzata, senza necessità di alcuna autorizzazione, una serie di attività che, di fatto, costituiscono il normale uso di una banca dati.

A meno che il proprietario del database non adotti i giusti accorgimenti, pertanto, il suo diritto sui generis rischia di essere fortemente limitato, al punto di essere svuotato di gran parte del proprio valore.

Gli accorgimenti da adottare per tutelare il database

La prima considerazione da fare è che il TDM rimane consentito soltanto per l’utente legittimo, colui che abbia il diritto di accedere legalmente alla banca dati. Un primo accorgimento per impedire a terzi di effettuare il TDM dei propri database sarebbe dunque di limitarne l’accesso.

Tuttavia, almeno per quanto riguarda l’eccezione generale di TDM, vi è la possibilità di impedire l’estrazione non autorizzata di informazioni senza impedire la consultazione della banca dati:

si tratta dell’opt-out previsto dall’art. 70 quater l.d.a.

In base a esso, il TDM è consentito di default, a meno che l’uso delle opere e dei materiali in questione non sia espressamente riservato dal titolare dei diritti. Inoltre – la norma italiana di recepimento non lo dice ma la Direttiva Copyright è chiara sul punto – tale riserva deve essere espressa in “modo appropriato”.

Da un lato, parrebbe che l’opt-out possa essere esercitato in ogni caso tramite l’inserimento di un’apposita clausola in un contratto. Tale assunto è confermato dal fatto che l’art. 7.1 della Direttiva Copyright non menziona l’art. 4 (sull’eccezione generale di TDM) tra le norme inderogabili.

Dall’altro lato, il legislatore comunitario ha fornito alcune indicazioni che potrebbero essere interpretate in senso più restrittivo, laddove ha scritto che, nel caso di contenuti resi disponibili online, “dovrebbe essere ritenuto appropriato” esercitare l’opt-out “solo attraverso l’uso di strumenti che consentano una lettura automatizzata” (Considerando 18, Direttiva Copyright).

In definitiva, non vi è ancora chiarezza sulla questione, che pure assume una grande rilevanza per i soggetti che vogliano riservare il diritto di estrazione sulle proprie banche dati.

Diviene dunque importante comprendere cosa intenda il legislatore comunitario con l’espressione “strumenti che consentano una lettura automatizzata”.

A tale proposito, non si può dubitare che un software, in astratto, possa essere in grado di riconoscere un opt-out espresso in caratteri testuali nei termini d’uso di un sito. Tale accorgimento potrebbe quindi essere ritenuto sufficiente a esprimere in modo appropriato la riserva di cui all’art. 70 quater l.d.a.

D’altro canto, non vi è dubbio che l’utilizzo di strumenti informatici come un file robots.txt potrebbero essere più efficaci e, in definitiva, tutelare maggiormente il titolare dei diritti.

