AI Act e copyright

Dati per l’IA, diritti d’autore e licenze: l’Europa stringe i nodi



Indirizzo copiato

AI Act e Direttiva 790/2019 regolano TDM per l’IA: accesso legittimo, opt-out e trasparenza. La legge italiana 132/2025 estende il TDM a modelli, anche generativi, con condizioni e delega. Restano aperti nodi UE, sentenze tedesche e antitrust su Google

Pubblicato il 3 feb 2026

Valeria Falce

Jean Monnet Professor of EU Innovation Policy; Professor in Digital Transformation and AI Policy; Ordinario di diritto dell’economia nell’Università Europea di Roma e Direttore ICPC – Innovation, Regulation and Competition Policy Centre



intelligenza-artificiale-nella-pubblica-amministrazione-agenda-digitale; document management system; AI project management shadow ai

L’intelligenza artificiale si nutre di dati in ogni fase del suo ciclo di vita, dallo sviluppo all’addestramento, dal funzionamento all’utilizzazione.

In quanto condizione essenziale dell’esistenza stessa della nuova tecnologia abilitante, si tratta di identificare la base giuridica per consentire ai fornitori di modelli di IA l’estrazione di dati, materiali e contenuti nel rispetto dei diritti che eventualmente possano insistere sulle opere che li contengono.

In Europa questa risulta dal combinato disposto dall’AI Act e dalla Direttiva 790/2019 cosiddetta “Copyright”.

In particolare, l’art. 53 dell’AI Act impone ai fornitori di modelli di conformarsi alle regole europee che dal 2019 regolano i termini e limiti della libertà di estrazione di dati attraverso un’eccezione relativa. Se infatti per il diritto europeo ogni forma di utilizzazione economica rientra nel diritto esclusivo del titolare dell’opera, le attività di estrazione ed analisi di testo sono consentite in via derogatoria (senza bisogno dell’autorizzazione del titolare) per usi commerciali sempre che ai contenuti si abbia legittimamente accesso e soprattutto che il titolare non si opponga. Nel qual caso, l’eccezione è neutralizzata e il fornitore che intenda svolgere attività, ad esempio, di web scraping e addestramento dovrà negoziare i termini di una licenza ad hoc con il titolare del diritto.

Addestramento IA e copyright: gli obblighi introdotti dall’AI Act

Più specificamente, l’AI Act, rimandando alla Direttiva Copyright, grava i fornitori di modelli di un doppio obbligo di risultato.

Consistente il primo nell’identificare e rispettare, anche attraverso “tecnologie all’avanguardia”, la riserva che sia stata espressa dai titolari dei diritti per il mezzo di meccanismi leggibili dalla macchina.

In secondo luogo, di “redigere e rendere disponibile al pubblico una sintesi sufficientemente dettagliata dei contenuti utilizzati per la formazione del modello GPAI, secondo un modello che sarà fornito dall’Ufficio AI”.

Quando si applicano gli obblighi: la “raggiungibilità” in Europa

Gli obblighi così introdotti si applicano indipendentemente dalla giurisdizione del fornitore e dalla circostanza che le attività, ad esempio, di training siano svolte fuori dell’Europa.

Rileva, ai fini dell’AI Act, che il modello di IA per scopi generali sia commercializzato, distribuito, importato o comunque utilizzato e “raggiungibile” in Europa.

Ciò è necessario, secondo il Considerando n. 106, “per garantire condizioni di parità tra i fornitori di modelli di IA per finalità generali, dato che nessun fornitore dovrebbe essere in grado di ottenere un vantaggio competitivo nel mercato dell’Unione applicando norme in materia di diritto d’autore meno rigorose di quelle previste nell’Unione”.

La legge italiana 132/2025: il nuovo comma septies all’art. 70 LDA

L’Italia, con la legge n. 132/2025, entrata in vigore il 10 ottobre scorso, chiude il cerchio.

Introducendo un nuovo comma (septies) all’art. 70 LDA, il legislatore italiano dispone che le attività di riproduzione ed estrazione di opere o altri materiali contenuti in rete o in banche dati, quand’anche tutelati dal diritto d’autore, possono essere consentite, ai fini dell’estrazione di testo e di dati “attraverso modelli e sistemi di intelligenza artificiale, anche generativa”.

Così facendo, la legge in tanto completa il quadro delle pratiche di TDM (Text and data mining), in quanto le attività di estrazione a mezzo IA non sono espressamente ricomprese nel sistema delle limitazioni esistenti e l’estensione alle stesse è preclusa dai principi della materia[1].

Con la novella, dunque, le riproduzioni e le estrazioni di opere o altri materiali a scopo di estrazione di testo[2], che tipicamente rientrano nell’esclusiva disponibilità del titolare, possono essere consentite, anche se attuate a mezzo di sistemi e modelli di intelligenza artificiale, in presenza di specifiche condizioni.

TDM, opt-out e “three-step test”: le condizioni per invocare l’eccezione

In particolare, per invocare la difesa di TDM occorre che il terzo abbia legittimo accesso (attraverso licenze o abbonamenti) ai contenuti che saranno oggetto di estrazione e che l’attività di TDM, come anticipato, non sia espressamente riservata dal titolare del diritto (esercizio del diritto di opt-out).

In ogni caso, in linea con l’assetto generale delle eccezioni in materia autoriale (Convenzione di Berna e Accordi TRIP’s), la suddetta attività non deve contrastare con il normale sfruttamento delle opere o altri materiali e non deve arrecare indebitamente pregiudizio ai legittimi interessi dei titolari dei diritti.

La delega al Governo: verso una disciplina organica sull’addestramento

La portata della norma è suscettibile di ulteriore affinamento.

L’art. 16 conferisce infatti al Governo una delega per definire, entro dodici mesi dall’entrata in vigore della legge, una disciplina organica per l’utilizzo di dati, algoritmi e metodi matematici per l’addestramento dei sistemi di IA.

Nell’esercizio della delega, i lavori della Commissione Affari Legali del Parlamento europeo su Copyright e intelligenza artificiale generativa[3] insieme alle recenti prese di posizione della giurisprudenza[4] possono costituire un utile punto di partenza per completare il quadro, senza introdurre obblighi ulteriori rispetto a quelli già previsti dal Regolamento e fermo il vincolo di stretta coerenza e convergenza con il principi del diritto e l’acquis europeo.

Le sollecitazioni del Parlamento europeo per un affinamento delle regole

Nella recente proposta di risoluzione del Parlamento europeo, in tema di diritto d’autore e intelligenza artificiale generativa, il relatore Axel Voss chiede alla Commissione di intervenire in modo deciso sul rapporto tra intelligenza artificiale e diritto d’autore, puntando soprattutto sulla trasparenza e sulla tutela dei titolari dei diritti.

Si sofferma sugli effetti di un’estensione automatica delle eccezioni di TDM all’addestramento dei modelli di IA generativa e sottolinea la necessità di una disciplina più chiara e organica, anche a livello nazionale.

Pur riconoscendo il ruolo fondamentale del TDM per l’innovazione, Voss sottolinea che il legislatore europeo ha incorporato l’articolo 4 della Direttiva Copyright nell’AI Act senza averne chiaramente stabilito le conseguenze.

In particolare, a suo parere, l’attuale esenzione prevista dall’articolo 4 della medesima Direttiva, che consente l’estrazione di testi e dati alle condizioni ivi specificate, non è stata redatta con l’intento di consentire l’utilizzo massivo di materiali protetti dal diritto d’autore attraverso modelli di intelligenza artificiale generativa, e tanto meno laddove ciò comporti la creazione di un prodotto concorrente accessibile al pubblico.

In ogni caso, anche laddove l’art. 4 della Direttiva non fosse applicabile, sarebbe comunque necessario prevedere una analoga eccezione che consenta agli sviluppatori di IA di ottenere licenze per opere protette dal diritto d’autore in modo semplice, tecnicamente agevole e preferibilmente in forma digitale.

Eccezione dedicata, documentazione delle fonti e presunzione assoluta

La relazione invita pertanto la Commissione a stabilire un quadro giuridico specifico per l’intelligenza artificiale generativa, sia attraverso l’introduzione di un’eccezione dedicata ai diritti esclusivi di riproduzione ed estrazione, distinta da quella prevista per il TDM all’art. 4 della Direttiva, sia mediante un’estensione dell’ambito di tale disposizione in modo da includere esplicitamente l’addestramento dell’intelligenza artificiale generativa, che al momento non vi rientra.

Sottolinea inoltre che i titolari dei diritti devono poter esercitare il diritto di esclusione (opt-out) attraverso un meccanismo standardizzato e leggibile automaticamente dalle macchine”.

Tra gli ulteriori input offerti alla Commissione, vi è la richiesta di introdurre un obbligo pieno e operativo di documentare le fonti utilizzate per addestrare o perfezionare i modelli di IA a uso generale, così che sia sempre possibile sapere quali opere protette siano state impiegate, anche quando si tratta di funzioni come l’inferenza o la generazione basata sul recupero di informazioni.

Questo dovere di trasparenza dovrebbe essere bilanciato con la necessità di proteggere segreti commerciali e informazioni riservate, ma non dovrebbe mai essere eluso.

Inoltre, si propone di creare una presunzione assoluta: se un modello di IA viene immesso nel mercato europeo senza rispettare appieno gli obblighi di trasparenza, si deve presumere che il suo addestramento abbia utilizzato opere protette.

In tal modo si alleggerisce l’onere probatorio per i titolari dei diritti, che non devono più dimostrare l’avvenuto utilizzo illecito dei loro contenuti.

Quanto alle forme di negoziazione da considerare in relazione alle attività di TDM, nel Rapporto si propende per l’introduzione di uno strumento di equo compenso commisurato al fatturato globale del fornitore del modello ovvero di forme di negoziazione collettiva.

Gli spunti della più recente giurisprudenza: TDM e riproduzione

Parallelamente alle spinte regolatorie, anche la giurisprudenza testa la tenuta dell’eccezione di TDM in relazione allo sviluppo di sistemi di IA.

Si registra in Germania una recente condanna della società OpenAI, nella causa promossa dalla società di gestione collettiva tedesca GEMA per la riproduzione integrale delle opere da parte del modello e relativa memorizzazione, avvenuta in assenza di specifica autorizzazione da parte dei titolari dei diritti.

Con la decisione, dello scorso 11 novembre, la 42a Sezione civile del Tribunale regionale di Monaco di Baviera, specializzata in diritto d’autore, è giunta ad un sostanziale accoglimento delle richieste di provvedimento inibitorio, divulgazione e risarcimento danni, avanzate dall’organismo di gestione collettiva tedesco GEMA, nei confronti di due società del gruppo Open AI.

Secondo il Tribunale, OpenAI avrebbe perpetrato una violazione del diritto d’autore, sia attraverso la memorizzazione dei testi (di canzoni), che attraverso la visualizzazione di parti dei testi nell’output[5].

Il tribunale ha stabilito che la limitazione di TDM prevista dalla Direttiva Copyright si applica all’estrazione di dati, ma non alla riproduzione di opere[6].

Memorizzazione nei parametri e linea di confine con il data mining

GEMA aveva sostenuto che l’addestramento dei modelli attraverso i testi delle canzoni dei propri mandanti costituisse già un atto di riproduzione ai sensi del diritto d’autore, perché le opere vengono trasformate in rappresentazioni digitali permanenti all’interno del modello.

Anche se queste rappresentazioni assumono la forma di pesi, vettori e parametri numerici, esse sono idonee a riprodurre parti dell’opera in modo riconoscibile.

Di contro, le società convenute avevano replicato sostenendo che la tecnologia dei modelli generativi non comporta alcuna memorizzazione di contenuti specifici, né conservazioni, ma solo schemi statistici e relazioni probabilistiche derivate dall’intero corpus di addestramento.

Il Tribunale, esaminando gli argomenti delle parti, ha accolto in misura largamente prevalente la posizione della GEMA.

Nella sua analisi afferma innanzitutto che l’addestramento di modelli linguistici con opere protette può costituire una riproduzione rilevante ai sensi del diritto d’autore.

Il fatto che l’opera non sia conservata in forma testuale tradizionale non esclude la presenza di una riproduzione, perché il diritto d’autore tutela anche le rappresentazioni tecniche idonee a consentire la percezione dell’opera, anche solo indirettamente.

Se, come nel caso dei modelli GPT, un sistema addestrato con un’opera è successivamente in grado di generare contenuti che corrispondono o sono molto vicini ad essa, ciò indica che la struttura del modello incorpora elementi dell’opera stessa.

Le differenze dovute ai meccanismi di decodifica o agli elementi di casualità dell’output non eliminano questa conclusione, poiché il nucleo creativo riconoscibile emerge comunque.

I testi di canzoni, infatti, sono stati rinvenuti — secondo l’accertamento tecnico — in modo riproducibile all’interno dei modelli linguistici gestiti dalla OpenAI.

Il Tribunale ha dunque ritenuto che tali testi, essendo contenuti nei parametri del modello e potendo essere restituiti come output, non siano semplicemente “utilizzati” a fini analitici, ma “memorizzati” in senso proprio, cioè incorporati in modo stabile e riutilizzabile.

Tale fenomeno di “memorizzazione” segna, secondo la Corte, il punto di discrimine rispetto alla mera estrazione di testo e dati che caratterizza il TDM.

Tale memorizzazione si verifica quando, durante l’addestramento, i modelli linguistici non solo estraggono informazioni dal set di dati di addestramento, ma mostrano anche una completa incorporazione dei dati di addestramento nei parametri specificati dopo l’addestramento.

Questa memorizzazione è stata confermata confrontando i testi delle canzoni contenuti nei dati di addestramento con la loro riproduzione negli output.

Data la complessità e la lunghezza dei testi delle canzoni, il Tribunale ha escluso che la causa della loro riproduzione fosse casuale.

Il ragionamento del giudice si è quindi fondato su una constatazione fattuale: durante il processo di addestramento, il modello non si limita ad estrarre regolarità statistiche dai dati di input, ma può conservare – nei propri parametri – segmenti di testo riconducibili alle opere originarie, rendendone possibile una successiva riproduzione.

Poiché i testi delle canzoni in questione erano stati riprodotti negli output in modo corrispondente alle versioni originali, così come era avvenuto nel noto caso americano New York Times vs OpenAI, il Tribunale ha escluso il carattere casuale della coincidenza, riconoscendo così la presenza di una vera e propria “riproduzione” ai sensi dell’art. 2 della Direttiva 2001/29/CE (InfoSoc).

L’argomentazione tecnica secondo la quale la conservazione del dato avverrebbe sotto forma di valori probabilistici parrebbe, secondo i giudici tedeschi, non rilevare, laddove anche una fissazione indiretta o mediata rientrerebbe nel concetto di riproduzione, alla luce dei principi consolidatesi nella giurisprudenza della Corte di giustizia dell’Unione europea.

L’aspetto più innovativo – e al tempo stesso più controverso – della decisione risiede tuttavia nell’esclusione dell’applicabilità delle limitazioni in materia di TDM (§ 44b UrhG).

Il Tribunale distingue in modo netto tra le riproduzioni meramente preparatorie, necessarie per l’analisi dei dati, e quelle che danno luogo a un’incorporazione stabile dell’opera nel modello.

Nel primo caso, la legge ammette la riproduzione temporanea in quanto funzionale alla successiva analisi; nel secondo, invece, la riproduzione permanente inciderebbe sui diritti di sfruttamento economico dell’autore.

In questo senso, la decisione tedesca segna una chiara linea di confine: laddove l’addestramento di un modello determini la possibilità di rigenerare l’opera o sue parti sostanziali, non si tratterebbe più di data mining, ma di una forma non autorizzata di riproduzione, con ciò ravvivandosi le teorie sul presupposto della legittimità dell’opera derivata ovvero la previa autorizzazione al titolare.

È interessante notare come la Corte escluda espressamente qualsiasi interpretazione estensiva o analogica della limitazione, pur riconoscendo che il legislatore non aveva probabilmente previsto fenomeni di “memorizzazione” così sofisticati.

Anche di fronte a un potenziale vuoto normativo, il giudice respinge la possibilità di estendere la deroga, ritenendo che ciò comprometterebbe in modo irragionevole gli interessi economici degli autori.

L’eventuale rischio di memorizzazione, sottolinea il Tribunale, appartiene integralmente alla sfera di controllo del soggetto che sviluppa o gestisce il modello, non potendo quindi essere trasferito sui titolari dei diritti.

Opt-out e requisiti “machine-readable” nel quadro tedesco

Altro elemento significativo della decisione è l’interpretazione dell’art. 44 dell’URHG, che nell’attuare l’art. 4 della Direttiva Copyright consente il TDM di opere legittimamente accessibili, salvo che il titolare dei diritti abbia espressamente escluso tale utilizzo in modo idoneo e leggibile da macchina (“in geeigneter Form, maschinenlesbar”).

Tale modalità di esercizio dell’opt-out è condizione necessaria perché il titolare possa opporsi al mining.

Il Tribunale, tuttavia, ricostruisce che l’organismo di gestione GEMA aveva, per conto dei propri mandanti, esercitato l’opt-out a più riprese e in più modalità.

In primis, nel 2022, aveva modificato i propri contratti di adesione per farsi conferire dagli autori il potere di dichiarare la riserva di utilizzo ex 44b UrhG.

Successivamente nel 2023, aveva previsto nei propri tariffari Internet l’obbligo per i licenziatari di rispettare tale riserva e, da ultimo, nel 2024, aveva pubblicato sul proprio sito web una dichiarazione generale di riserva per tutte le opere del suo repertorio in linguaggio naturale.

Sulla base di queste conclusioni, il Tribunale emette un’ordinanza di ampia portata, vietando alle società convenute di continuare a utilizzare, riprodurre o rendere accessibili i testi delle canzoni all’interno dei modelli e dei loro output.

Impone inoltre di fornire informazioni dettagliate sul numero e sull’estensione delle violazioni e sui relativi ricavi, accertando la loro responsabilità risarcitoria per i danni già verificatisi e per quelli futuri.

La mossa dell’antitrust europeo: indagine su Google e contenuti editoriali

La Commissione europea ha avviato lo scorso 9 dicembre un’indagine antitrust[7] nei confronti di Google, per verificare un possibile abuso di posizione dominante nell’utilizzo dei contenuti degli editori online e dei titolari dei diritti sui contenuti caricati su YouTube.

A muovere la Commissione è il sospetto che Google possa utilizzare tali contenuti per l’addestramento di servizi di ricerca basati su IA generativa, come AI Overviews e AI Mode, senza che venga corrisposta alcuna remunerazione adeguata e proporzionata.

Ulteriore profilo su cui si concentrerà l’indagine è la verifica che ai titolari dei diritti, in particolare gli editori, non sia possibile evitare efficacemente questo tipo di utilizzi senza rischiare la deindicizzazione o addirittura l’esclusione dai risultati di ricerca di Google dei propri contenuti.

L’indagine, dunque, è tesa a stabilire se Google possa con la sua condotta violare l’art 102 del TFUE che vieta l’abuso di posizione dominante imponendo condizioni inique a editori e autori di contenuti ovvero concedendosi un accesso privilegiato a tali contenuti, penalizzando così gli sviluppatori concorrenti di modelli di IA.

Un’analoga preoccupazione riguarda YouTube, laddove si teme che Google possa aver utilizzato video e altri contenuti caricati dagli utenti sulla piattaforma per addestrare i propri modelli di IA generativa senza remunerare i creatori e senza consentire loro di opporsi all’utilizzo.

Allo stesso tempo, andrà verificato se le condizioni generali di YouTube impediscano agli sviluppatori concorrenti di usare quei contenuti per addestrare le proprie IA.

Conclusioni

Mentre la frontiera tecnologica avanza più rapidamente della capacità regolativa del diritto, il confine tra estrazione di informazioni e riproduzione, così come quello tra analisi e sfruttamento, appare oggi più che mai mobile.

In questo “immenso mare” rimane granitica l’indicazione dell’Unione: continuare ad incentivare e premiare l’attività creativa umana perché solo la produzione di contenuti, materiali e dati di qualità consente lo sviluppo di quella cultura e di quel sistema valoriale europeo a cui possano utilmente attingere i modelli di IA per rispondere alle sfide che ci attendono.

La scelta da non rinviare, e su cui è auspicabile una stretta convergenza tra indirizzi europei e nazionali, è sul modello di equa remunerazione da preferire (ex ante o ex post), ferma la necessità di salvaguardare il funzionamento concorrenziale dei mercati a tutela di un’offerta di servizi AI quanto più possibilmente diversificata, libera e pluralista.


Rubrica “Innovation Policy: Quo vadis?” a cura dell’ICPC-Innovation, Regulation and Competition Policy Centre

Note

[1] I principi di stretta interpretazione e di numero chiuso delle eccezioni sono codificati dalla Convenzione di Berna, dalla Direttiva Copyright e dalla stessa LDA, e confermati dalla giurisprudenza: Spiegel Online, C-516/17, EU:C:2019:625, par. 53.

[2] La compatibilità delle attività di TDM con la Direttiva Copyright è attualmente oggetto di rinvio pregiudiziale alla Corte di Giustizia (Like v. Google Irlanda, Causa C-250/25). Per una sinossi sui casi pendenti a livello internazionale, si rinvia ai Rapporti Voss e EIPO, entrambi del 2025.

[3] Proposta di risoluzione del Parlamento europeo, in tema di diritto d’autore e intelligenza artificiale generativa – Opportunità e sfide del 27 giugno 2025 (2025/2058(INI)).

[4] Tribunale di Monaco I (LG München I) 11 novembre 2025 sul caso GEMA/ OpenAI.

[5] M.L. Bixio, “La “memorizzazione” nei modelli linguistici: un nuovo terreno di frizione tra diritto d’autore e intelligenza artificiale” pubblicato su Diritto Mercato e Tecnologia l’11.11.25.

[6] La decisione, seppur avendo ad oggetto un caso costituito da elementi soggettivi e oggettivi ben diversi, appare comunque in totale antitesi con le conclusioni in tema di TDM raggiunte dal Tribunale di Amburgo lo scorso 27 settembre 2024, nel caso che vedeva opposti un fotografo professionista e la LAION (Large-scale Artificial Intelligence Open Network). Il Tribunale aveva infatti stabilito che in quel caso, riproduzione delle immagini (del fotografo) a scopo di analisi del contenuto e della relativa descrizione testuale dovesse essere distinta dall’uso per l’addestramento dei sistemi di AI. Secondo il Tribunale tedesco, la creazione di un dataset gratuito per finalità di ricerca scientifica rientrerebbe nell’eccezione di TDM ex articolo 3 della Direttiva Copyright e all’articolo 60d dell’UrhG.

[7] Cfr. https://ec.europa.eu/commission/presscorner/detail/da/ip_25_2964.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x