Per la prima volta nella storia giurisprudenziale americana, un tribunale federale ha tracciato con precisione chirurgica i confini legali dell’utilizzo di contenuti protetti da copyright per l’addestramento di sistemi AI, segnando un momento spartiacque nel diritto d’autore dell’intelligenza artificiale generativa.
La sentenza del giudice William Alsup (Tribunale Federale della California) nel caso Bartz v. Anthropic PBC rappresenta infatti il primo framework operativo completo che definisce i parametri normativi dell’AI training commerciale nel contesto del copyright digitale.
Indice degli argomenti
La sentenza copyright su Anthropic e i libri: origini della controversia e la strategia “dual-track”
La vicenda giudiziaria trae origine dall’azione promossa da tre autori – Andrea Bartz, Charles Graeber e Kirk Wallace Johnson – che hanno scoperto l’utilizzo non autorizzato delle loro opere letterarie per l’addestramento di Claude, l’assistente AI sviluppato da Anthropic PBC, società sostenuta da colossi tecnologici quali Amazon e Alphabet. La peculiarità del caso risiede nella duplice strategia operativa adottata da Anthropic: da un lato, il download di oltre sette milioni di opere da fonti pirata quali Books3, LibGen e PiLiMi; dall’altro, l’acquisto legittimo di milioni di copie fisiche sottoposte a digitalizzazione mediante scansione “distruttiva” (cioè senza ulteriore possibilità di operare copie fisiche del libro).
Questa duplice modalità acquisitiva ha consentito al giudice di operare una distinzione fondamentale tra due distinte fattispecie giuridiche, analizzandole separatamente attraverso un’interpretazione innovativa della dottrina del fair use, che potrebbe ora costituire il paradigma di riferimento per l’intero ecosistema tecnologico.
La sentenza Anthropic è quello che oggi si può dire essere lo stato dell’arte. L’uso di opere legittimamente acquisite, se trasformate senza riprodurne lo stile e senza rigurgitarne parti rilevanti, va considerato fair use
Se la fonte è illegittima tale uso trasformativo va sanzionato (non viene meno, si badi) per risarcire i titolari dei diritti dalla perdita commerciale subito (Luciano Daffarra, giurista)
L’interpretazione evolutiva del fair use nei confronti dei libri per addestramento AI: dalla copia alla trasformazione
La sentenza introduce un’interpretazione molto avanzata della dottrina del fair use, adattandola alle specificità tecnologiche dell’intelligenza artificiale generativa. Il giudice Alsup ha infatti stabilito che l’addestramento di modelli linguistici di grandi dimensioni (LLM) costituisce un uso “estremamente trasformativo” delle opere originali, distinguendo nettamente tra la mera riproduzione digitale e l’estrazione di pattern statistici finalizzata alla generazione di contenuti originali.
Il tribunale ha evidenziato come “i modelli linguistici non abbiano riprodotto al pubblico gli elementi creativi di un’opera data, né persino lo stile espressivo identificabile di un autore“. Questa distinzione assume rilevanza cruciale nel contesto del diritto d’autore statunitense, dove la trasformatività dell’uso rappresenta uno dei quattro fattori cardine nella valutazione del fair use.
Il giudice Alsup ha invero utilizzato una metafora particolarmente evocativa per descrivere il processo: “Come qualsiasi lettore che aspiri a diventare scrittore, i modelli linguistici di Anthropic si sono addestrati sulle opere non per replicarle o soppiantarle, ma per cambiarle e creare qualcosa di diverso”.
Questa analogia con il processo creativo umano stabilisce un precedente di cardinale importanza.
Libri e training AI: la tripartizione delle modalità di acquisizione. Un nuovo framework giuridico
L’aspetto più innovativo della sentenza risiede nella netta distinzione operata tra le diverse modalità di acquisizione dei contenuti. La decisione del giudice Alsup delinea infatti una tripartizione giuridica che configura tre distinte fattispecie, ciascuna soggetta a un regime normativo autonomo e specifico.
- La prima categoria riguarda il training dei Large Language Models con contenuti legittimi. Come già analizzato nella sezione precedente, l’utilizzo di opere legittimamente acquistate per l’addestramento dell’intelligenza artificiale viene riconosciuto come fair use per la sua natura “spettacolarmente trasformativa”. Il tribunale ha infatti equiparato questo processo all’apprendimento umano, stabilendo che l’analisi computazionale delle strutture linguistiche finalizzata alla generazione di nuovi contenuti rappresenta una trasformazione sostanziale dell’opera originale, non una mera riproduzione.
- La seconda categoria concerne la conversione print-to-digital attraverso il cosiddetto format shifting legittimo. Il tribunale ha riconosciuto la liceità della conversione formato di opere legittimamente acquisite, applicando i principi della first sale doctrine prevista dalla Sezione 109(a) del Copyright Act. Questa decisione si fonda sui precedenti stabiliti in Sony Corp. v. Universal City Studios del 1984 per il time-shifting e in Authors Guild v. Google del 2015 per la digitalizzazione massiva. I requisiti tecnico-giuridici identificati dalla corte per questa fattispecie includono la sostituzione completa con distruzione della copia originale, il mantenimento del rapporto uno-a-uno senza moltiplicazione delle copie, la finalità di ottimizzazione dello storage e della ricercabilità, nonché l’uso interno esclusivo senza alcuna forma di redistribuzione.
- La terza categoria, relativa all’utilizzo di biblioteche pirata, rappresenta invece una violazione non sanabile del copyright. Il giudice ha respinto categoricamente l’argomento secondo cui l’intenzione trasformativa finale potrebbe giustificare l’acquisizione pirata iniziale. La corte applica il test oggettivo stabilito nel caso Warhol-Goldsmith del 2023, sottolineando che ogni fase del processo richiede una giustificazione autonoma e non può essere legittimata retroattivamente dall’uso finale. La copia e l’archiviazione dei libri provenienti da fonti pirata costituisce pertanto una violazione dei diritti d’autore che non può essere sanata invocando la dottrina del fair use. Il giudice ha respinto con fermezza l’argomentazione di Anthropic secondo cui la fonte dei libri sarebbe irrilevante ai fini della valutazione del fair use, stabilendo invece che la provenienza illegittima dei contenuti rappresenta un elemento dirimente nella valutazione complessiva.
La sentenza stabilisce così un principio cardine: la violazione dolosa del copyright può giustificare una richiesta risarcitoria che, in base alla normativa statunitense sui danni statutari, potrebbe raggiungere i 150.000 dollari per singola opera infrazione. Queste cifre, che verranno plausibilmente oggetto di negoziazione nelle fasi successive del contenzioso, dovranno essere determinate nel processo previsto per dicembre 2025. Tale procedimento dovrà infatti stabilire l’entità precisa del risarcimento dovuto per l’infrazione relativa alle copie pirata, definendo parametri quantitativi che potrebbero costituire un precedente cruciale per il risarcimento del danno in casi analoghi di violazione del copyright nell’ambito dell’AI training.
Sentenza Anthropic sui libri: implicazioni sistemiche per il settore tecnologico e la compliance aziendale
La portata della decisione va quindi ben oltre il caso specifico, delineando un framework operativo che le aziende AI dovranno necessariamente implementare. La sentenza stabilisce de facto un “porto sicuro” giuridico per l’AI training, subordinato tuttavia al rispetto di specifici criteri procedurali e sostanziali che includono:
La due diligence sulla provenienza dei dataset diventa imperativa, richiedendo verifiche approfondite sulla legalità delle fonti. La documentazione della catena di acquisizione deve garantire tracciabilità completa, mentre la differenziazione tra contenuti di origine legittima e potenzialmente problematica diventa un requisito operativo essenziale. Gli audit periodici sulla conformità dei processi di training completano questa architettura di compliance.
Una buona notizia per chi sta operosamente lavorando con il training di modelli di AI Generativa mediante dati proprietari.
In tal guisa, è forte la chance, per enti ed aziende europee, di rientrare nella corsa allo sviluppo globale di modelli di intelligenza artificiale che non offrano problematiche di natura giuridica.
La specificità del materiale testuale rispetto alle forme creative visuali
Un aspetto cruciale che la sentenza Anthropic non affronta completamente riguarda la specificità del materiale testuale rispetto ad altre forme di espressione creativa, particolarmente rilevante nel contesto dei sistemi di generazione visiva come Midjourney o ChatGPT/Dall-E. Mentre nel caso di Anthropic il tribunale ha infatti potuto distinguere tra l’estrazione dipattern linguistici e la riproduzione letterale, questa distinzione diventa significativamente più complessa quando applicata a sistemi che generano output visivi.
Disney e Universal hanno recentemente intentato causa contro Midjourney, segnando il primo grande scontro legale tra gli studios di Hollywood e una società di intelligenza artificiale.
La controversia evidenzia come test basilari mostrino che questo strumento può facilmente ricreare immagini quasi identiche a fotogrammi di film Marvel, sollevando forti dubbi sulla trasferibilità del precedente Anthropic ad altri contesti creativi.
Nel contesto delle immagini, la linea di demarcazione tra trasformazione e riproduzione risulta infatti intrinsecamente meno nitida. Un modello di generazione di immagini potrebbe teoricamente riprodurre elementi stilistici riconducibili a specifici artisti in modo molto più diretto rispetto a quanto un modello linguistico possa fare con lo stile di uno scrittore. Le denunce includono esempi multipli di output di immagini di Midjourney prodotti da semplici prompt di testo giustapposti a immagini dei personaggi originali protetti da copyright.
Questa differenza ontologica tra testo e immagine pare rendere non universale l’applicabilità del test di trasformatività stabilito nella sentenza Anthropic. Mentre l’identificazione delle matrici linguistiche dal testo può essere considerata altamente trasformativa, la generazione di immagini che replicano stili artistici distintivi o personaggi riconoscibili presenta infatti sfide giuridiche qualitativamente diverse.
Plausibilmente, volendo percorrere le linee interpretative del giudice federale Alsup ai modelli di Generative AI visuali, l’applicabilità del Fair Use potrebbe non essere considerata.
Training AI: l’evoluzione normativa e le prospettive internazionali
Il vuoto normativo che la sentenza Alsup cerca di colmare temporaneamente richiede evidentemente un intervento legislativo strutturale. Secondo le linee guida dell’Ufficio Copyright degli Stati Uniti, la protezione del copyright si applica esclusivamente ai contenuti prodotti dalla creatività umana, pur essendo consentito l’utilizzo di modelli di AI Generativa come strumenti di supporto. Per quanto riguarda la “proprietà” dei testi e, soprattutto, delle grafiche generate automaticamente (si pensi ad esempio ai loghi creati tramite strumenti come Canva), sono i Terms of Service delle singole piattaforme a dettare le regole, spesso impedendo utilizzi esclusivi necessari per la registrazione di marchi.
Un diritto d’autore sempre più fluido, che si allontana progressivamente dalla concezione novecentesca a cui siamo abituati. Un cambiamento accelerato dalla crescente disponibilità dei governi ad autorizzare, sul piano legislativo, la legalizzazione dello scraping per non rimanere indietro nella corsa all’oro dell’AI Generativa.
E l’Europa? Opt out sempre possibile
L’approccio statunitense, basato sulla flessibilità interpretativa del fair use, contrasta però con il framework europeo delineato dall’AI Act, che -almeno in linea di principio- privilegia un approccio ex ante basato su obblighi di trasparenza e meccanismi di opt-out preventivo. Mentre il sistema americano ha affidato per ora ai tribunali la valutazione caso per caso della legittimità dell’AI training, il modello europeo impone (ad ora) obblighi normativi, facilmente esercitabili dagli aventi diritto, tramite opt-out.
https://www.agendadigitale.eu/mercati-digitali/diritto-dautore-e-ia-modelli-giuridici-a-confronto-fair-use-vs-tdm/
Un modello europeo ampiamente criticato dai fautori del laissez-faire ma che, puntando sulla possibilità di addestrare i dataset AI con dati proprietari, potrebbe consentire la realizzazione di modelli giuridicamente compatibili con le normative sul copyright, senza ledere i diritti degli autori e senza che questo appaia utopistico.