L’AI “rigurgita” contenuti protetti: i nodi delle cause in corso

Home Mercati digitali

Avanza la causa tra il New York Times e OpenAI. All’ultima udienza si è affrontato il problema dei profili legali degli output dell’intelligenza artificiale ChatGpt. Gli editori di giornali, come altri detentori di copyright, più volte hanno rimarcato l’evidenza di loro contenuti “rigurgitati” dall’AI. Facciamo il punto sui nodi giuridici

Pubblicato il 21 ott 2025

Luciano Daffarra

C-Lex Studio Legale

Alessandro Longo

Direttore agendadigitale.eu

Chiedi allʼAI Nextwork360

Riassumi questo articolo

Approfondisci con altre fonti

All’udienza dell’8 ottobre 2025 tenutasi di fronte al giudice Sydney H. Stein, nella causa pendente al Southern District di New York, che vede quali ricorrenti alcuni dei più rilevanti gruppi editoriali di informazione degli Stati Uniti, fra cui la parte attrice principale, il New York Times, si è affrontato il problema dei profili legali degli output resi disponibili agli utenti del modello di intelligenza artificiale di ChatGPT.

Chatgpt conserverà tutte le nostre chat per sempre, calpestata la privacy UE

Indice degli argomenti

Le posizioni: editori di giornali e OpenAI

Gli editori di giornali hanno contestato in atti ai convenuti detentori del modello di intelligenza artificiale ChatGPT, oltre che l’acquisizione abusiva degli articoli di informazione per l’addestramento di tale modello di IA, il fatto che le domande formulate nei prompt degli utenti interessati ad acquisire informazioni qualificate si traducessero, nella fase dell’output, in contenuti di sintesi o in riproduzioni letterali degli articoli delle loro testate, così da generare un prodotto che si pone in concorrenza con quello dei mezzi di informazione che li hanno creati.

In proposito, i legali della convenuta Open AI, comproprietaria con Microsoft del modello di IA ChatGPT, durante la succitata udienza hanno eccepito anzitutto che il tema sollevato dagli attori debordasse le domande originariamente svolte in questa causa incentrata sui dati di addestramento del sistema, rilevando poi che, in ogni caso, i ricorrenti non avessero fornito prove delle violazioni alle norme sul diritto d’autore derivanti dalla pubblicazione dei sopra descritti output.

La posizione del giudice

A corollario delle posizioni dei contendenti, il giudice Stein ha evidenziato come fossero presenti agli atti del giudizio che, come vedremo assiema più cause connesse fra loro, ripetuti riferimenti agli output asseritamente riprodotti da ChatGPT con provenienza dai giornali, e che non vi fossero misteri circa l’oggetto delle recriminazioni dei titolari dei diritti su tale questione, tanto da doversi prevedere da parte del magistrato una trattazione sul punto nel prosieguo della causa di merito.

La vicenda giudiziaria di cui ci occupiamo, iniziata il 27 dicembre 2023 dal New York Times nei confronti di Open AI e Microsoft[1], ha visto confluire di fronte alla Corte del Distretto Sud di New York ben dieci diverse cause che erano state inizialmente radicate davanti a differenti Distretti, per essere poi assegnate per connessione oggettiva al tribunale di New York[2]

Il Summary Judgment del procedimento interinale in questione si era concluso con la decisione del 4 aprile 2025, la quale aveva affermato – respingendo in parte la Motion to Dismiss[3] presentata dai gestori del modello di IA ChatGPT – che vi fossero valide ragioni per ritenere applicabile alla fattispecie sia la violazione delle norme sul diritto d’autore (sia diretta, sia contributiva), che la insussistenza di un Fair-Use, cioè la carenza di un uso sufficientemente trasformativo dei contenuti idoneo a renderne lecito lo sfruttamento[4].

Il tribunale ha infatti rilevato che seppure l’output dell’addestramento del modello di IA possa essere nuovo, il processo di addestramento svolto dal sistema implica la copia e la riproduzione integrale dell’originale dell’opera, che è tutelata dal diritto d’autore, e ciò avviene per uno scopo indubbiamente commerciale, non per un fine di critica, studio, commento o ricerca scientifica.

Inoltre, l’effetto di tale copia sull’utilizzo potenziale e sul valore di mercato dell’opera originale è tale da dare vita a un prodotto sostitutivo diretto del prodotto realizzato e messo a disposizione del pubblico attraverso le testate on-line, in quanto se un singolo utente può ottenere una sintesi di un determinato articolo, viene meno per lui la necessità dell’accesso al sito web dove è pubblicata la notizia originale, così da privare gli editori del relativo traffico web, come pure degli abbonamenti e degli inerenti ricavi pubblicitari.

Seppure la vittoria degli editori in questa fase del giudizio appaia indubitabile, il giudice ha respinto le domande fatte valere dai ricorrenti che si fondano su talune disposizioni del Digital Millennium Copyright Act (DMCA), segnatamente quelle contenute nel testo del § 1202(b), riguardanti la rimozione delle informazioni sul regime dei diritti[5].

La Corte ha quindi interpretato in maniera restrittiva il DMCA, applicandolo solo ai casi di rimozione attiva ed intenzionale delle informazioni sul diritto d’autore che identificano gli articoli pubblicati, escludendo quindi dalla tutela di legge gli effetti collaterali del procedimento di machine learning, così da suggerire che l’assetto normativo del DMCA risulti inadeguato a fronteggiare i casi di violazioni che occorrano nell’ambito delle tecnologie trasformative connesse all’intelligenza artificiale[6].

Il tema dei rigurgiti AI di contenuti protetti e dati personali

Ritornando al tema degli “output” e dei “rigurgiti” dei contenuti protetti che sono stati contestati dagli editori ai gestori del modello di IA ChatGPT, è opportuno sottolineare che non si tratta di questioni nuove, in quanto esse fanno parte delle domande svolte in altre cause pendenti di fronte ai giudici statunitensi.

Nel caso Getty Images contro Stability AI[7] si discute fino a quale punto gli output visivi dei modelli di IA possano essere considerati violazioni dei diritti d’autore.

Anche nel caso Universal Music e altri contro Anthropic AI si discuteva, fra l’altro, sui limiti del rigurgito dei testi dei brani musicali.[8]

Lo stesso tema degli output derivanti dal trattamento dei dati acquisiti tramite scraping viene trattato nella causa avviata da numerosi autori, rappresentati dallo Studio Legale “Clarkson Law Firm”, nei confronti di Open AI e Microsoft Corp., inizialmente pendente di fronte al Northern District della California. Tale causa ha quale oggetto principale, oltre alla riproduzione illecita da parte di ChatGPT di molte opere letterarie di autori famosi, anche la violazione del diritto alla tutela dei dati personali che Open AI avrebbe commesso nel raccogliere abusivamente enormi quantità di informazioni, traendole dal web, inclusi i siti dedicati ai servizi medici e sanitari e i social media, allo scopo di addestrare i propri modelli di IA.

Secondo quanto si riporta nell’atto introduttivo di questa class-action[9], le violazioni commesse includerebbero la raccolta di dati personali identificativi di numerosissime persone, informazioni su minori di età, dettagli di conti correnti e dati di carte di credito, oltre a parecchie chat private e conversazioni riservate intrattenute sulle piattaforme social.

Questi fatti sarebbero aggravati dalle dichiarazioni ingannevoli diffuse da Open AI circa la provenienza dei dati e dalla circostanza che unitamente ai dati personali sarebbero stati acquisiti contenuti tutelati dal diritto d’autore quali scritti, articoli e opere creative di diverso genere.

La causa, originariamente radicata di fronte al Distretto Nord della California è stata successivamente oggetto di ordine di trasferimento da parte del Judicial Panel on Multidistrict Litigation[10] al giudice che era assegnatario della causa federale che coinvolgeva più questioni di fatto comuni in quanto competente a decidere la causa più avanzata e complessa sul medesimo tema. L’attribuzione di competenza è avvenuta quindi al giudice Stein che dirige la causa pendente fra il New York Times e Open AI, affidandone la trattazione – per non aggravare il carico di lavoro di un solo magistrato in una materia tanto articolata – alla giudice Colleen McMahon[11].

I comportamenti in violazione dei dati personali sollevati nella causa “Clarkson”, che sono stati ascritti alla responsabilità del modello ChatGPT, non hanno avuto ripercussioni circoscritte ai tribunali statunitensi: il Garante per la Tutela dei Dati Personali in Italia, in data 31 marzo 2023, ha infatti emesso un provvedimento[12] nei confronti di Open AI con cui aveva limitato provvisoriamente il trattamento dei dati personali degli utenti italiani di tale sistema di intelligenza artificiale.

A chiusura dell’istruttoria – dopo che un successivo provvedimento del Garante Privacy era stato sospeso cautelativamente e con il versamento di una cauzione a carico di Open AI sulla scorta dell’ordinanza della XVIII Sezione del Tribunale di Roma in data 21 marzo 2025[13] – letto anche il parere dell’EPDB (European Data Protection Board), è stata accertata la violazione nel trattamento dei dati personali commessa da Open AI, con obbligo per la medesima di realizzare una campagna informativa pubblica e di versare una sanzione di quindici milioni di euro agli uffici dell’organo procedente.

Un ulteriore aspetto di questa class-action statunitense che è stato portato all’attenzione dei giudici riguarda la mancata implementazione di adeguati sistemi di sicurezza nello sviluppo del modello:[14] Open AI non avrebbe impedito che ChatGPT rendesse disponibili agli utenti i dati personali dei soggetti terzi coinvolti nei temi oggetto dei loro prompt, e ciò per effetto delle c.d. “allucinazioni” in cui è incorso il servizio di intelligenza artificiale, le quali costituiscono certamente il risultato di un incorretto addestramento del modello ChatGPT.

Alla medesima giudice del processo “Clarkson”, Colleen McMahon, è stata attribuita la causa Raw Story Media e AlterNet Media contro Open AI[15], pervenuta alla Corte Distrettuale di New York con ordine di trasferimento e di consolidamento da parte del JPML del 3 aprile 2025.

Quest’ultima controversia è assimilabile nel contenuto a quelle in precedenza descritte, avendo ad oggetto la realizzazione da parte di Open AI di copie dei contenuti giornalistici di proprietà delle parti attrici, eccependo esse che tali copie non recassero negli output le informazioni sugli autori, il titolo dei brani e le informazioni sulla titolarità del copyright (CMI o informazioni sul regime dei diritti).

Le relative domande sono state rigettate dalla giudice Colleen McMahon e lo stesso ordine è stato confermato il 18 giugno 2025 dal giudice Stein il quale, nella sostanza ed impregiudicato il diritto di appello per le ricorrenti, ha ribadito la linea del tribunale già qui in precedenza indicata in materia di rimozione delle informazioni sul regime dei diritti, che ne esclude l’occorrenza ove essa non sia attiva ed intenzionale.

Per quanto concerne invece il processo fra il New York Times e Open AI – Microsoft, nel mentre procede la fase istruttoria della causa con la “Discovery” dei documenti posseduti dalle parti a sostegno delle reciproche domande, in base all’ordine del giudice Stein in data 19 settembre 2025 le parti si sono viste assegnare il termine per depositare le proprie osservazioni: entro il 14 ottobre 2025 per quanto concerne Open AI e nel termine del 4 novembre 2025, avuto riguardo al New York Times.

Lo scenario resta incerto su AI e copyright

In questa guerra giudiziaria senza esclusione di colpi l’incertezza dell’esito delle diverse questioni potrebbe suggerire ai contendenti medio termine, di cercare una soluzione transattiva, così come accaduto per altre controversie nello stesso ambito dell’intelligenza artificiale.

Nella fattispecie, tuttavia, pur in presenza di una significativa incertezza dell’esito della causa, del rischio reputazionale e commerciale che potrebbe conseguire a una decisione negativa, dell’esistenza di precedenti accordi transattivi fra Open AI e altri editori[16] e degli elevati costi legali connessi alla durata della causa, vi può essere un interesse delle parti a giungere a una sentenza. La quale sarebbe comunque soggetta al successivo riesame fino alla Corte Suprema.

Note

[1] Sul tema della causa e sulle complessità legate all’utilizzo dell’intelligenza artificiale nell’ambito dell’informazione, si possono leggere trovare spunti in questo brano:

IA, regole e accordi per il futuro dei media: le tendenze in atto

[2] Come si vedrà infra, di tale assegnazione si occupa il Collegio Giudiziario per il Contenzioso Multidistrettuale il quale può trasferire ai giudici di un unico tribunale distrettuale statunitense i procedimenti sommari relativi a plurime cause civili che coinvolgono questioni di fatto comuni.

[3] Si tratta di una richiesta di respingimento delle domande della parte ricorrente. Nella generalità dei casi essa consta di una domanda formale presentata da una parte al tribunale per ottenere il respingimento di determinate richieste avanzate dai ricorrenti in un procedimento interinale.

[4] Per una lettura della portata dell’eccezione del Fair-Use, si può leggere questo contributo: https://www.agendadigitale.eu/mercati-digitali/libri-e-ai-e-se-il-fair-use-diventasse-lalibi-della-pirateria-digitale/

[5] Si tratta di fattispecie che non si discosta dalle previsioni dell’art. 102-quinquies della Legge 633/1941 sulle informazioni elettroniche del regime dei diritti d’autore.

[6] Per precisione, la Motion to Dismiss formulate dai convenuti avuto riguardo alle domande di enforcement in questo processodel § 1202(b) del DMCA non sono state accolte nei confronti delle domande proposte dal Daily News e del Center for Investigative Reporting, Inc., per le quali sono state ritenute sussistere le condizioni per la violazione della norma.

[7] Di questa causa attualmente in corso di fronte ai giudici del Delaware si è data notizia qui: https://www.agendadigitale.eu/mercati-digitali/le-opere-creative-dellia-gli-esiti-del-confronto-fra-copyright-e-diritto-dautore/ La controversia che era stata portata anche di fronte all’High Court di Londra sembra portare a una declaratoria di carenza di giurisdizione dei giudici inglesi nei confronti di Stability AI in Gran Bretagna, in quanto le operazioni oggetto dell’uso delle immagini fotografiche di Getty Images si svolgerebbero quasi totalmente negli Stati Uniti.

[8] Una sintesi della controversia è stata presa in esame in questo brano: https://www.agendadigitale.eu/mercati-digitali/ai-la-causa-anthropic-e-uno-smacco-per-il-diritto-dautore-e-lue/

[9] I legali della Clarkson Law Firm P.C. spiegano in atti che i nomi dei ricorrenti sono stati sostituiti dalle loro iniziali, ma sappiamo che fra gli autori che agiscono in causa vi sono nomi noti come quelli di George R.R. Martin, John Grisham, Jodi Picoult, Jonathan Franzen, David Baldacci, Sylvia Day e Scott Turow. L’attore principale della causa è lo scrittore Julian Sancton, il cui nome è stato di fatto sostituito in rubrica con quello dello Studio degli avvocati che lo assistono.

[10] Qui vi sono le informazioni relative al funzionamento di questo organo giudiziario il JPML, peculiare degli Stati Uniti: https://www.fjc.gov/history/timeline/judicial-panel-multidistrict-litigation

[11] La direzione di queste cause “consolidate” rimane attribuita al giudice Sidney H. Stein.

[12] Il documento è raggiungibile a questa pagina: https://www.garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/9870847

[13] Il provvedimento del Garante Privacy oggetto di sospensione è il n. 755 del 2 novembre 2024, con il quale l’Autorità aveva accertato una serie di violazioni del GDPR da parte di OpenAI nel periodo fino al 15 febbraio 2024.

[14] Ricordiamo le preoccupazioni manifestate dall’Assemblea della California su questo aspetto fondamentale del funzionamento degli apparati di IA: https://www.agendadigitale.eu/mercati-digitali/leggi-sullia-il-veto-della-california-e-le-nuove-norme-italiane-che-inquietano-i-doppiatori/

[15] A questo link si trova la sintesi del contenuto della causa https://law.justia.com/cases/federal/district-courts/new-york/nysdce/1:2024cv01514/616533/178/

[16] Una sintesi delle transazioni intervenute fra editori e gestori dei modelli di intelligenza artificiale sono rinvenibili in questo articolo: https://www.agendadigitale.eu/mercati-digitali/ai-overviews-di-google-minaccia-leditoria-ecco-i-problemi-e-una-possibile-soluzione/ In tale brano si illustra anche il tema dei problemi creati agli editori di giornali dall’implementazione di “A.I. Overviews” di Google, che mette a disposizione degli utenti risposte che sono derivate da contenuti pubblicati sul web ed inglobati dal modello di intelligenza artificiale “Gemini”. Avuto riguardo all’asserita illiceità di tale servizio la F.I.E.G. si è rivolta all’Ag.Com. per il suo esame e decisione in base alle norme del Digital Service Act: https://www.agendadigitale.eu/mercati-digitali/editori-italiani-fieg-contro-lai-di-google-ecco-le-basi-del-reclamo-agcom/

@RIPRODUZIONE RISERVATA