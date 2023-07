Più di 8mila scrittori hanno firmato una lettera aperta redatta dalla US Authors Guild in cui si esortano i leader di sei aziende leader nel settore dell’intelligenza artificiale a ottenere il consenso e a compensarli per l’addestramento dei modelli sulle loro opere protette da copyright.

E’ l’ultimo capitolo di un problema che si gonfia di settimana in settimana.

I modelli linguistici di grandi dimensioni vengono addestrati su grandi quantità di testo prelevato da Internet. Centinaia di migliaia di libri ospitati su siti web sono stati ingeriti senza il permesso degli scrittori. Ora molti di questi scrittori si stanno opponendo al fatto che il loro lavoro sia stato strappato dai computer.

Lo scraping di dati, ovvero l’atto di estrarre automaticamente informazioni da fonti pubblicamente disponibili, è uno strumento ampiamente utilizzato nel campo dell’intelligenza artificiale.

I modelli di IA, come ChatGPT di OpenAI o LLaMA di Meta, utilizzano enormi quantità di dati per apprendere e migliorare le loro capacità. Questo processo è fondamentale per l’addestramento del software e per la produzione di output coerenti e comprensibili.

Tuttavia, quando questi dati sono protetti da diritti d’autore, la questione diventa molto più complessa.

L’accusa: violazione dei diritti d’autore da parte di OpenAI

La romanziera canadese Mona Awad e lo scrittore statunitense Paul Tremblay hanno avviato un’azione legale nei confronti di OpenAI, sostenendo che i loro lavori, che ovviamente godono dei diritti d’autore, siano stati utilizzati senza permesso per addestrare il noto e diffusissimo modello di intelligenza artificiale ChatGPT.

Le affermazioni di Awad e Tremblay sono basate sulla capacità di ChatGPT di generare “riassunti molto accurati” dei loro libri.

Secondo gli autori, questa precisione sarebbe indicativa del fatto che i loro lavori siano stati scientemente usati nell’addestramento di ChatGPT. e l’accuratezza delle sintesi o riassunti dei testi costituirebbe quindi uno degli elementi probatori di rilievo nel procedimento giudiziario.

La causa si basa sulle presunte violazioni del Computer Fraud and Abuse Act, una legge federale degli Stati Uniti (18 U.S.C. § 1030) che prevede come illecite determinate attività relative al computer che comportano l’accesso non autorizzato di supporti informatici al fine di ottenere informazioni, e dell’Electronic Communications Privacy Act.

Le accuse degli autori, ove ritenute giuridicamente fondate, potrebbero condurre a numerose problematiche per OpenAI, al momento attenzionato da un segmento significativo di creatori di contenuti, e le ripercussioni potrebbero moltiplicarsi in un tempo brevissimo.

Le potenziali ripercussioni per OpenAI e il settore dell’Intelligenza Artificiale

L’avvocato Mattew Butterick, ha avviato una vera e propria crociata contro i modelli di intelligenza artificiale generativa, aprendo i siti web stablediffusionlitigation.com e githubcopilotlitigation.com/ per diffondere, aggiornare e, plausibilmente, rendere noto ad artisti e potenziali clienti l’avanzamento delle azioni legali avviate contro i modelli di intelligenza artificiale.

La questione non sembra ovviamente circoscritta né ad OpenAI, né a società come Stability AI o GitHub, dato che le dinamiche legate alle plausibili e potenziali violazioni sono endemicamente insite nei sistemi di machine learning che prevedono una training mediante l’utilizzo massivo di dati.

Nel caso specifico del software Stable Diffusion l’accusa è di aver “copiato”, in funzione di addestramento, cinque miliardi di immagini senza il consenso degli artisti originali.

Anche le organizzazioni giornalistiche si oppongono ai sistemi di IA. In una nota interna sull’uso dell’A.I. generativa di giugno, il Times ha affermato che le aziende di A.I. dovrebbero “rispettare la nostra proprietà intellettuale”.

Per fornire un’idea dell’ammontare, anche economico, su cui tali procedimenti giudiziari si basano, l’Avv. Matthew Butterick sostiene che “anche ipotizzando un danno nominale di 1 dollaro per immagine, il valore di questa appropriazione indebita sarebbe di circa 5 miliardi di dollari. Per fare un confronto, la più grande rapina d’arte di sempre è stata il furto nel 1990 di 13 opere d’arte dall’Isabella Stewart Gardner Museum, con un valore stimato attuale di $ 500 milioni.”

Secondo tale interpretazione, Stable Diffusion funzionerebbe come un software che archivia, elabora e restituisce immagini come uno strumento di “collage” che necessità di attingere da contenuti originali.

Il rischio percepito dai ricorrenti è la potenziale diffusione illimitata e indiscriminata di immagini create artificialmente, che potrebbe causare danni irreversibili al mercato artistico e agli artisti stessi.

Il CEO di Stability AI, Emad Mostaque, ha previsto che “i futuri modelli di Intelligenza Artificiale saranno completamente autorizzati“, sposando così la tesi che, al termine delle querelles giudiziarie, o anche in virtù di queste, gli sviluppatori di modelli di IA andranno alla ricerca di accordi per fare in modo che l’addestramento sia considerato legit.

Il caso Meta Platforms: LLaMa e le presunte violazioni di copyright

Una dinamica simile si sta verificando anche nei confronti di Meta Platforms, Inc., (Meta), come riportato dall’Avv. Joseph Saveri.

Lo studio legale da lui fondato ha avviato una class action presso la Corte Distrettuale del Nord della California per contestare il modello LLaMA di Meta.

Secondo il ricorrente la violazione dei diritti d’autore sarebbe da ravvisarsi nell’addestramento del software avvenuto mediante scraping effettuato su enormi quantità di testo, il tutto senza che gli autori dei libri ne abbiano prestato consenso.

Secondo Saveri “mentre l’intelligenza artificiale continua a cambiare ogni aspetto del mondo moderno, è fondamentale che si riconoscano e che si proteggano i diritti degli artisti, come questi autori, contro il furto illecito e la frode”. E aggiunge: “LLaMA non è solo il frutto di una violazione dei diritti degli autori; volendo o meno, questi prodotti elimineranno quella dell’autore dal novero delle carriere percorribili.”

Per un’analisi più ampia della questione, prendendo in considerazione gli attori coinvolti – da un lato le big tech e dall’altro le media companies, includendo anche coloro che producono contenuti per queste ultime, come autori, grafici, disegnatori, etc – si potrebbe prevedere che le ripercussioni di tali casi potrebbero propagarsi in maniera significativa, influenzando qualsiasi azienda che sta sviluppando modelli di intelligenza artificiale.

Nell’intento di raggiungere un equilibrio “funzionale”, come discusso su queste pagine pochi giorni fa, è prevedibile che il periodo prossimo vedrà un aumento delle licenze di utilizzo mirate a regolare lo scraping delle informazioni originali.

Anche i già citati avvocati Joseph Saveri e Matthew Butterick ritengono che, come accaduto con la musica digitale e i film, le IA dovranno far rientrare la propria attività in ambito legalitario.



Possibili outcome tra accordi di licenza ed interpretazioni sul Fair Use

Diverse variabili potrebbero influire sul risultato delle azioni legali sopracitate, con possibili conseguenze per l’intero settore dell’intelligenza artificiale.

Come anticipato, gli accordi di licenza potrebbero diventare una prassi comune, a patto che i giganti della tecnologia accettino di rispettare i diritti degli autori. Allo stesso tempo, l’interpretazione giudiziaria del concetto di “fair use” potrebbe giocare un ruolo decisivo.

Lilian Edwards, professoressa di Tech Law all’Università di Newcastle, sottolinea che il risultato di tali giudizi potrebbe infatti dipendere dall’interpretazione del concetto di fair use relativo al materiale protetto da copyright, la cui interpretazione in tal senso di potenziale dirimenza è supportata anche dalla recente sentenza Warhol-Goldsmith,

Benché OpenAI, a differenza di Meta, sia attualmente un’organizzazione no-profit e potrebbe teoricamente usufruire delle esenzioni previste dalla legislazione statunitense sul fair use, risulta arduo sostenere che lo scraping di dati – considerata la sua estesa applicazione e l’esistenza di piani di abbonamento – non abbia un intento prevalentemente economico.

La possibilità di stipulare specifici accordi di licenza al momento rimane l’unica soluzione plausibile in grado di conciliare gli interessi di tutte le parti coinvolte.

Tuttavia, per ora, la bilancia sembra pendere a favore delle big tech, in attesa di un’adeguata legislazione e, soprattutto, della presa di coscienza collettiva che il mondo della creazione delle opere artistiche e di ingegno sta attraversando una fase di profonda ed irreversibile trasformazione.