I disaccordi sulla regolazione dei cosiddetti “foundation models” o, nella traduzione ufficiale italiana, i “modelli di base” hanno rischiato di far saltare la ratifica dell’AI Act, ossia il Regolamento dell’Unione Europea sull’Intelligenza Artificiale che ha catalizzato le risorse delle istituzioni europee negli ultimi due anni. Un primo accordo sul testo che dovrebbe essere definitivamente adottato parrebbe essere stato raggiunto (il testo ufficiale non è ancora noto) lo scorso 8 dicembre.
Tuttavia, il risultato è stato ottenuto in quella che in gergo calcistico sarebbe definita la “zona Cesarini”, ossia gli ultimi minuti di un match che l’Unione Europea sta giocando dall’aprile 2021, data di pubblicazione della proposta di Regolamento da parte della Commissione.
A mettere a rischio l’adozione del testo entro la fine dell’anno solare 2023 era stata, appunto, alla fine del mese di novembre, la rigida posizione assunta da Francia, Germania e Italia in relazione al tema dei cosiddetti “foundation models”.
Di cosa parliamo quando parliamo di modelli di base e AI generativa
La locuzione si è aggiunta al novero di quelle già “sul tavolo della discussione”, la coesistenza delle quali deve essere precisata al fine di evitare la permanenza dei dubbi già insorti. Per effettuare un esperimento, abbiamo provato a chiedere a ChatGPT che cosa sia una AI generativa, ma anche che cosa la differenzi, da un lato, da un’AI tradizionale e, dall’altro, da un Large Language Model. La spiegazione richiesta non avrebbe dovuto superare le 100 parole. La risposta è stata la seguente: “una generative AI è un tipo di intelligenza artificiale progettata per creare nuovi dati, testi o immagini, piuttosto che solo analizzarli o rispondere a input predefiniti. A differenza di un Large Language Model (LLM), che si focalizza sulla comprensione e generazione di linguaggio naturale, la generative AI è più ampia, potendo generare output in diverse forme, come immagini o musica. Rispetto alle AI tradizionali, che spesso seguono regole e istruzioni specifiche, le generative AI imparano dai dati di addestramento e sono in grado di produrre risultati originali e creativi, aprendo nuove possibilità nelle applicazioni artistiche, di design e di innovazione”.
Il concetto di “modello di base” non compariva nella proposta sopramenzionata e nemmeno nella posizione comune adottata dal Consiglio dell’Unione Europea del dicembre 2021. L’origine è, infatti, da ricercarsi nella posizione di negoziazione adottata dal Parlamento Europeo il 14 giugno 2023. In particolare, la nozione è stata aggiunta al considerando 60 all’esito delle evoluzioni esplosive che, nei primi sei mesi dell’anno appena concluso, hanno interessato non soltanto gli addetti ai lavori, ma anche il grande pubblico.
La spinta del Parlamento Ue per una disciplina dei foundation models
Lo sviluppo dei modelli di AI a partire da algoritmi progettati per ottimizzare la generalità e la versatilità degli output è lo scenario individuato dal Parlamento Europeo, che ha espresso l’urgenza di una definizione normativa e di una disciplina degli stessi. Infatti, essi risultano essere spesso addestrati su un’ampia gamma di fonti e su grandi quantità di dati per svolgere un’ampia gamma di compiti a valle, compresi alcuni per i quali non sono stati specificamente sviluppati e addestrati. L’ultima parte dell’inquadramento potrebbe prestare il fianco a possibili incomprensioni, dal momento che pare sfumarsi il confine fra i modelli di base e i sistemi di IA con finalità generali. Occorre ricordare, infatti, come anche questi ultimi non fossero ricompresi nella proposta della Commissione, ma siano stati introdotti soltanto un anno e otto mesi dopo ad opera del Consiglio dell’Unione Europea nel periodo di presidenza della Repubblica Ceca. Il Parlamento tiene, dunque, a precisare il confine fra le due nozioni sin dal considerando sopracitato, affermando esplicitamente che “i sistemi di IA con finalità previste specifiche o i sistemi di IA per finalità generali possono essere l’attuazione di un modello di base, il che significa che ciascun modello di base può essere riutilizzato in innumerevoli sistemi di IA a valle o in sistemi di IA per finalità generali. Questi modelli rivestono un’importanza crescente per molte applicazioni e molti sistemi a valle”[1].
Da ricordare è il fatto che due paiono essere gli elementi che rendono la discussione intorno ai modelli di base maggiormente interessante e ricca di spunti di riflessione. Da un lato, la differenziazione che il Parlamento Europeo pare proporre sembra essere il riflesso di una differente concezione ontologica in relazione agli stessi: se per i sistemi di IA con finalità generale la prospettiva finale costituisce l’elemento qualificante, per i modelli di base si predilige porre l’accento sulla configurazione strutturale. Infatti, ad emergere come punto focale dell’analisi strutturale dei modelli di base è l’accesso API, acronimo per la locuzione inglese “Application Programming Interface”, la quale indica la possibilità per due sistemi automatizzati di comunicare l’uno con l’altro.
Tale concetto teorico risulta estremamente rilevante nella prassi, configurandosi come la modalità tramite cui è concessa agli utenti la possibilità non soltanto di interagire con i modelli di base, ma altresì di utilizzare i suddetti software come fondamenta per lo sviluppo di sistemi maggiormente complessi. Il Parlamento Europeo, con i suddetti emendamenti proposti con riferimento al testo dell’AI Act, ha cercato di dipanare la nebbia venutasi a creare con riferimento a una corretta categorizzazione dei sistemi. Infatti, si precisa come “Poiché i modelli di base sono uno sviluppo nuovo e in rapida evoluzione nel settore dell’intelligenza artificiale, è opportuno che la Commissione e l’ufficio per l’IA monitorino e valutino periodicamente il quadro legislativo e di governance di tali modelli, in particolare per quanto riguarda i sistemi di IA generativi basati su tali modelli, che sollevano interrogativi significativi in merito alla generazione di contenuti in violazione del diritto dell’Unione, alle norme sul diritto d’autore e ai potenziali usi impropri”.
Tale riferimento è prezioso secondo una molteplicità di punti di vista. In primo luogo, chiarisce in maniera che può dirisi cristallina la relazione che intercorre fra i modelli di base e l’AI generativa sopra menzionata, stabilendo come la totalità dei sistemi di AI generativa sia costruita sulla base delle fondamenta costituite dai modelli di base, ma anche come, al contrario, non tutti i modelli di base siano utilizzati al fine di comporre sistemi complessi di AI generativa. Inoltre, la menzione alle tematiche connesse al diritto d’autore consente la creazione di un ponte fra lo sforzo teorico esplicatosi tramite l’AI Act e le dispute che hanno interessato un numero crescente di autorità amministrative e giudiziarie negli ultimi mesi.
Il ventaglio di prospettive (e quesiti) offerti dal diritto vivente e l’AI generativa
Le normative sul copyright, sebbene mantengano il difetto di essere applicabili esclusivamente a livello territoriale nazionale, sono le prime a essere interpretate da parte delle corti alle luce delle novità emerse dal dibattito scaturito dall’AI generativa.
La possibilità di identificare – o meno – l’AI come soggetto di diritto
In particolare, una molteplicità di controversie è sorta in merito all’opportunità – o meno – di tutelare tramite copyright le opere prodotte dall’interazione fra individui e sistemi di AI generativa. L’ultima decisione relativa a tale argomento proviene da una corte di Pechino specializzata in contestazioni relative a contenuti web, la quale ha accolto la richiesta dell’attore, affermando come l’utilizzo senza autorizzazione o licenza di un’immagine creata con l’utilizzo di IA generativa costituisca violazione dei diritti d’autore sulla stessa. In particolare, nel caso di specie, l’attore aveva utilizzato il sistema Stable Diffusion, sviluppato dall’azienda londinese Stability AI e reso disponibile per la prima volta nell’agosto 2022, al fine di creare alcune immagini ritraenti personaggi femminili. Secondo l’interpretazione dell’attore, accolta dalla corte, il fatto che l’utente avesse fornito una serie di input al sistema richiedendo la modifica di determinate caratteristiche dell’immagine è evidenza dell’apporto umano non trascurabile che rende, dunque, tale immagine inclusa nell’orizzonte di tutela fornito dalla legge cinese sul copyright[2]. Il benchmark dell’apporto umano risulta essere l’elemento unificante delle differenti decisioni sul tema, sulla scia della direzione di azione emersa nel contesto dell’Ufficio Copyright statunitense sui casi Thaler e Kashtanova, successivamente supportata anche dai relativi organi giudiziari. Tuttavia, il tema dell’IA generativa in ambito copyright non si ferma alla scelta sulla base della quale considerarla o meno come unico autore dell’opera.
IA e violazione dei diritti di terzi
Tuttavia, la possibilità di identificare – o meno – l’AI come soggetto di diritto si riverbera, altresì, su uno degli argomenti maggiormente oggetto di analisi da parte degli studiosi del diritto da secoli a questa parte: la responsabilità. Infatti, se vi è un certo consenso, almeno al momento presente, sull’impossibilità di conferire all’AI generativa il ruolo di soggetto del diritto sulla base della prospettiva fornita dal diritto d’autore, una tematica collegata e maggiormente controversa si estende nel momento in cui si consideri il punto di vista opposto. Anziché considerare la violazione da parte di terzi di diritti d’autore associati all’IA, occorre verificare se e in che modo possa essere quest’ultima a violare i diritti d’autore di terzi. Il tema si è posto recentemente in tutti i tre ambiti di attività identificati come maggiormente impattati dall’utilizzo di IA generativa nella vita quotidiana: la produzione di testi, immagini e suoni. Il riferimento a Stable Diffusion poc’anzi effettuato non si deve esclusivamente al fatto che la decisione della corte pechinese è una delle più recenti in relazione al tema di attribuzione, o meno, della qualifica di autore a AI generativa.
Le modalità di sviluppo dei sistemi di IA generativa e le tutele contro lo scraping
Una vicenda emersa nello scenario di Stability AI, infatti, pone l’accento sulle modalità di sviluppo dei sistemi di IA generativa – che, ricordiamo, sono costruiti a partire dai software denominati modelli di base nella prospettiva eurounitaria – e sulle conseguenti esigenze di tutela che derivano da tali pratiche. Stable Diffusion non è, infatti, l’unico sistema sviluppato da Stability AI che, nel mese di settembre, ha sviluppato Stable Audio.
I due sistemi paiono riferirsi a due domini differenti, il primo alle immagini e il secondo ai suoni. Tuttavia, l’indirizzo di azione non è l’unica caratteristica che li differenzia. Infatti, pare che il primo sia stato allenato tramite la pratica ormai tristemente nota, da parte degli addetti ai lavori, dello scraping, ossia la localizzazione e l’“ingerimento”, da parte del sistema, di miliardi di immagini presenti sul web senza alcun consenso da parte degli autori e nessun corrispettivo per gli stessi. Il secondo, invece, dovrebbe aver utilizzato un dataset composto da più di ottocentomila files inclusi nel catalogo di AudioSparx e ciascun elemento soggetto a copyright dovrebbe essere stato fornito con il consenso dei titolari dei relativi diritti. Una scelta che sembra doversi alla volontà del principale sviluppatore, quel Ed Newton-Rex che, dopo essere stato Vice Presidente dell’area audio, ha rassegnato le dimissioni alla luce di divergenze con la società proprio in merito all’allenamento dei modelli di IA generativa su materiale protetto da copyright[3].
La battaglia della Authors Guild
Il tema, tuttavia, non riguarda soltanto i domini di immagini e suoni, ma anche violazioni di copyright con riferimento ai testi, come emerge dall’azione legale proposta da una molteplicità celebri autori di concerto con la Authors Guild presieduta da Scott Turow nei confronti di OpenAI, lamentando come le pratiche di allenamento dei sistemi GPT sviluppati dall’impresa californiana siano in violazione alla tutela fornita dal diritto d’autore ai testi scritti dai medesimi. Secondo gli attori, infatti, le chatbots sarebbero ora in grado di produrre opere derivative capaci non soltanto di riassumere i testi facenti parte del dataset di allenamento, ma altresì di imitare lo stile degli autori, con un conseguente danno potenziale alle prospettive di mercato. Ovviamente, nessuno degli attori è stato informato dell’attività realizzata dalla società e – dunque – non ha avuto accesso ad alcun corrispettivo da parte della stessa[4]. Sulla scia, risale a fine dicembre la notizia dell’azione legale proposta dal New York Times nei confronti della medesima OpenAI[5].
Tali interrogativi trovano un fertile terreno di crescita sulla base del fatto che la cornice regolatoria assegnata all’AI generativa si trova ancora in fase di tenue germoglio. È probabilmente per rispondere alla serie di domande poste dal diritto vivente e scaturite dal susseguirsi delle azioni legali sul tema che il Parlamento Europeo ha sentito l’esigenza di introdurre l’AI generativa all’interno del tentativo di testo dell’AI Act. Proprio per questa ragione, gli sforzi che l’Unione Europea ha impiegato al fine di integrare alcuni punti cardine all’interno dell’AI Act devono essere considerati encomiabili. Tuttavia, il fatto che le nuove esigenze derivanti dall’AI generativa siano state inserite nel quadro della proposta di legislazione europea soltanto “in corsa”, ben più di un anno dopo la proposta della Commissione, creano certamente problemi di coerenza rispetto all’intero sistema. Infatti, la scelta strategica di indirizzare il tentativo normativo verso i modelli di base, ossia gli atomi che costituiscono la molecola dell’AI generativa, ma non soltanto quella, è quantomeno peculiare e necessita certamente di uno studio ancor più approfondito.
La disciplina dei modelli dei modelli di base nell’AI act
Per quanto non sia ad oggi ancora disponibile la versione del testo approvata l’8 dicembre 2023, possiamo ricostruire intanto la collocazione dei modelli di base all’interno del dibattito sul rischio portato avanti dal Legislatore europeo negli ultimi due anni, che caratterizza quindi la disciplina in materia di AI.
L’approccio basato sul rischio e i modelli di base
L’approccio basato sul rischio, infatti, presuppone una AI con uno “scopo”, che possa essere di conseguenza classificato sulla base del rischio che deriva dalla sua attività: sono Unacceptable Risk AI, ad esempio,i sistemi di social scoring realizzati dai governi, sono High-Risk AI i sistemi che operano in ambiti sensibili quali l’istruzione o l’immigrazione. Una regolazione che discerne cosa è legittimo e cosa no sulla base dello scopo non tiene, però, alla prova di sistemi che hanno ampi margini di operatività, come sono i modelli di base. In quanto strumenti, essi possono poi essere utilizzati per diversi scopi.
Per questo tipo di sistemi si sono, come dicevamo in apertura, contrapposti due approcci: la posizione sostenuta da Francia, Italia e Germania, che avevano chiesto “l’autoregolamentazione obbligatoria attraverso codici di condotta” per i cosiddetti modelli di base dell’AI. Una proposta che suggeriva di istituire un approccio di governance ai modelli di base molto più leggero e volontario che si presumeva potesse non entrare in conflitto con ricerca e innovazione nel campo, e andava fondamentalmente contro le posizioni di principio del Parlamento e della Commissione[6].
Il Legislatore europeo ha, invece, scelto di dettare una serie di regole per i soggetti che implementano un modello di base. Il sistema di norme si articola su due livelli. Per tutti i modelli di base utilizzati con finalità commerciali (escludendo in questo modo i sistemi con solo finalità di ricerca) viene prevista la pubblicazione di una lista dei materiali usati per l’addestramento degli algoritmi come regola di trasparenza, mentre questo livello dovrebbe scattare tout court per i modelli che pongono rischi sistemici data la loro potenza di calcolo. Questo tipo di sistema piramidale, costruito sulla base della potenzialità d’azione dei sistemi, è costruito sulla falsa riga del Digital Service Act, il Regolamento europeo che detta le “regole del gioco” per le piattaforme online.
Un aspetto certamente interessante da chiarire è il tipo di dati che dovranno essere forniti in merito ai modelli di base: in particolare, fin dall’inizio del dibattito è apparsa evidente la difficoltà nel bilanciare la necessità di una disclosure sulla costruzione dei sistemi, da un lato, e la tutela dei diritti di privativa industriale, dall’altro. Nel comunicato stampa diffuso dal Parlamento Europeo si legge, inoltre, che uno degli obiettivi è stato proprio quello di tutelare le PMI che operano nel settore. Proprio a questo fine, l’accordo promuove le cosiddette regulatory sandboxes e real-world-testing, per sviluppare e addestrare l’IA innovativa prima dell’immissione sul mercato.
Nuovo anno, nuove prospettive
Come anticipato, la chiave di volta sulla quale, con tutta probabilità, si instaurerà non soltanto l’analisi del testo finale dell’AI Act, ma anche l’esame relativo alla tenuta del sistema regolatorio che esso realizza, è la capacità di conciliare, a livello normativo, l’originario approccio teleologicamente orientato, basato sui livelli di rischio, con il novellato approccio strutturale che si auspica sia applicato ai modelli di base.
Si tratta, come evidenziato, di due prospettive astrattamente antitetiche che si sono ritrovate a essere integrate nella stessa struttura normativa al fine di rispondere alle esigenze della realtà. Il sentore, tuttavia, è che il testo, che dovrebbe essere reso disponibile a breve, lasci comunque margini di discussione, anche in vista dell’aggiornamento a cui lo stesso dovrebbe andare auspicabilmente incontro prima dell’entrata in vigore dello strumento normativo.
Osservando la realtà che ci circonda, non sembra che l’AI generativa abbia imboccato la propria parabola discendente, ma anzi che ancora non siamo in grado di prevedere – né, tantomeno, di tentare di normare – le applicazioni che la stessa avrà anche solo nel prossimo futuro. Abbiamo visto come la stessa sia stata utilizzata dagli utenti, sino ad ora, per ottenere output immediati rispetto agli input forniti. Tuttavia, non si possono escludere dalla prospettiva di indagine la molteplicità di iniziative che stanno fiorendo nell’ambito delle quali l’AI generativa è utilizzata, a sua volta, come tappa di passaggio per giungere a fini ulteriori.
Note
[1] Emendamenti del Parlamento europeo, approvati il 14 giugno 2023, alla proposta di regolamento del Parlamento europeo e del Consiglio che stabilisce regole armonizzate sull’intelligenza artificiale (legge sull’intelligenza artificiale) e modifica alcuni atti legislativi dell’Unione (COM(2021)0206 – C9-0146/2021 – 2021/0106(COD)), disponibile al link: https://www.europarl.europa.eu/doceo/document/TA-9-2023-0236_IT.html
[2] I. Deng, Beijing court’s ruling that AI-generated content can be covered by copyright eschews US stand, with far-reaching implications on tech’s use, 1° dicembre 2023, https://www.scmp.com/tech/tech-trends/article/3243570/beijing-courts-ruling-ai-generated-content-can-be-covered-copyright-eschews-us-stand-far-reaching
[3] T. Macaulay, He quit a GenAI leader in protest. Now he wants to create fairer systems for artists, 24 novembre 2023, https://thenextweb.com/news/ed-newton-rex-making-generative-ai-fair
[4] A. Alter, E. A. Harris, Franzen, Grisham and Other Prominent Authors Sue OpenAI, 20 settembre 2023, https://www.nytimes.com/2023/09/20/books/authors-openai-lawsuit-chatgpt-copyright.html
[5] M. M. Grynbaum, R. Mac, The Times Sues OpenAI and Microsoft Over A.I. Use of Copyrighted Work, 27 dicembre 2023, https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html
[6] Per una critica al modello dell’autoregolamentazione obbligatoria si veda https://www.sciencespo.fr/public/chaire-numerique/en/2023/11/28/interviewtthe-ongoing-ai-act-negotiations-questions-to-prof-hacker/