llm e diritto d’autore

L’AI non impara, memorizza opere protette: che fare?



Indirizzo copiato

L’AI generativa non “impara” come un umano: comprime testi e può rigenerare sequenze fino a capitoli di libri protetti, anche con filtri attivi. Studi e inchieste mostrano estrazioni tramite prompt iterativi e jailbreak. La distinzione memorizzazione/apprendimento riapre il tema di copyright, fair use, audit e trasparenza dei dataset

Pubblicato il 6 feb 2026

Tania Orrù

Privacy Officer e Consulente Privacy Tuv Italia



intelligenza-artificiale-nella-pubblica-amministrazione-agenda-digitale; document management system; AI project management shadow ai

Dimenticate la metafora dello studente che apprende in biblioteca. L’AI generativa somiglia sempre più a un immenso archivio compresso che, sotto pressione, rigurgita ciò che ha ingerito.

Recenti inchieste giornalistiche e ricerche scientifiche hanno dimostrato che è ormai possibile estrarre interi capitoli di libri protetti dai principali modelli di produzione: si tratta di memorizzazione sistematica e non di apprendimento. E questo cambia tutto nel dibattito su copyright e trasparenza algoritmica.

Memorizzazione nei modelli di AI generativa: oltre il mito dello “studente”

La narrazione dominante sull’intelligenza artificiale generativa è stata finora semplice e rassicurante: i modelli, senza “copiare” dati specifici, imparano concetti dai testi, similmente a uno studente umano che studia in biblioteca.

Questa metafora antropomorfa ha avuto un ruolo centrale sia nel dibattito pubblico sia nelle audizioni presso enti regolatori, come quelle nei confronti dell’U.S. Copyright Office. Quest’ultimo raccoglie e analizza commenti e posizioni ufficiali delle aziende nei suoi report (tra cui quello su “Generative AI Training” del maggio 2025), esaminando l’uso di opere protette nei dataset di addestramento e affrontando le argomentazioni industriali sostenute da aziende come OpenAI e Google.

Queste ultime hanno più volte affermato che i modelli non “memorizzano copie” dei dati di addestramento nella forma classica del copyright. Tali posizioni sono parte del dibattito normativo sulla necessità di eccezioni al copyright per lo sviluppo dell’intelligenza artificiale.

Tuttavia, l’evidenza empirica sta rapidamente erodendo questo mito. Le affermazioni di apprendimento simile a quello umano sono tecnicamente fuorvianti, perché i modelli non “comprendono” nel senso cognitivo del termine.

Allo stesso tempo, sono anche strategicamente funzionali a giustificare legalmente l’uso massivo di opere protette senza licenze o compensi. In verità, gli studi in oggetto mettono in luce che i modelli di linguaggio, anziché interiorizzare concetti astratti come fa una mente umana, comprimono e immagazzinano sequenze di testo nei loro parametri.

Quando sollecitati in modi specifici, possono rigenerarle in gran parte fedelmente. La distinzione tra apprendimento e memorizzazione non è quindi una sfumatura lessicale, ma un punto tecnico che rimbalza direttamente su responsabilità e diritti.

La prova sperimentale della memorizzazione nei modelli di AI generativa

Il recentissimo studio della Stanford University, “Extracting books from production language models” (gennaio 2026), affronta direttamente una domanda cruciale: è possibile estrarre testi protetti da copyright da modelli commerciali dotati di salvaguardie di “sicurezza”?

I ricercatori hanno adottato una metodologia relativamente semplice, ma estremamente rivelatrice. In una prima fase hanno verificato se il modello fosse in grado di riconoscere un testo noto, partendo da brevi frammenti iniziali.

In alcuni casi, per superare i blocchi automatici pensati per evitare violazioni di copyright, hanno riformulato le richieste o utilizzato tecniche comunemente definite di jailbreak, ossia modalità di interrogazione che aggirano i filtri di sicurezza del modello senza intervenire sul suo codice.

Una volta ottenuto un primo estratto, hanno proseguito chiedendo al modello di “continuare” il testo, passo dopo passo, attraverso una sequenza di richieste successive.

Questo approccio iterativo ha permesso di estendere progressivamente la porzione di testo generata, fino a ricostruire interi capitoli a partire da un semplice “seme” iniziale.

Quattro modelli testati e un risultato convergente

La procedura è stata testata su quattro modelli di produzione ampiamente utilizzati: Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro e Grok 3. Sebbene con livelli di successo diversi, i risultati convergono: è possibile estrarre porzioni molto estese di opere protette, inclusi romanzi celebri e pilastri della letteratura.

In alcuni casi, come nei test condotti su Claude 3.7 Sonnet, la percentuale di testo ricostruito ha raggiunto valori prossimi al 95%, un dato difficilmente compatibile con l’idea di una semplice rielaborazione astratta.

Questa evidenza dimostra, in modo sperimentale e misurabile, che la memorizzazione è un fenomeno reale e accessibile anche su sistemi commerciali dotati di sistemi di difesa interni.

L’inchiesta di The Atlantic e la memorizzazione nei modelli di AI generativa

Quasi in contemporanea alla pubblicazione scientifica, l’inchiesta di Alex Reisner per The Atlantic ha documentato, avvalendosi di molteplici studi, che modelli come ChatGPT, Claude, Gemini e Grok sono in grado di riprodurre porzioni consistenti di opere coperte da copyright quando sollecitati con prompt mirati.

Sono incluse intere pagine di classici come 1984, Frankenstein o The Great Gatsby. Ciò contraddice apertamente le dichiarazioni ufficiali con cui le aziende hanno finora negato che i sistemi contengano copie dei dati originali.

Secondo i ricercatori intervistati, e come confermato da più studi, questi modelli oltre a fare pattern recognition possono restituire testi in forma non casuale, con una fedeltà funzionale a quelli originali.

L’inchiesta ha messo in luce come studi analoghi dimostrino che questo fenomeno riguarda anche immagini, fotografie e altre forme di contenuti (es. contenuti musicali), suggerendo che la memorizzazione è una caratteristica diffusa dei modelli di grandi dimensioni.

Memorizzazione nei modelli di AI generativa non è apprendimento

Per comprendere l’importanza di queste scoperte, è utile rompere la metafora antropomorfa alla radice. Nell’intelligenza umana, “imparare” comporta astrazione, adattamento, elaborazione contestuale e dimenticanza: nessuno mantiene nella propria memoria verbatim una copia integrale di un libro letto anni prima.

Nei modelli linguistici, invece, non esiste né un “significato profondo” né capacità di giudizio. L’ottimizzazione statistica tende ad incorporare sequenze testuali laddove queste riducano l’errore di previsione durante l’addestramento.

Infine, alcuni contenuti vengono compressi con tale efficienza che una tecnica di estrazione può ricostruirli quasi integralmente.

Dal punto di vista tecnico, questo comportamento è spesso descritto come lossy compression: il modello non conserva una copia integrale dei dati di addestramento, bensì trattiene una rappresentazione compressa di questi, sacrificando alcune informazioni e preservandone altre con elevata fedeltà.

Ciò che viene “perso” non è distribuito in modo uniforme: alcuni contenuti svaniscono, altri restano ricostruibili quasi integralmente. Così, questa asimmetria rende possibile, in certi casi, la rigenerazione di porzioni estese di testi protetti, pur in assenza di una copia tradizionale.

In pratica, il modello, anziché svolgere un compito di comprensione, mappa probabilisticamente contesti e token: quando la mappa è sufficientemente dettagliata, è in grado di restituire parti di testo che si avvicinano moltissimo all’originale, contraddicendo così la narrativa dell’apprendimento concettuale.

Perché la retorica dell’“apprendimento” neutralizza il problema

Il linguaggio usato per descrivere questi sistemi gioca un ruolo fondamentale nella percezione pubblica e nella tutela legale. Termini come training, learning o intelligence evocano infatti processi cognitivizzati, quasi antropomorfi, che spostano l’attenzione dalla riproduzione concreta di dati alla generazione astratta di idee.

Questa scelta lessicale ha l’effetto di neutralizzare la discussione sui diritti di proprietà intellettuale, facendo apparire il tutto come una mera questione semantica piuttosto che di fatto.

La memorizzazione, al contrario, è un concetto tecnico preciso, misurabile e osservabile, che non ha nulla a che fare con l’astrazione concettuale o con la creatività umana.

È infatti una forma di conservazione funzionale delle informazioni, non un trasferimento di competenze.

Il diritto d’autore non si interroga sulle modalità tecniche con cui un sistema informatico memorizza i dati, né sulla forma che tale memorizzazione assume all’interno di un’architettura algoritmica. La sua attenzione è rivolta piuttosto agli effetti concreti: l’accesso a contenuti protetti, la loro riproduzione, la possibilità che vengano messi a disposizione del pubblico senza autorizzazione.

Da questo punto di vista, la distinzione tra “copia tradizionale” e rappresentazione distribuita nei parametri di un modello perde rapidamente rilevanza se il risultato finale consente di ricostruire porzioni riconoscibili di un’opera.

Quando un modello è in grado di restituire capitoli significativi di un libro, o sequenze testuali sostanzialmente equivalenti all’originale, il confine tra apprendimento legittimo e riproduzione non autorizzata si assottiglia fino a diventare giuridicamente instabile.

Non è necessario dimostrare l’intenzione di copiare, né attribuire al sistema una qualche forma di “coscienza”, in quanto ciò che conta è l’effetto di sostituzione e la perdita di controllo del titolare dei diritti sull’uso economico dell’opera.

Il fair use sotto stress: trasformatività, mercato, riconoscibilità

In questo contesto, la difesa del fair use (istituto del diritto d’autore statunitense, frequentemente invocato a sostegno dell’addestramento dei modelli di intelligenza artificiale) si fonda su alcuni presupposti chiave.

In primo luogo, l’uso deve essere trasformativo, cioè capace di aggiungere un nuovo significato o una nuova funzione rispetto all’opera originale. In secondo luogo, tale uso non deve sostituire l’opera sul mercato, né incidere in modo significativo sul suo valore economico.

Infine, il risultato non dovrebbe essere facilmente riconducibile all’originale, né permetterne una fruizione alternativa.

L’emergere di fenomeni di memorizzazione sistematica mette in crisi ciascuno di questi presupposti. Se un utente può ottenere estratti estesi e coerenti di un’opera protetta senza licenza, la natura trasformativa dell’uso diventa quantomeno discutibile.

Se tali estratti possono sostituire, anche parzialmente, l’accesso all’opera originale, l’assenza di un impatto sul mercato non può più essere data per scontata.

Infine, se il contenuto generato è riconoscibile e ricostruibile come parte di un’opera specifica, cade anche l’argomento secondo cui l’output sarebbe troppo distante dall’originale per sollevare questioni di copyright.

In questo scenario, la teoria del fair use rischia di essere uno schermo giuridico per un modello di sfruttamento dei dati che trasferisce il rischio legale dagli sviluppatori ai titolari dei diritti e, in ultima istanza, agli utenti e ai tribunali.

Si tratta ormai di valutare se gli output dell’AI producano effetti giuridicamente rilevanti che il diritto d’autore non può effettivamente ignorare.

I risvolti economici dietro la memorizzazione nei modelli di AI generativa

La persistenza della retorica dell’apprendimento umano e il ricorso estensivo alla difesa del fair use, oltre ad avere una funzione concettuale o giuridica, rispondono anche a precise esigenze economiche.

Riconoscere che i modelli memorizzano e possono rigenerare contenuti protetti implicherebbe, per le aziende che li sviluppano, la necessità di affrontare costi significativi legati alla concessione di licenze, alla remunerazione dei titolari dei diritti e alla gestione di un rischio legale strutturale.

In questo senso, la metafora antropomorfa contribuisce a sostenere un modello di sviluppo che massimizza la scalabilità tecnologica riducendo, almeno in prima battuta, l’esposizione economica e regolatoria.

Il caso New York Times e la memorizzazione: il fair use alla prova

Negli Stati Uniti, il New York Times ha citato in giudizio OpenAI sostenendo che ChatGPT sia stato addestrato su milioni di articoli della testata senza autorizzazione e che, in alcuni casi documentati, il modello abbia generato output che riproducono passaggi degli articoli in modo pressoché identico all’originale, talvolta consentendo di aggirare i paywall.

Secondo il Times, tali risposte costituiscono una riproduzione non autorizzata di contenuti protetti da copyright e non possono essere giustificate invocando la dottrina del fair use.

OpenAI, al contrario, fonda la propria difesa proprio su questo istituto del diritto statunitense, che consente l’uso di opere protette senza autorizzazione al ricorrere delle condizioni descritte poc’anzi.

Secondo OpenAI, l’addestramento di un modello linguistico costituirebbe un uso trasformativo, perché non mira a sostituire gli articoli del Times né a riprodurli come tali, ma a estrarre regolarità statistiche dal linguaggio.

Il New York Times ha contestato però radicalmente questa impostazione, ritenendo che l’uso sistematico e massivo dei propri contenuti non può essere considerato trasformativo quando il risultato finale è un sistema in grado di restituire testi sostanzialmente sovrapponibili agli originali e potenzialmente sostitutivi dell’offerta informativa della testata.

In questa prospettiva, il danno sarebbe economico e strutturale, perché l’IA ridurrebbe l’incentivo degli utenti ad accedere alle fonti originali, incidendo direttamente sul mercato che il diritto d’autore intende proteggere.

Allo stato attuale, il tribunale ha ritenuto sufficientemente fondate le argomentazioni del Times e consentito alla causa di proseguire, lasciando aperta una questione destinata ad avere effetti sistemici sull’uso dei contenuti protetti nell’ecosistema dell’intelligenza artificiale.

Il quadro europeo e la governance della memorizzazione nei modelli di AI generativa

Nel contesto europeo, il quadro giuridico rende ancora più fragile la narrativa dell’“apprendimento umano”. A differenza del sistema statunitense, il diritto d’autore dell’Unione non conosce una dottrina generale di fair use.

Prevede però eccezioni puntuali e condizionate, come quelle per il text and data mining, che possono essere espressamente escluse dai titolari dei diritti.

In un contesto in cui la memorizzazione di opere protette è empiricamente dimostrata, la persistenza della metafora antropomorfa rischia di entrare in tensione con il mercato e con la struttura stessa del diritto europeo della proprietà intellettuale.

Trasparenza dei dataset e audit sulla memorizzazione nei modelli di AI generativa

Se la memorizzazione di contenuti protetti è un rischio sistemico e non un’anomalia, allora le attuali pratiche di addestramento dei modelli generativi necessitano di una revisione profonda.

Due questioni emergono in modo urgente: da un lato, l’esigenza di trasparenza dei dataset di addestramento e, dall’altro, la necessità di audit indipendenti e test di estrazione.

La presenza di opere protette nei dataset di addestramento (come nel caso di Books3, dataset largamente utilizzato, composto in gran parte da libri piratati, e noto alle aziende fin dalle prime fasi di sviluppo dei LLM) mostra chiaramente che le aziende non possono più limitarsi a dichiarazioni generiche sulla composizione dei dati.

In gioco c’è un interesse pubblico legittimo: sapere quali opere sono state utilizzate, in quale misura e sulla base di quali diritti è una condizione necessaria per valutare la liceità dell’addestramento, l’impatto sul mercato culturale e la corretta allocazione delle responsabilità.

In assenza di queste informazioni, il rischio giuridico viene sistematicamente trasferito dagli sviluppatori agli autori, agli utenti finali e, in ultima istanza, ai tribunali.

Non basta dichiarare che un modello non contiene copie, perché bisogna dimostrare tecnicamente che i meccanismi di estrazione dei contenuti non consentono la ricostruzione di materiali protetti.

Come mostrano i recenti studi, i meccanismi di sicurezza adottati dai modelli di intelligenza artificiale si limitano a impedire l’emersione diretta dei contenuti potenzialmente problematici.

Tecniche come jailbreak o semplici strategie di sollecitazione iterativa dimostrano che questi filtri possono essere aggirati senza particolari competenze tecniche.

Il dato rilevante, sul piano giuridico, è che il contenuto resta accessibile perché è già incorporato nel modello: di conseguenza, i filtri di sicurezza non rappresentano una garanzia effettiva contro il rischio di riproduzione non autorizzata di opere protette.

Verso una regolazione senza metafore: cosa chiedere ai modelli

L’idea che un modello di linguaggio “impari come un umano” ha retto finché la tecnologia era relativamente limitata. Ora che la memorizzazione è empiricamente dimostrata e riproducibile, quella metafora non serve più a governare la tecnologia perché, in realtà, la ostacola, impedendone una regolamentazione adeguata.

Una regolazione credibile dovrebbe riconoscere la natura statistica dei modelli e richiedere trasparenza sui dati di addestramento.

Dovrebbe inoltre imporre audit indipendenti sulle capacità di memorizzazione e definire responsabilità chiare per gli output derivanti da contenuti protetti.

Con queste misure è possibile bilanciare innovazione e rispetto dei diritti di proprietà intellettuale in modo equo e sostenibile.

Dall’inganno semantico alla realtà dei fatti

Il fenomeno della memorizzazione, mettendo in discussione la narrativa dominante del “learning as human-like learning”, impone un ripensamento radicale di come regoliamo, monitoriamo e giudichiamo i grandi modelli di intelligenza artificiale generativa che operano come infrastrutture di compressione e riutilizzo dei contenuti.

Per troppo tempo abbiamo usato metafore comode e suggestive per mascherare questioni concrete. Ora la realtà della memorizzazione costringe a guardare in faccia i fatti, riconoscendo che i modelli sono sistemi che archiviano e a volte riproducono, non studenti che apprendono.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x