Quando il marasma concettuale incontra il servilismo più bieco, capisci che andrà molto peggio, prima di andare meglio.
Indice degli argomenti
Sentenze contrastanti sull’uso legittimo nei modelli AI
In settimana ci sono state due sentenze interessanti nella lunga diatriba fra paladini della IA e produttori di contenuti per stabilire se il riuso su vasta scala di materiali protetti costituisca o meno un reato.
Quello che si evince dalle sentenze, per dirla con il libro dell’Ecclesiaste, è che grande è la confusione sotto il cielo.
E per non farci mancare nulla, la fondazione Creative Commons ha presentato, sullo stesso tema, il proprio candidato all’idea più imbecille del secolo, con buone probabilità di vincere il titolo.
La sentenza Anthropic
Vediamo brevemente le sentenze. La prima in ordine di tempo è stata quella in cui il giudice federale di San Francisco, William Alsup, ha stabilito che Anthropic non ha violato il copyright usando nella loro interezza i testi delle opere dei ricorrenti per addestrare la sua AI, Claude.
Il giudice non solo ha stabilito che questo ricade nell’uso legittimo (“fair use”), ma ha paragonato l’attività del LLM a “un lettore che aspira a diventare uno scrittore” e che usa le opere “non per replicarle e sostituirle” ma per “superare le difficoltà e creare qualcosa di diverso”.
Lo stesso giudice, nella stessa sentenza, ha poi stabilito che sempre Anthropic ha invece violato il copyright creando e mantenendo un proprio archivio digitale di oltre 7 milioni di titoli piratati, anche se poi Anthropic ha poi acquistato milioni di titoli cartacei.
Il fatto che Anthropic abbia in seguito acquistato la copia di un libro che aveva in precedenza rubato da Internet non la assolve dalle conseguenze del furto, ma potrebbe variare la portata del risarcimento.
Per questo secondo reato, il giudice ha stabilito un nuovo processo in dicembre.
Secondo la legge, il risarcimento potrebbe arrivare fino a un massimo di 150mila dollari per singola opera piratata; se anche facessimo solo diecimila dollari a titolo, per sette milioni di titoli fa settanta miliardi di dollari, che metterebbe immediatamente in liquidazione Anthropic.
Il peso economico delle sanzioni e l’impunità tecnologica
Non credo nemmeno che arriveremo a mille dollari di multa per titolo piratato, perché anche una multa di sette miliardi metterebbe fuori gioco uno dei paladini dell’America nella sua lotta contro la Cina per la supremazia planetaria, secondo le idee in voga nella Valley.
È quindi probabile che alla fine, se multa ci sarà, sarà di qualche milione, cioè tipo un dollaro o due per titolo o anche meno.
Il che non fa che confermare il detto secondo il quale se devi rubare, ruba in grande.
La sentenza Meta e la prova del danno
La seconda sentenza riguarda Meta, e il caso è identico al precedente. Un gruppo di autori, fra cui Sarah Silverman e Ta-Nehisi Coates, ha denunciato Meta per violazione di copyright, per avere usato le loro opere per addestrare senza il loro permesso la propria IA, Llama.
Il giudice distrettuale di San Francisco, Vince Chhabria, ha dato ragione a Meta dicendo che gli autori non avevano presentato abbastanza prove che l’AI di Meta li avrebbe danneggiati riducendo il mercato per le loro opere.
In pratica la tesi degli autori era: chi comprerà i miei libri se basta chiedere a Llama (la IA di Facebook) di farne il riassunto?
Fallimenti argomentativi e ambiguità giudiziarie
Accettando così implicitamente che se chiedi a un Large Language Model LLM di fare il riassunto di un’opera, quel riassunto sia veritiero.
In quanti modi bisogna ripetere che i modelli linguistici non hanno nessun vincolo di realtà, e che quindi il loro output è realistico ma, fino a prova contraria, non reale?
E comunque, siccome viviamo in tempi disperati, ma non seri, il giudice si è affrettato a chiarire che:
…questa decisione non avalla il concetto che l’uso da parte di Meta di materiali protetti da copyright per addestrare il proprio modello linguistico sia lecito, […] ma avalla soltanto l’idea che i ricorrenti hanno presentato l’argomento sbagliato e non hanno prodotto evidenze a supporto dell’argomento giusto.
Creative Signals e il paradosso del consenso algoritmico
Non è ancora finita. La fondazione Creative Commons se ne è appena uscita con una consultazione pubblica di un proprio progetto chiamato “Creative Signals”. L’idea la spiego con le parole degli stessi ideatori:
Ora che l’intelligenza artificiale (AI) trasforma il modo in cui la conoscenza viene creata, condivisa e riutilizzata, ci troviamo a un bivio che definirà il futuro dell’accesso alla conoscenza e della creatività condivisa. Una strada porta all’estrazione dei dati e all’erosione dell’apertura; l’altra porta a un Internet murato e protetto da paywall. I segnali CC offrono un’altra strada, fondata sui valori sfumati dei beni comuni espressi dal collettivo.
I “CC Signals” consentiranno ai detentori di dati di segnalare le proprie preferenze sul modo in cui i propri contenuti possono essere riutilizzati dalle macchine, sulla base di una serie di opzioni limitate ma significative, modellate nell’interesse pubblico. Si tratta sia di uno strumento tecnico e legale che di una proposta sociale: una richiesta di un nuovo patto tra chi condivide i dati e chi li usa per addestrare modelli di intelligenza artificiale.
Che parole ispirate; quanta condivisione, quanto spirito sociale, quanta armonia celeste. Corriamo tutti nel bosco, spogliamoci nudi e cantiamo “Kumbaya” danzando in cerchio.
In questo momento su github, dove si raccolgono i feedback a questa proposta il commento più votato dice fra l’altro:
Invitare i web-bot dei modelli linguistici a negoziare i termini di licenza per le opere CC è come se un gregge di pecore tenesse un summit per redigere linee guida etiche su come i lupi possano gustare al meglio la carne ovina, discutendo se il rosmarino o il timo completino al meglio il loro sacrificio, già insaporito, ovviamente, dai moduli di consenso in allegato. Abbiamo bisogno di un recinto, non di un ricettario.
E non c’è da dargli torto. Nelle ultime settimane e mesi ogni gestore di sito web ha visto schizzare verso l’alto il numero di accessi da parte di scrapers di ogni azienda di IA, quasi sempre con richieste talmente sostenute da costituire veri e propri attacchi Denial-of-Service, senza parlare dei costi aggiuntivi dei picchi di traffico.
In tutto questo, Creative Commons arriva con la sua proposta per presentare le “preferenze” dei detentori dei diritti ad aziende che hanno già nutrito i propri modelli linguistici con l’intero contenuto di Internet, e lo hanno fatto ignorando completamente l’unico segnale già esistente: quel `robots.txt` che dovrebbe proprio servire a limitare l’accesso indiscriminato di bot alle varie aree di un sito.
Segnali CC tra idealismo normativo e realtà predatoria
Posso solo immaginare il successo di segnali come:
- Riconoscimento: “Dovete riconoscere la fonte in modo appropriato in base al metodo, ai mezzi e al contesto del vostro utilizzo”.
oppure
- Contributo diretto: Ddvete fornire un sostegno monetario o in natura alla Parte dichiarante per lo sviluppo e la manutenzione dei beni, sulla base di una valutazione in buona fede che tenga conto del vostro utilizzo dei beni e dei vostri mezzi finanziari.
O anche il più surreale:
- Contributo all’ecosistema: dovete fornire un sostegno monetario o in natura all’ecosistema di cui state beneficiando, sulla base di una valutazione in buona fede che tenga conto del vostro utilizzo dei beni e dei vostri mezzi finanziari”.
Ideologia tech e la favola dell’apertura collaborativa
Concetti molto alti, che però si infrangono contro il fatto che i signorotti dei modelli linguistici vedono tutto quello che è reperibile su Internet come pecore per ingrassare i propri lupi.
E come diceva il commentatore di github, abbiamo bisogno di recinti, non di ricettari.
Il problema fondamentale di Creative Signals, secondo me, è che parte da premesse sbagliate:
Se tutti negano l’accesso, tutti perdono.
No, cari, perdono solo i tecno feudalisti che con la scusa dell’addestramento pretendono di disporre gratuitamente di qualsiasi contenuto per produrre i propri strumenti commerciali.
L’illusione della creazione nei modelli linguistici
Gli LLM per definizione non creano né condividono conoscenza. Si limitano a rimasticare (gratis) quella prodotta da altri, rigurgitando testi formalmente verosimili senza alcun vincolo di realtà.
L’idea che l’Intelligenza Artificiale sia intrinsecamente una cosa buona, che sia una tecnologia inevitabile, e che inevitabilmente porterà a progressi e abbondanza, per usare le parole in voga, non è un punto di vista legittimo.
È lo slogan, la proposizione di vendita di Altman e soci. Che peraltro viene immediatamente smentita appena si prova a usarli, questi modelli linguistici fatti passare per intelligenza.
I legami delle fondazioni open source con l’industria tech
Ma come è possibile che proprio Creative Commons, che con le sue licenze ha di fatto reso possibile il web libero, se ne venga fuori con una proposta del genere?
Semplice.
Creatvie Commons, come pure la Electronic Frontier Foundation, non sono altro che lobbisti per Big Tech, che come strategia presentano le istanze dell’industria come istanze sociali.
Se ricordate, entrambi sono state assolutamente a favore di NFT, BitCoin, e Metaverso. Poi hanno cambiato idea.
Ma chi paga comanda, e i budget di EFF e CC sono tenuti in piedi dai GAFAM, non dai comitati di quartiere.
Wikimedia Italia vs. Amorese: diritto d’autore post-mortem e rendita editoriale
Intanto, da quest’altra parte dell’oceano, qualcuno combatte ancora le battaglie di quarant’anni fa.
A quanto pare un certo onorevole Amorese ha presentato una proposta di legge che mira ad estendere la durata del diritto d’autore sulle cosiddette “fotografie semplici” da 20 a 70 anni dopo la morte dell’autore.
Sono abbastanza stagionato da ricordare quando il WIPO stabilì di estendere il diritto d’autore a 70 anni dopo la morte dell’autore.
In quel caso, eravamo alla fine degli ’80, si seppe subito che dietro c’era Disney, terrorizzata dal fatto che le prime versioni di Mickey Mouse potessero diventare di dominio pubblico. Non dubito che anche quando si legge la proposta Amorese ci siano gli applausi di qualche lobby di editori nostrani.
In questo caso la mia posizione è radicalmente semplice. Il diritto d’autore, con l’autore in vita, serve all’autore. Dopo la morte dell’autore serve ai parassiti che vogliono vivere alle sue spalle.
Quindi, anche tenendo in considerazione le inevitabili vedove in lacrime e orfani a rischio denutrizione che verrebbero fatti entrare nel discorso, secondo me il diritto d’autore dovrebbe decadere in ogni caso non oltre dieci anni dalla morte, se non anche prima.
In un mondo dove esiste internet, meno editori e più materiali liberi mi sembra un obiettivo meritevole.
Il fair use trasformativo e i limiti della prova tecnica
Le sentenze americane ci mettono di fronte a una realtà difficile, fastidiosa.
I tecnofeudatari, con l'”addestramento” dei loro chatbot hanno trovato una scappatoia per impossessarsi gratis di tutti i contenuti condivisi in rete, con qualsiasi licenza.
Infatti, da un lato sono furioso per le sentenze favorevoli a big tech, ma dall’altro riconosco che per come abbiamo definito il fair use, non è possibile escludere l’addestramento di IA.
Il fair use fa una distinzione semplice: se l’uso di un qualche materiale è trasformativo, allora è fair use. Se invece l’uso è derivativo, non c’è fair use e occorre ottenere, pagando, i diritti d’uso.
In parole povere: se scrivo una commedia su come Leonardo ha dipinto la Gioconda, posso farlo liberamente e non devo nulla al Louvre. Ma se voglio vendere delle cartoline con la Gioconda, devo pagare i diritti.
Il problema, quindi, sarebbe dimostrare che i modelli linguistici replicano e non trasformano. Il che è difficilissimo per due motivi:
- nessuno sa come funzioni, nel dettaglio, un modello linguistico, incluso chi lo ha costruito
- è facile dimostrare che c’è un uso trasformativo facendo vedere che un LLM non memorizza i dati di addestramento.
Lo so, ci sono una tonnellata di paper che dimostrano che un LLM può riprodurre intere pozioni dei dati d’addestramento.
Ma non si tratta mai di opere complete, e le minime differenze fra l’originale e la replica possono facilmente essere assimilate a ciò che fa qualunque lettore, che magari cita a memoria un paragrafo o una pagina, ed è assolutamente nel proprio diritto di farlo.
Antropomorfismo giudiziario e retoriche sull’apprendimento
E come ci dimostra il giudice Alsup, l’idea che un LLM sia qualcosa che “impara” nel senso umano del termine (e quindi assimilabile a uno studente che legge un testo e lo “fa proprio” senza per questo dovere pagare dei diritti) ormai è passata.
Come se non bastassero le schiere di avvocati di Big Tech, dobbiamo confrontarci anche con giudici che antropomorfizzano gli LLM, e francamente non la vedo bene.
Proibizione dello scraping: un’utopia necessaria
Io credo che la battaglia per stabilire se lo scraping indiscriminato per finalità di “addestramento AI” sia una violazione del diritto d’autore sia già persa. La sola possibilità che vedo è vietarlo a priori, il che significherebbe mettere una pietra tombale sulla fiorente bolla speculativa nota come “intelligenza artificiale, versione modelli linguistici”. Sì, mi piace la fantascienza.
Quello cui stiamo assistendo è la perversione di un meccanismo nato per garantire il libero accesso al sapere, per garantire le biblioteche e l’uso individuale, a tutto vantaggio di chi del sapere aspira a diventare monopolista.
Perché l’endgame dei modelli linguistici è di diventare i gatekeeper, l’accesso obbligato, a tutto il sapere. Perché è il solo modo in cui possano diventare redditizi.
Non importa se i modelli linguistici siano affidabili come un pappagallo ubriaco, perché dopo anni di propaganda ormai il pubblico ha interiorizzato che tu a chatGPT gli fai una domanda e lui ti dà LA RISPOSTA.
Come società dovremo reimparare a nostre spese cosa sia una fonte autorevole. E pagheremo caro.
Resistenza civile e strategie di autodifesa digitale
Oppure.
Oppure armare i nostri siti di tarpit che avvelenino le IA con giga e giga di testi fittizi, premere con i nostri deputati in Europa per l’eliminazione dello scraping dalle pratiche giudicate come fair use, rifiutarsi di usare modelli linguistici e soprattutto obiettare a che siano usati su di noi.
Al colloquio avevano Copilot che prendeva le note in automatico? Chiedere la trascrizione completa e revocare il consenso al suo uso da quel momento in poi.
La scuola spinge per Google Workspace con Gemini? Lezione alla lavagna, assegnare gli esercizi sul libro, e verifiche scritte in classe, le crocette lasciamole agli americani.
Il capo vuole che usi copilot? Benissimo. Annota ogni errore, ogni stupidata, sia che te li proponga Copilot sia che si trovino nelle mail del capo o del CEO. Tieni le ricevute. E cercati un altro capo, o un altro lavoro, perché la ditta ha le ore contate.
Chiunque vuole può usare la IA per studiare. Ma ogni fesseria al sapore di IA vale tre punti, uno per l’errore, uno per la mancanza esibita di senso critico, e uno per aver cercato di prendere in giro il docente.
Costa fatica, ma è il solo modo. Dobbiamo fare tutto, nei limiti del lecito, per difendere la qualità e la sanità del nostro spazio epistemologico dall’inquinamento rappresentato dai modelli linguistici.
E dobbiamo farlo fino a che siamo in tempo. Perché, dopo, ci rimangono solo le torce.