La causa depositata da Reddit mercoledì 22 ottobre presso il tribunale federale di New York contro Perplexity AI rappresenta un nuovo test, particolarmente significativo, per definire i confini legali dello scraping nell’epoca dell’intelligenza artificiale generativa, con questioni giuridiche complesse che potrebbero rivelarsi meno favorevoli a Reddit di quanto la piattaforma speri.
Indice degli argomenti
L’aggiramento delle misure tecnologiche di protezione
Reddit ha fondato la propria causa sulla Sezione 1201 del Digital Millennium Copyright Act, che vieta l’aggiramento di misure tecnologiche di protezione. Ciò significa che anziché dover dimostrare la violazione diretta del copyright (una strada irta di ostacoli quando si parla di contenuti generati dagli utenti), Reddit può limitarsi a provare che le società di scraping hanno aggirato le sue protezioni tecniche.
La teoria, processualmente parlando, è quantomai elegant. I software Oxylabs, AWMProxy e SerpApi avrebbero estratto quasi tre miliardi di pagine di risultati Google contenenti materiale Reddit, aggirando quindi sia le protezioni di Reddit che il sistema SearchGuard di Google. Perplexity avrebbe solo successivamente acquistando questi dati.
La questione nasce dal presupposto che le protezioni aggirate non riguardano sistemi sofisticati come password, crittografia o codici anti-copia, ma semplici limiti sul numero di richieste che un computer può fare al server (i cosiddetti rate limiting) e controlli automatici per verificare se chi accede è un browser normale o un bot/software automatico (user agent).
Queste tecnologie si sono rivelate facilmente superabili. Basta distribuire le richieste su migliaia di indirizzi IP diversi per aggirare i limiti numerici, e dichiarare, con strumenti oramai alla portata di tutti, di essere ad esempio un browser Chrome invece di un bot per superare i controlli automatici. Un tribunale potrebbe ritenere che misure così elementari, che servono più a gestire il traffico che a impedire realmente l’accesso ai contenuti, non costituiscano quindi “protezioni tecnologiche effettive” ai sensi della legge DMCA.
Questo punto è particolarmente problematico considerando che i contenuti di Reddit sono comunque pubblicamente accessibili e chiunque può leggerli aprendo semplicemente un browser, senza bisogno di registrarsi o inserire password.
Chi detiene il copyright dei threads di Reddit?
Come osserva Blake Reid della University of Colorado Law School, Reddit non possiede il copyright sui post pubblicati sulla piattaforma. I titolari sono gli utenti che hanno creato quei contenuti. Questo crea un problema giuridico significativo, considerando che Reddit sta difendendo diritti che formalmente non le appartengono.
Certo, i termini di servizio di Reddit garantiscono alla piattaforma una licenza per utilizzare, distribuire e monetizzare i contenuti. Ma questa licenza è sufficiente per intentare causa in nome proprio per violazione del copyright? La giurisprudenza americana richiede generalmente che il titolare esclusivo dei diritti sia parte attiva nel processo, e Reddit icto oculi non lo è.
Un punto giuridico a favore potrebbe essere il sostenere che la protezione non verte tanto sui singoli contenuti quanto nel database nel suo complesso, che come compilazione strutturata potrebbe godere di protezione autonoma.
Ma anche questa teoria, almeno secondo la normativa statunitense ha dei limiti. La protezione dei database negli Stati Uniti è infatti molto più debole che in Europa (protetta in Italia dall’ art. 64 quinquies L. 633/1941) e richiede comunque un elemento di originalità nella selezione e organizzazione dei dati che un forum pubblico faticherebbe molto a dimostrare.
La difesa di Perplexity
Perplexity ha risposto sostenendo di non addestrare modelli AI sui contenuti Reddit, ma di limitarsi a riassumerli e citarli nelle risposte agli utenti. La distinzione risulta davvero cruciale sul piano giuridico, ed è uno dei nodi gordiani dell’interpretazione relativa all’applicazione del copyright in ambito AI. Laddove Perplexity si occupi effettivamente solo di riassumere contenuti pubblici, potrebbe invocare il fair use.
La dottrina del fair use protegge infatti l’utilizzo trasformativo di opere protette, e i tribunali americani hanno storicamente considerato favorevolmente servizi che aggregano, riassumono o indicizzano contenuti esistenti per nuovi scopi. Google stesso ha vinto battaglie legali proprio su questo principio per Google Books e Google News.
A vederla bene, la difesa di Perplexity presenta alcune debolezze. Primo, l’azienda gestisce un “answer engine” che sostituisce la visita al sito originale, sottraendo traffico e valore economico a Reddit (un pò come accade con Google AI Overview), e questo fattore potrebbe incidere negativamente nell’analisi sul fair use. Inoltre, anche se Perplexity non addestra modelli direttamente sui dati Reddit, li utilizza comunque per generare risposte con finalità commerciale.
La trappola del post-esca tesa da Reddit, che ha inserito un contenuto visibile solo al crawler di Google ma che è invece apparso rapidamente in Perplexity, ha inoltre dimostrato che l’azienda accede sicuramente ai dati tramite scraping dei risultati Google e non tramite consultazione diretta come un normale utente. Questo punto mina fortemente la credibilità dell’argomento secondo cui Perplexity “accede legittimamente come qualsiasi utente del web”.
Comet, Atlas e la battaglia sui nuovi answer engine browser
Reddit ha accordi di licenza con Google e OpenAI e forse anche per questo fa causa a Perplexity. Il timing non è casuale, considerando gli ultimi scenari di mercato.
Perplexity ha recentemente lanciato Comet, un motore di ricerca di nuova generazione che punta a sfidare direttamente Google combinando ricerca tradizionale e intelligenza artificiale. Contemporaneamente, OpenAI ha appena rilasciato ChatGPT Search (conosciuto anche come Atlas), un competitor diretto di Perplexity con funzionalità pressoché identiche.
La causa di Reddit acquisisce un valore ancora più pregnante considerando la battaglia commerciale più ampia per il controllo dei nuovi “answer engines” che stanno ridefinendo completamente la classica ricerca online.
Avendo Reddit rapporti commerciali consolidati con Google, che domina ancora la ricerca tradizionale, e OpenAI, che sta emergendo come player principale nell’AI conversazionale, la volontà di aggredire giuridicamente l’outsider Perplexity, che con Comet cerca di ritagliarsi uno spazio tra i giganti, ha una valore molto ampio.
La domanda, citando il giornalista Antonio Lubrano, nasce spontanea: il fondo della questione riguarda la tutela della proprietà intellettuale, o il tentativo di consolidare un oligopolio nell’accesso ai dati per AI favorendo partner commerciali già consolidati? La dichiarazione di Perplexity che definisce la causa “un triste esempio di ciò che accade quando i dati pubblici diventano parte del modello di business di una società quotata” coglie un punto rilevante: Reddit sta monetizzando contenuti che non ha creato, stabilendo costi arbitrari e potenzialmente discriminatori per l’accesso.
Un tribunale potrebbe potenzialmente considerare questo comportamento come abuso di posizione dominante o come pratica anticoncorrenziale volta a soffocare un competitor emergente nella fase più delicata del suo sviluppo, soprattutto se emergesse che Reddit applica condizioni economiche o tecniche significativamente diverse tra i vari operatori del mercato degli answer engines.
Prospettive processuali e possibili esiti
Sul piano pratico, Reddit chiede un risarcimento economico ed un’ingiunzione permanente per non raccogliere ulteriormente i dati sul proprio sito. Se ottenesse l’ingiunzione, Perplexity dovrebbe ricostruire il proprio sistema senza accesso a Reddit, che pare rappresentare la fonte più citata nelle sue risposte AI.
Ragioniamo sui possibili scenari.
L’eventuale accoglimento della domanda di Reddit, con Il tribunale fa proprie la tesi che le protezioni anti-scraping costituiscano misure tecnologiche DMCA e che l’aggiramento sia illecito sarebbe un precedente rappresentativo (per non dire devastante) per l’industria AI, che dovrebbe negoziare costose licenze per ogni fonte di dati.
L’eventuale rigetto della domanda di Reddit prevederebbe che il Tribunale ritiene che i dati pubblici possano essere legittimamente utilizzati per summarization (fair use) e che le protezioni di Reddit non costituiscano misure DMCA efficaci. Precedente favorevole all’AI ma potenzialmente distruttivo per le piattaforme di contenuti come la stessa Reddit o Quora.
La dinamica in fase di consolidamento nelle cause AI suggerirebbe un esito scontato, cioè un accordo transattivo per trasformare la battaglia legale in contratto commerciale. Reddit ottiene royalties, Perplexity legittima retroattivamente lo scraping già effettuato. Le questioni giuridiche di principio rimangono inevase, sostituite da clausole di riservatezza e pagamenti periodici.
La causa contro Perplexity non è infatti un caso isolato. Pochi mesi prima, a giugno 2025, Reddit aveva intentato un’azione legale simile contro Anthropic, accusando l’azienda di aver utilizzato i contenuti della piattaforma per addestrare Claude senza autorizzazione.
Questa sequenza di contenziosi potrebbe rivelare una strategia di enforcement selettiva: Reddit colpisce metodicamente gli operatori AI che non hanno sottoscritto accordi di licenza, risparmiando partner commerciali come Google e OpenAI. Il caso Anthropic si concentrava sull’addestramento diretto dei modelli, mentre quello contro Perplexity verte sullo scraping per answer engines. Due fronti della stessa battaglia, con la causa contro Anthropic ancora pendente presso i tribunali californiani.
Il quarto scenario, senza dubbio più affascinante giuridicamente, sarebbe l’eventuale dismissione per difetto di legittimazione, con il Tribunale che ritiene che Reddit non abbia titolo per agire non essendo titolare del copyright. Esito tecnicamente possibile ma abbastanza improbabile sul piano fattuale.
Come osserva James Cooper della California Western School of Law, “dobbiamo ancora definire le regole” sulla proprietà intellettuale nell’era AI. Affidare questa definizione alla giurisprudenza caso per caso è inefficiente e, come dicevamo poc’anzi, produce incertezza.
Trovare una quadra non è semplice, occorrendo un intervento legislativo capace di garantire all’AI accesso a dati di addestramento, ma proteggendo i creatori di contenuti e incentivare la produzione continua di informazione di qualità.
Come abbiamo analizzato in precedenza su queste pagine, i modelli possibili includono licenze obbligatorie con compensi standard, regimi di opt-out per i detentori di diritti, o fondi di compensazione collettivi simili a quelli esistenti per la musica
Lo ripetiamo: In assenza di regolamentazione, ci troviamo di fronte a modelli di AI Generativa soffocati da costi di licenza proibitivi, o di fronte un ecosistema informativo impoverito dalla sottrazione sistematica di valore. Il caso Reddit-Perplexity è solo l’ultimo atto di una battaglia che richiede soluzioni strutturali, non solo sentenze giudiziarie.











