il paradosso

Ora che il traffico bot ha superato quello umano, il captcha è un problema



Indirizzo copiato

Il traffico automatizzato supera quello umano e mette in crisi captcha, sistemi anti-bot e tutela della proprietà intellettuale online. Il nodo riguarda anche DSA, Trusted Flagger, privacy e riconoscibilità tecnica dei soggetti accreditati che operano per contrastare gli illeciti digitali

Pubblicato il 25 giu 2026

Marco Signorelli

Director of Strategy & Operations di DCP



shutterstock_1234852981 (1)
AI Questions Icon
Chiedi all'AI
Riassumi questo articolo
Approfondisci con altre fonti


Per la prima volta nella storia della rete il traffico generato da bot e agenti automatizzati ha superato quello umano. Le difese anti-bot, a partire dal captcha, hanno smesso da tempo di separare davvero l’uomo dalla macchina. Quello che separano, nella pratica, è chi si dichiara da chi si maschera, e a pagarne il prezzo sono i primi.

Chi tutela per professione la proprietà intellettuale online lo verifica sul piano dei costi di monitoraggio e su quello, più ampio, dell’effettività del Digital Services Act. Nel frattempo il captcha si trasforma anche in un problema di compliance privacy per chi lo adotta. La direzione sostenibile sembra una sola: passare dalla profilazione del visitatore all’identità verificabile del traffico.

La lettura dei due fenomeni viene osservata di rado nello stesso quadro. Il primo è quello che ho chiamato il “paradosso del captcha”. Il secondo è il vuoto normativo che il Digital Services Act non ha colmato sul monitoraggio attivo da parte dei segnalatori attendibili, un tema già analizzato su queste pagine nel 2023. Preso da solo, ciascuno dei due sembra appartenere a un mondo diverso: l’uno una questione tecnica di web security, l’altro una sottigliezza interpretativa del regolamento europeo. Messi accanto, e pur muovendo da intenzioni condivisibili, restituiscono un esito che si fatica a difendere. L’onere dell’enforcement ricade sempre più su chi opera in trasparenza, mentre chi agisce in malafede dispone di strumenti di elusione ormai industriali, a basso costo e in continuo miglioramento.

I numeri diffusi da Cloudflare nei giorni scorsi, che certificano il sorpasso del traffico automatizzato su quello umano, valgono più di una curiosità statistica. Segnano la fine della premessa concettuale su cui è stata costruita l’intera architettura anti-bot e, in parte, anche una porzione delle prassi di moderazione delle piattaforme. Conviene ripercorrere la strada che ci ha portati fin qui, a partire dai dati che già nel 2021 mostravano la natura ambigua di questi strumenti.

2021: un attrito già misurato, e già asimmetrico

Nel novembre 2021 un’analisi pubblicata su Agendadigitale fotografava il “dilemma tra sicurezza e usabilità” dei captcha nell’e-commerce. I dati erano già eloquenti. Solo il 66% degli utenti risolveva un captcha testuale al primo tentativo (Baymard Institute); l’attivazione dei test riduceva dell’88% le registrazioni automatizzate, ma costava anche un calo del 3,2% delle conversioni genuine (MOZ). Riletto oggi, però, il dato che colpisce di più è un altro. Già nel 2014 Google aveva ammesso che un proprio algoritmo risolveva i captcha testuali nel 99% dei casi, contro il 33% degli esseri umani. Lo strumento nato per distinguere l’uomo dalla macchina era insomma più bravo a respingere il primo che a fermare la seconda. La risposta dell’industria, da reCAPTCHA v3 all’analisi comportamentale fino al fingerprinting, ha spostato il test dall’enigma visibile alla sorveglianza invisibile, senza toccarne il difetto strutturale: ogni innalzamento della soglia ha pesato soprattutto sugli utenti legittimi e sugli operatori dichiarati, mentre gli attori organizzati hanno continuato ad aggirarla con captcha farm e automazione.

2026: il sorpasso dei bot e la fine di una presunzione

Il quadro attuale emerge con chiarezza dai dati di Cloudflare ripresi dall’ANSA l’8 giugno. Il 57,4% delle richieste ai siti serviti dalla società proviene da bot e agenti automatizzati, contro il 42,6% generato da esseri umani. È il primo sorpasso documentato nella storia di internet, e ha colto di sorpresa per la sua rapidità anche gli addetti ai lavori: Matthew Prince, co-fondatore e amministratore delegato di Cloudflare, lo aveva previsto per la fine del 2027. A spingere il fenomeno è l’IA agentica. Dove una persona consulta in media cinque siti prima di un acquisto, un agente può confrontare lo stesso articolo su cinquemila pagine.

Il dato di Cloudflare non è isolato. Il Bad Bot Report 2025 di Imperva (gruppo Thales) aveva già rilevato che il traffico automatizzato valeva il 51% del totale e che i soli bad bot, cioè l’automazione apertamente malevola fatta di scraping abusivo, account takeover e frodi, pesavano per il 37% dell’intero traffico web, in crescita per il sesto anno di fila. Una precisazione metodologica è doverosa. Queste metriche misurano richieste HTTP, non il tempo di utilizzo o l’attenzione, e in termini di engagement gli esseri umani restano i principali abitanti della rete. Per chi gestisce infrastrutture, marketplace e sistemi di sicurezza, però, sono i volumi di richieste a dettare le policy di difesa. Ed è su quelle policy che il paradosso scarica il suo peso.

Il paradosso del captcha: una barriera selettiva al contrario

Il captcha, acronimo di Completely Automated Public Turing test to tell Computers and Humans Apart, nasce per rispondere a una domanda binaria: umano o macchina? Quella domanda, oggi, non ha più una risposta affidabile. Analisi recenti indicano che i sistemi basati su modelli multimodali risolvono i captcha con un’accuratezza superiore al 95%, mentre gli esseri umani si fermano tra il 50% e l’86% a seconda del tipo di test. La domanda a cui il captcha risponde davvero è diventata un’altra, ed è di natura economica: quanto si è disposti a spendere per superarlo?

È qui che la barriera diventa selettiva al contrario. Chi opera in malafede, dalle reti di contraffazione ai venditori di repliche, dai gestori di store fraudolenti agli operatori di phishing, dispone di una filiera di elusione ormai matura. Solver automatizzati dal costo marginale irrisorio, captcha farm con operatori umani in carne e ossa, proxy residenziali che mascherano l’origine del traffico, strumenti per eludere il fingerprinting: per questi soggetti il captcha è una voce di costo trascurabile, già messa a bilancio nel modello illecito.

Chi opera in trasparenza si trova nella condizione opposta. Un operatore di brand protection che svolge monitoraggio sistematico per conto dei titolari dei diritti ha interesse a dichiararsi, e spesso ne ha anche un obbligo contrattuale o deontologico: user agent identificabili, indirizzi IP stabili, frequenze di richiesta prudenti, rispetto dei termini d’uso. Il risultato è che proprio questi soggetti finiscono intercettati e bloccati dai sistemi anti-bot, con un aumento di costi operativi che ricade, alla fine, sui titolari dei diritti. Nella pratica professionale l’asimmetria si tocca con mano ogni giorno: il monitoraggio lecito rallenta, si frammenta e richiede un intervento umano sempre maggiore, mentre l’offerta illecita continua a scalare con l’automazione.

A questa criticità operativa si affianca un ulteriore profilo, meno visibile ma sempre più rilevante sul piano della compliance. I moderni sistemi anti-bot non si limitano infatti a verificare l’interazione dell’utente con una pagina web, ma ricorrono frequentemente a tecniche di fingerprinting, analisi comportamentale e raccolta di dati tecnici del dispositivo e della navigazione. Negli ultimi anni tali pratiche hanno attirato l’attenzione delle autorità europee per la protezione dei dati personali, alimentando un dibattito sulla compatibilità di alcuni sistemi captcha con i principi di minimizzazione, trasparenza e proporzionalità previsti dal GDPR. Anche le recenti modifiche introdotte da Google nella gestione di reCAPTCHA, accompagnate dal dibattito europeo sulla qualificazione dei ruoli privacy e dagli interventi delle autorità di controllo, confermano come il tema non riguardi più soltanto la sicurezza informatica, ma anche la corretta attribuzione delle responsabilità nel trattamento dei dati personali.

L’impatto sulla filiera dell’enforcement

Per misurare la portata concreta del problema bisogna guardare alla filiera operativa della tutela della proprietà intellettuale, che oggi non può che essere automatizzata. Contrastare contraffazione e pirateria su scala significa monitorare di continuo marketplace, motori di ricerca, social network, app e siti vetrina, classificare i risultati, acquisire le evidenze, inviare le segnalazioni tramite le procedure di notice and takedown o i programmi dedicati delle piattaforme e verificare a valle la rimozione. Nessuna di queste fasi regge se affidata al lavoro manuale, davanti a fenomeni che contano decine di migliaia di inserzioni, riproposte a ciclo continuo da reti di account usa e getta. Ogni ostacolo anti-bot che si frappone alla rilevazione si propaga così sull’intera catena: ciò che non si trova non si acquisisce, e ciò che non si acquisisce non si segnala e non si rimuove.

Il paradosso assume un risvolto temporale là dove è lo stesso legislatore a imporre tempi stretti. È il caso della legge 93/2023 e del sistema Piracy Shield, dove il provvedimento di blocco va eseguito entro trenta minuti dalla segnalazione. Tutta la fase a monte, però, cioè l’individuazione del servizio illecito, l’analisi dell’infrastruttura e l’acquisizione forense delle evidenze, resta esposta alle frizioni tecniche di cui si è detto. Ne nasce un’inversione singolare: la fase regolata corre, quella che la alimenta è rallentata in modo strutturale da difese che non sanno distinguere il segnalatore dall’attaccante. Sui contenuti live, dove il danno si consuma in poche ore, ogni minuto perso nella rilevazione è valore che passa all’offerta illecita.

C’è poi un aspetto che gli addetti ai lavori conoscono bene. Gli stessi strumenti che le piattaforme mettono a disposizione dei titolari, dai programmi di brand protection dei marketplace ai portali di segnalazione IP, presuppongono in gran parte un’interazione manuale e di rado offrono interfacce programmatiche all’altezza della scala del fenomeno. Il titolare diligente resta così schiacciato tra sistemi anti-bot che ostacolano la rilevazione automatizzata e canali di segnalazione che, in uscita, non la sostengono in modo adeguato.

A questo limite quantitativo se ne somma uno qualitativo, ancora più insidioso. Anche quando l’accesso a questi strumenti volontari viene concesso, le informazioni che restituiscono non bastano a costruire una strategia di intervento compiuta. L’esempio più chiaro riguarda la recidiva. Per stabilire se si è davanti a un repeat infringer servirebbe poter incrociare l’identità del venditore, lo storico delle violazioni già accertate, gli account collegati o riaperti dopo le chiusure, le condotte tenute su più piattaforme. Sono dati che i programmi volontari non espongono, oppure espongono in forma frammentaria, confinata alla singola segnalazione e alla singola piattaforma. Sul piano giuridico il punto è tutt’altro che marginale, perché è lo stesso DSA a dare rilievo alla recidiva: l’articolo 23 impone di sospendere gli utenti che con frequenza forniscono contenuti manifestamente illegali, l’articolo 30 impone la tracciabilità degli operatori commerciali. Si genera allora un nuovo corto circuito. Le piattaforme custodiscono in esclusiva i dati che decidono l’applicabilità di quelle misure, ma non li condividono con chi alimenta le segnalazioni; e il titolare, su cui di fatto grava l’onere di documentare il fenomeno, resta privo delle informazioni che servono a dimostrarne il carattere seriale. Ogni violazione viene trattata come un episodio a sé, mentre l’esperienza operativa racconta che la contraffazione su scala è, quasi per definizione, un fenomeno seriale e organizzato.

Il vuoto normativo: Trusted Flagger riconosciuti, ma non riconoscibili

Su questo scenario tecnico si innesta il limite regolatorio già segnalato su queste pagine all’indomani della piena operatività del DSA: non può esistere segnalazione senza averne avuto prima contezza. L’articolo 22 del regolamento riserva ai segnalatori attendibili una corsia preferenziale per le segnalazioni, che le piattaforme devono trattare con priorità e senza indebito ritardo, e lo stesso DSA incoraggia l’uso di processi automatizzati, a partire dalle API, per ricevere e gestire le notifiche. Nulla di simile è previsto, invece, per la fase che logicamente precede la segnalazione. Non esiste alcun obbligo, neppure per VLOP e VLOSE, di predisporre strumenti e procedure agevolate per il monitoraggio e la ricerca dei contenuti illeciti, senza limiti geografici né restrizioni di visibilità. Il Trusted Flagger (segnalatore attendibile) è facilitato nel riferire ciò che ha trovato, ma non beneficia di analoghe agevolazioni nella fase preliminare di ricerca e monitoraggio dei contenuti illeciti: il suo accesso alla piattaforma non si distingue da quello di chiunque altro e subisce per intero le misure anti-scraping già descritte. Allora osservavamo che, con il tempo, questa lacuna rischiava di rendere inefficace il contrasto degli illeciti su larga scala. I dati del 2026 dicono che quel tempo è arrivato.

L’attuazione italiana ha seguito il percorso atteso. AGCOM, in qualità di Coordinatore dei servizi digitali, ha adottato con delibera 283/24/CONS il regolamento sul riconoscimento della qualifica, e dal 2025 sono arrivati i primi riconoscimenti a soggetti attivi proprio nella tutela della proprietà industriale e nel contrasto alle frodi online. È un passaggio positivo, che dà sostanza all’istituto. Il riconoscimento giuridico, però, non porta con sé alcuna riconoscibilità tecnica. Agli occhi di un sistema anti-bot, il crawler di un segnalatore attendibile accreditato dall’autorità è indistinguibile da uno scraper abusivo, e viene trattato come tale.

Conviene dirlo in modo diretto: il quadro attuale permette alle piattaforme di avvantaggiarsi due volte. Da un lato l’assenza di un obbligo generale di sorveglianza, principio sacrosanto e confermato dall’articolo 8 del DSA, mette l’onere di scoprire gli illeciti in capo ai titolari dei diritti e ai loro consulenti. Dall’altro le stesse piattaforme oppongono a quei titolari, senza distinzioni, difese anti-bot che rendono la scoperta lenta, costosa e tecnicamente fragile. Il punto non è contestare la legittimità delle misure di sicurezza, che rispondono a esigenze reali. Il punto è che la loro applicazione indiscriminata, in mancanza di qualsiasi canale tecnico per i soggetti accreditati, trasforma un istituto nato per rafforzare l’enforcement in un’etichetta priva di effetti pratici.

La finestra per intervenire è aperta. La Commissione europea ha in consultazione le linee guida sull’applicazione dell’articolo 22, con termine fissato al 26 giugno 2026 e adozione attesa nel secondo semestre dell’anno. Limitarle alla procedura di accreditamento e ai requisiti soggettivi, lasciando fuori la dimensione tecnica del problema, sarebbe un errore.

Dalla distinzione uomo/macchina alla distinzione responsabile/non responsabile

La direzione tecnica, del resto, è già tracciata, e fa una certa impressione che a tracciarla sia lo stesso soggetto che ha certificato il sorpasso. Cloudflare ha promosso Web Bot Auth, un meccanismo di autenticazione crittografica del traffico automatizzato costruito sullo standard RFC 9421 (HTTP Message Signatures) e su due draft IETF. Si tratta del primo tentativo concreto, su larga scala, di superare la tradizionale logica anti-bot fondata sul sospetto e sul blocco preventivo, sostituendola con un modello basato sull’identificazione verificabile del soggetto che genera il traffico. Il bot firma le proprie richieste con una chiave verificabile, e il sito può così distinguerlo, riconoscerlo e applicargli policy dedicate. Attorno a questo nucleo stanno prendendo forma le categorie dei verified bots e dei signed agents, insieme a modelli commerciali come il pay-per-crawl, che consente ai gestori di siti di monetizzare l’accesso dei crawler di IA invece di bloccarlo.

Il paradigma implicito manda in pensione la domanda novecentesca “umano o macchina?” e la sostituisce con una assai più utile: “traffico responsabile o no?”. Vale a dire traffico identificato oppure anonimo, riconducibile a un soggetto che risponde del proprio operato oppure no. È la distinzione di cui l’enforcement ha effettivamente bisogno. Va detto però, senza illusioni, che questa infrastruttura di identità nasce per ragioni commerciali, cioè per governare e monetizzare il crawling dei modelli di IA, e non per tutelare i diritti. Se il tema resterà fuori dall’agenda regolatoria, i titolari rischiano di trovarsi esclusi anche dalla prossima generazione di regole tecniche, come già accade con quella attuale.

La proposta che ne discende è semplice: collegare l’accreditamento giuridico previsto dall’articolo 22 a credenziali tecniche verificabili. Il segnalatore attendibile riconosciuto dal Coordinatore nazionale dovrebbe poter firmare in modo crittografico il proprio traffico di monitoraggio, e le piattaforme dovrebbero essere tenute a non ostacolarlo in modo indiscriminato, restando libere di applicare un rate limiting ragionevole e di revocare l’accesso in caso di abuso. Lo strumento può essere quello delle linee guida, dei codici di condotta o, dove serva, di una revisione normativa. Un’architettura del genere offrirebbe garanzie a tutti: ai titolari un monitoraggio efficiente e documentabile sul piano tecnico, alle piattaforme una tracciabilità piena e un interlocutore identificato e responsabile, al posto dell’attuale gioco del gatto e del topo. Nella stessa logica, l’accreditamento dovrebbe portare con sé anche un livello informativo qualificato. Il segnalatore attendibile dovrebbe poter accedere, con le dovute garanzie di proporzionalità e protezione dei dati, alle informazioni che servono a documentare la serialità delle violazioni, a cominciare dallo storico delle segnalazioni accolte a carico dello stesso operatore commerciale. Senza quei dati, gli articoli 23 e 30 del DSA rischiano di restare disposizioni prive di innesco.

Conclusioni

Il sorpasso certificato da Cloudflare chiude in modo simbolico un’epoca, quella in cui si poteva dare per scontato che il traffico automatizzato fosse l’eccezione patologica e quello umano la regola fisiologica. Da qui in avanti, in rete, l’automazione è la norma. A separare il lecito dall’illecito non è più la natura del visitatore, ma la possibilità di attribuirgli una responsabilità.

Il sistema attuale, poggiato su presupposti superati, distribuisce gli oneri in un modo che chi lavora nel settore verifica ogni giorno e che difficilmente si può dire proporzionato. L’operatore trasparente paga sia le difese anti-bot sia il monitoraggio reso meno efficace; l’operatore in malafede non paga quasi nulla. Le buone intenzioni del legislatore europeo, che con il DSA ha senza dubbio alzato gli standard di responsabilizzazione delle piattaforme, non bastano a colmare l’asimmetria, perché l’effettività dell’enforcement si decide su un terreno tecnico che il regolamento non ha presidiato.

Tre direttrici appaiono prioritarie:
(1) riconoscibilità tecnica dei soggetti accreditati, da costruire sulle linee guida dell’articolo 22 in corso di consultazione;
(2) trasparenza delle piattaforme circa l’impatto dei propri sistemi anti-bot sulle attività legittime di monitoraggio e accertamento;
(3) adozione di standard aperti di autenticazione del traffico automatizzato, evitando che la materia resti governata da soluzioni proprietarie.

A spingere nella stessa direzione c’è oggi anche il diritto della protezione dei dati. Un’architettura fondata sull’identità verificabile del traffico automatizzato, e non sulla profilazione comportamentale di ogni visitatore, è al tempo stesso più rispettosa della privacy degli utenti e più utile all’enforcement. Senza interventi su questi piani il paradosso è destinato ad aggravarsi man mano che si diffondono gli agenti autonomi. E un sistema di tutela che funziona soprattutto contro chi rispetta le regole non è semplicemente inefficiente: è il rovescio di ciò che un quadro regolatorio dovrebbe garantire.

Resta, in chiusura, un’immagine che riassume il punto a cui siamo arrivati meglio di molte analisi. Il captcha è nato per smascherare le macchine; oggi sono le macchine a superarlo meglio di noi. Così, nell’internet dei bot, prende forma un paradosso quasi beffardo: l’unico a faticare davanti alla casella “non sono un robot” è rimasto l’essere umano. Se non riesci a risolverlo, con ogni probabilità sei una persona in carne e ossa. È un’ironia che possiamo concederci. Ma dietro la battuta c’è una questione seria, perché la stessa logica che oggi penalizza l’utente distratto penalizza, su scala industriale, chi prova a difendere i diritti operando alla luce del sole.

Fonti e riferimenti

N. Lasorsa Borgomaneri, M. Signorelli, “Digital Service Act: il difficile compito dei Trusted Flaggers”, Agenda Digitale, 31 ottobre 2023 – www.agendadigitale.eu/mercati-digitali/digital-service-act-il-difficile-compito-dei-trusted-flaggers/

M. Chillau, “Captcha, che sofferenza: così incidono sugli acquisti online”, Agenda Digitale, 10 novembre 2021 – www.agendadigitale.eu/mercati-digitali/captcha-il-dilemma-tra-sicurezza-e-usabilita-cosi-incidono-sugli-acquisti-online/

A. Caffo, “L’IA si è presa Internet, i bot generano più traffico web dell’uomo”, ANSA, 8 giugno 2026

NBC News, “Bot web traffic has overtaken human web traffic, data shows”, giugno 2026

Imperva (Thales), “2025 Bad Bot Report”, aprile 2025

Cloudflare, “Forget IPs: using cryptography to verify bot and agent traffic” (Web Bot Auth) e “The age of agents: cryptographically recognizing agent traffic” (signed agents), blog.cloudflare.com

Commissione europea, consultazione mirata sul progetto di orientamenti relativi ai segnalatori attendibili ex art. 22 DSA (termine: 26 giugno 2026), digital-strategy.ec.europa.eu

AGCOM, delibera n. 283/24/CONS (regolamento sul riconoscimento della qualifica di segnalatore attendibile) ed elenco dei soggetti riconosciuti

Legge 14 luglio 2023, n. 93 (disposizioni per la prevenzione e la repressione della diffusione illecita di contenuti tutelati dal diritto d’autore) e piattaforma Piracy Shield

R. Pagano, “Google reCAPTCHA e GDPR: inquadramento giuridico, enforcement europeo e le novità operative dal 2 aprile 2026”, IusPrivacy.eu, marzo 2026

CNIL, decisione SAN-2023-006 del 16 marzo 2023 (Cityscoot), adottata in cooperazione con il Garante italiano e l’autorità spagnola

Google Cloud, “Switching Google’s role with reCAPTCHA from data controller to data processor” (efficacia: 2 aprile 2026)

Baymard Institute, ricerche su captcha e checkout; MOZ, “Captchas’ Effect on Conversion Rates”

Partecipa alla community

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x