Topics di Google, come funziona: sofferto addio ai cookie di terze parti

Dopo le numerose critiche piovute addosso alla proposta FLoC, Federated Learning of Coorts, Google ora punta al progetto “Topics”, come alternativa “pubblicitaria” ai cookie di terze parti. Si avanza a tentativi ed errori. Ecco le differenze

Sarà sofferta la rivoluzione del mondo senza cookie di terze parti, con una pubblicità più rispettosa della privacy.

Lo dimostra tra l’altro il fermento intorno al framework di Google, chiamato Privacy Sandbox, novità imminente per risolvere – nelle dichiarazioni e intenzioni – sia le criticità alle montanti problematiche privacy (minor tracciamento e maggior rispetto della privacy utente) che per proporre un’alternativa ai cookie di terze parti.

Indice degli argomenti

La svolta Google sull’era post cookie

Cookie di terze parti per fini di marketing: linee guida e best practice per il mercato digitale

Dopo le numerose critiche piovute addosso alla proposta principale – cioè FLoC, Federated Learning of Coorts, infatti la società di Mountain View ha rivisto i suoi progetti, decidendo di proporre come sostituto il progetto denominato “Topics”, cioè “argomenti” (vedremo oltre il perché). Sarà davvero un superamento delle critiche pregresse? Da subito la nuovissima proposta ha raccolto reazioni negative.

Come sarà Topics di Google

Già nel 2021 si preannunciava un 2022 segnato da una serie di innovazioni per il Digital marketing, condite dalle relative tensioni con la sfera privacy, sempre più accese sia nell’Unione che negli USA. È noto, infatti, come Google voglia introdurre un intero framework di sistemi più confacenti ai principi e al sistema giuridico privacy, soprattutto europeo, tramite il suo Sandbox, di cui la punta di diamante doveva essere il citato FLoC. Almeno questo è quanto dichiara il colosso di Mountain View.

Al pari di FLoC, evidenziamo che il neonato Topics avrà come proprio strumento principale il browser Chrome, sviluppato e diffuso dalla stessa Google, nella costante ricerca di un’alternativa al tramonto dei cookie di terza parte – tramonto già spostato come data limite al 2023 proprio per le difficoltà nel trovare alternative gradite soprattutto dal mercato dei propri inserzionisti. Le iniziative di Google cercano di sostituire a un tracking pervasivo, al micro-targeting che viene attualmente praticato, prodotti alternativi che pratichino un uso più “sfumato” dei dati personali, come ad esempio capitava nel progetto di FLoC quando alla profilazione individuale sostituiva quella per coorti, cioè per gruppi di utenti accumunati da interessi e caratteristiche comuni.

Che cosa cambia con la proposta di Topics che, come il progetto precedente, è ora stata resa pubblica ma non ancora implementata in Chrome, assoggettata a una discussione su GitHub per monitorarne il recepimento e alla fine validarla come soluzione adottata ufficialmente? Fondamentalmente la nuova proposta (disponibile sia in Chrome che come API per altri browser) si incentra sull’analisi (tramite browser, appunto) della cronologia di navigazione dell’utente, costruendo un profilo utente basato sul tracciamento degli argomenti di specifico interesse. Dopodiché Google metterebbe a disposizione dei propri inserzionisti e partner pubblicitari le suddivisioni per potenziali argomenti di interesse dei vari utenti.

Viene fatta una distinzione da Google tra questa forma di interest-based advertising – una forma di pubblicità personalizzata che comporta un certo grado di profilazione pregressa ed estesa a più domini – e il contextual advertising – che invece prevede messaggi basati solo sul contenuto della pagina che l’utente sta contestualmente visitando. Come fa Topics a compiere questa profilazione?

Google descrive tre attività principali:

mappatura degli hostname (cioè l’URL) dei siti Web, legandoli a determinati interessi usati per la profilazione utente;
inferenza degli argomenti di interesse principale dell’utente, in base alla sua attività di recente navigazione web;
fornitura dell’API, in JavaScript, per fornire annunci all’utente, basati sugli interessi suddetti.

Si utilizzerà una tassonomia (partendo da 350 categorie, poi estendibili a migliaia) per gli argomenti di interesse, resa pubblica, rivista e aggiornata, e che dovrà evitare categorie di interessi particolari/sensibili – ad es. l’etnia o l’orientamento sessuale. L’analisi utente verrà effettuata tramite un machine learning incentrato sulla cronologia web; Google segnala che l’addestramento iniziale dovrebbe essere attuato dal fornitore del browser o da una terza parte attendibile.

Intelligenza artificiale e machine learning per scovare nuove minacce: le soluzioni

Il flusso viene rappresentato da Google tramite il seguente schema:

Diagramma che mostra le fasi del ciclo di vita dell'API Argomenti, da un utente che visita siti Web a un annuncio visualizzato.

I profili privacy enucleati da Google

Ovviamente tra i primi quesiti ci si interroga sulla data retention dei dati di navigazione utilizzati per l’analisi: l’azienda dichiara che verrà fissato un periodo di tempo (definito “epoca”) che attualmente dovrebbe essere di una settimana. Dopodichè si dovrebbe cancellare quanto raccolto e ripartire col processo.

Quanto agli argomenti, l’API effettuerebbe – per ogni epoca – una selezione casuale tra i primi cinque argomenti di interesse dell’utente. Per garantire ulteriormente la privacy e garantire che tutti gli argomenti possano essere rappresentati – afferma Google – esiste “una probabilità del 5% che l’argomento venga selezionato in modo casuale tra tutti i possibili argomenti nella tassonomia”. Quindi il criterio della prevalenza degli interessi effettivi sarebbe parzialmente attenuato da questa marginale randomizzazione.

Sempre il rispetto della privacy sarebbe alla base di una mappatura dei siti basata solo sull’hostname, perché l’analisi di informazioni aggiuntive (ad es. i contenuti delle pagine web) sarebbe certamente più invasivo verso l’utente e va pertanto evitata.

Secondo l’azienda il nuovo progetto risolverebbe molte delle critiche rivolte a FLoC, come il possibile uso delle coorti, tramite browser fingerprinting per (re)identificare gli utenti o minare la possibilità che rivelino dati particolari/sensibili dell’utente, oltre a rendere più trasparente agli utenti il processo intero.

Tramite Topics si eviterebbero questi rischi specifici:

la possibile identificazione dell’utente tramite fingerprinting sarebbe evitata dall’ampiezza delle categorie usate nella tassonomia oltre che dalla casualità degli argomenti selezionati per ogni utente;
i dati particolari/sensibili sarebbero evitati, come detto, dalla selezione pubblica della tassonomia – che sarà curata da persone e non tramite automazioni;
gli utenti dei browser avranno comunque la possibilità di disattivare la funzionalità di Topics, oltre ad aver un maggior controllo potendo visionare la tassonomia applicata e di controllare gli argomenti che possono essere suggeriti dal proprio browser, anche rimuovendo argomenti non graditi per la loro condivisione con gli inserzionisti;
di fatto l’utente potrà impedire il funzionamento di Topics in vari modi: disattivando l’API nel browser tramite la relativa opzione, cancellando gli argomenti o i cookie raccolti dal proprio browser oppure navigando in incognito.

Le critiche già esposte a Topics di Google

A fronte di quanto sopra, diverse sopracciglia si sono alzate, in primis si è fatto sentire Peter Snyder, quale Director of Privacy del browser Brave, software che da sempre si pone come strumento di maggior tutela della privacy utente.

Difatti secondo Snyder la nuova proposta risolverebbe solo criticità minori di FLoC e di fatto non sarebbe altro che un “rebranding” senza che venga toccato il nucleo critico fondamentale dell’operato di Google. La nuova API Topics si farebbe forza, sempre e comunque, di una profilazione e un tracciamento del comportamento utente solo lievemente meno precisi ma comunque condivisi tra i diversi inserzionisti oltre che monitorati da Google. L’introduzione di un elemento randomico non farebbe che attenuare in via limitata il potere identificativo di Topics rispetto a FLoC, specie se si pensa al massivo utilizzo già praticato da Google del browser fingerprinting (non certo dismesso).

Idem per la questione dei dati particolari/sensibili: sarebbe l’azienda americana stessa ad arrogarsi il diritto di definire quali siano, non facendo obbligato riferimento alle definizioni normative (GDPR o altro che sia). Inoltre Snyder puntualizza che, ancor più precisamente, dovrebbe essere l’utente stesso a poter stabilire cosa possa essere “sensibile” – e dunque non utilizzabile per fini promozionali – nel proprio caso. Il fatto che Google permetta sì di intervenire nelle opzioni per sopprimere o limitare l’uso di Topics tramite un opt-out non può compensare il dato di fatto, stranoto, che la maggioranza degli utenti non si spinge fino a intervenire nelle opzioni dei proprio software. D’altronde il requisto di privacy by default, come richiesto dal GPDR, affronta proprio questo spettro di inattuate possibilità.

Aggiungiamo che dalla descrizione di Google il sistema pare poggiato, trattandosi di regime a opt-out (l’utente deve attivarsi per uscirne), sulla base del legittimo interesse (art. 6.1 lett. f GDPR), quando dalla descrizione pare difficile non ravvisare una profilazione utente e un accesso ai dati personali che invece dovrebbero basarsi su di un consenso specifico (opt-in) a fronte dei requisiti imposti dall’art. 7 GDPR.

Infine secondo Snyder il funzionamento di Topics avvantaggerebbe, in maniera discriminatoria, i grossi inserzionisti a discapito dei piccoli, posto che un inserzionista apprenderà solo gli interessi dell’utente relativi alle pagine in cui viene visualizzato l’annuncio di tale inserzionista. Giocoforza i grossi inserzionisti (che appaiono su molti più siti web) avranno cognizione di maggiori interessi e più utenti, in proporzione. Oltretutto comporterà un’ovvia necessità di rivedere le proprie strategie di targeting per gli inserzionisti, da ritagliare sulle nuove categorie concesse da Google, da alcuni ritenute troppo ampie (commercialmente parlando).

A fronte di questo scenario, Snyder non esita a definire Topics e l’intero framework Sandbox un mero tentativo di smussare le asperità più invasive e traccianti da parte di Google, attuate soprattutto tramite il proprio Chrome, lasciando inalterati i nervi scoperti da sempre e da un business model pubblicitario non conforme al rispetto della privacy utente.