dati e democrazia

Non avrai altra realtà al di fuori di Google: quali soluzioni allo strapotere dei big

La mole di dati raccolta da aziende come Google sono un’immensa fotografia dei nostri usi e costumi nonché il modello sul quale vengono allenati algoritmi di intelligenza artificiale, in grado di influenzare tutti, anche gli elettori. Un potere enorme, in mano a privati. Proviamo a trovare una via d’uscita

Pubblicato il 26 Set 2019

Simone Righini

SEO Manager per Gruppo Digital360

Concept image of cables and connections for data transfer in the digital world.3d rendering.

La mega indagine di FCC (Authority USA) su Google, Amazon e Apple è solo l’ultimo tassello. Si sta consolidando una sensazione: che le multinazionali tecnologiche hanno libertà di azione illimitata; persino che abbiano il potere di “bloccare” il libero mercato. Tuttavia nessuno è in grado di offrire servizi simili ai loro: innovazione tecnologica, livello qualitativo, integrazione di strumenti di comunicazione.

C’è persino chi ha immaginato un fondo europeo da 100 miliardi per sostenere le alternative digitali europee ai colossi internazionali ma, purtroppo, oggi non c’è in Europa nessun’azienda in grado di rappresentare un’alternativa e per capire perché dobbiamo fare un piccolo passo indietro nel tempo.

Tutte le odierne multinazionali tecnologiche, avendo iniziato a raccogliere dati sugli utenti e degli utenti in epoche non regolamentate, hanno potuto mettere a frutto ciò che hanno imparato della nostra società e dai nostri comportamenti umani. In poche parole queste aziende hanno raccolto i famosi Big Data, e li hanno usati per allenare i loro software di intelligenza artificiale, che oggi sono il motore di vari prodotti digitali.

Indice degli argomenti

Non avrai realtà al di fuori di Google

Oggi, le multinazionali tecnologiche forniscono strumenti che pervadono la nostra realtà. Tutte le aziende possono usare questi strumenti, i quali diventano poi parte integrante delle loro strategie di acquisizione di nuovi clienti.

Un esempio a partire da Google:

Trovare un ristorante di cui si conosce l’esistenza ma non l’indirizzo è indubbiamente utile (sia per il cliente che per il ristoratore)
Il fatto che tutti i clienti di quel ristorante leggano recensioni, la cui pubblicazione viene decisa da un algoritmo di intelligenza artificiale, che ne decide l’autorevolezza e la veridicità, potendo quindi decretare la vita o la morte di quel ristorante, ecco questo è regolamentabile.

È così che nella nostra comunicazione politica italiana si parla di Tav, di immigrazione, di diritti umani… ed i temi legati alle multinazionali tecnologiche sono lasciati in disparte, e per un motivo preciso: la retorica, secondo cui i singoli Stati possano fare ben poco sul piano internazionale e che restino sfruttati dalle stesse multinazionali semplicemente per architettare sistemi di escapologia o elusione fiscale.

In realtà i singoli Stati potrebbero fare moltissimo, non appena i nostri decisori capiranno l’importanza che il tema dell’economia digitale ha nel tracciare i limiti concreti di buona parte della società civile (si vedano per esempio le proposte di legge Quintarelli per concorrenza e tutela dei consumatori e le recenti consultazioni sulla Strategia nazionale per l ’Intelligenza Artificiale ).

Mentre i singoli Stati cercano di capire l’importanza del digitale, la UE ha già ottenuto qualche risultato su temi specifici, con le leggi operative e conseguenti multe. Ad oggi le multe sembrano l’unico sistema per indirizzare l’azione di certe multinazionali il cui boicottaggio è sporadico e parziale (boicotti Google? Ok ma prova a boicottare Android, Maps/Waze, YouTube, Drive, Calendar, Gmail… ecc.).

L’AI influenza tutto e tutti, politica compresa

Il modo in cui vengono allenati gli algoritmi di intelligenza artificiale è l’esposizione del software a comportamenti di esseri umani. Questi comportamenti allenano i software che dopo tanti tentativi riescono a fornire risultati soddisfacenti. Per esempio ci sono software che riescono a individuare il contenuto di una foto e ci sono software che scelgono quali informazioni mostrare ad un utente che cerca la vita di un politico.

Per questo motivo, il modo in cui sono scritti gli algoritmi diventa un modo per influenzare tutti, anche gli elettori.

Al momento il motore di ricerca Google incassa 130+ miliardi/anno mostrando pubblicità a persone che stanno cercando qualcosa. Non offre nessuno strumento per mettere in comunicazione diretta le persone che stanno cercando cose simili, forza quindi un modello passivo di comunicazione in cui il motore di ricerca resta l’unico intermediario autorevole. L’unico modo che le persone/aziende hanno di farsi trovare da chi è interessato a loro contenuti/prodotti è quello di produrre siti internet, i quali potranno essere indicizzati dal motore di ricerca e conseguentemente posizionati (resi visibili) in funzione delle regole sempre mutevoli di un algoritmo segreto di proprietà di Google o mostrati in funzione di un’asta (sempre interamente gestita da Google).

Ecco allora che durante quella che sembra la classica corsa agli incassi trimestrali, ogni tanto capitano alcuni ostacoli:

Vari impiegati di Google lasciano l’azienda preoccupati dal posizionamento politico fatto assumere dai vari software di Google (1 e 2)
Altri impiegati lasciano l’azienda preoccupati dalla censura che Google opera in tutto il mondo (3)
Multe ormai ricorrenti ogni anno
Critiche da parte di esperti che verificano la mancata imparzialità del motore di ricerca.

Elenco di multe a Google:

2017: 2,4 Miliardi di euro per manipolazione dei risultati su Google Shopping (2,5% del fatturato di 98 Miliardi di euro) [è come una multa da 750 euro per una persona che guadagna 30.000 euro/anno]
2018: 4,3 Miliardi di euro per abuso di posizione dominante su Smartphone (3,5% del fatturato di 122 Miliardi di euro) [è come una multa da 1050 euro per una persona che guadagna 30.000 euro/anno]
2019: 1,5 Miliardi di euro per contratti che obbligavano i siti che ospitano AdSense a non mostrare annunci pubblicitari da altri motori di ricerca [multa più bassa perchè Google ha iniziato a collaborare con la UE]

Una possibile via d’uscita

Una possibile via d’uscita sarebbe “tagliare” Google in pezzi più piccoli, un elenco di entità, alcune delle quali si potrebbero rendere di dominio pubblico o anonimizzate ed interoperabili per favorire la concorrenza.

Indice dei siti che Google ha trovato finora. È un grande archivio di indirizzi di pagine web, costantemente aggiornato. L’indice da solo non rappresenta un valore in quanto anche altri player sono già riusciti ad avere una mappatura significativa dei siti internet mondiali.
– è quello che analisti come Robert Epstein vorrebbero diventasse pubblico
Storico aggregato delle sessioni degli utenti che Google ha raccolto negli anni. Sono la storia delle ricerche già contestualizzate e al contempo anonimizzate.
– se Google rendesse pubblici questi dati, tutti i competitor potrebbero costruire soluzioni software di qualità simile a quella attuale di Google, potendo avere accesso ai big data per allenare i nuovi algoritmi.
Storico dei dati di ricerca di ogni singolo utente, esportabile e interoperabile verso altri motori di ricerca.
– questo sarebbe interessante soprattutto dal punto di vista dei diritti dei singoli utenti, alcuni passi in questa direzione sono già stati fatti sia da Google che da Facebook, ma i dati esportati in questo modo non sono mai realmente importabili da altre soluzioni software e non rappresentano un reale aiuto alle aziende competitor.
Dati in tempo reale sulle ricerche che gli utenti effettuano (su questi dati viene creata ogni giorno l’asta delle parole chiave di Google Ads)
Gestione dell’asta di Google Ads: potrebbe essere separata ed affidata ad un banditore esterno con una autorità che la sorveglia (come accade oggi per la società che gestisce la borsa) e tutti dovrebbero poter concorrere a quelle aste: Google, Bing, Yandex, DDG, nuovi sfidanti)
Algoritmi (dovrebbero probabilmente restare privati in quanto coperti da copyright… ma questi algoritmi hanno già tratto enorme beneficio dai dati che Google ha raccolto negli ultimi 15 anni)
Parametri di partenza dati in pasto agli algoritmi di intelligenza artificiale
– anche se probabilmente sugli algoritmi si può stabilire una proprietà intellettuale, sui parametri di partenza potrebbe esistere un obbligo di legge. Immaginiamo per esempio la famosa “ricetta segreta” della Coca-Cola, che tuttavia mostra gli ingredienti in etichetta a beneficio dei consumatori.
Altro software di Google (drive, software proprietario dei server, ecc.. Una galassia)
Android
R&D (tra cui Google Cars e progetti per la guida autonoma)

Un gigantesco conflitto d’interesse

Le possibilità che il motore di ricerca ha di influenzare le scelte dei suoi utenti sono impressionanti. Anche per questo motivo lo stesso Epstein da anni organizza studi accademici per darne evidenza pubblica. Vediamone alcune:

SEME- Search engine manipulation effect: è l’impatto che ha sulla nostra percezione l’ordine in cui vengono forniti i risultati. Per esempio un risultato fornito al primo posto viene percepito come più autorevole di un risultato a fondo pagina, e questo indipendentemente dalla veridicità dell’articolo o della qualità editoriale.
SSE- Search engine suggestion effect: è l’impatto sulla nostra percezione che abbiamo appena iniziamo a digitare e il motore di ricerca inizia subito a consigliare ricerche.
TME- Targeted messaging effect: il fatto di mostrare risultati solo ad alcuni utenti e non a tutti (simile a quella che viene definita Filter Bubble).

L’elenco è lungo (questi sono solo alcuni dei dieci capitoli dell’analisi di Epstein) e chiunque abbia lavorato sui motori di ricerca (i famosi SEO specialist) sa che tutti questi effetti sono noti da tempo nell’industria, spesso anche utilizzati a scopi commerciali.

In un recente e controverso articolo su Bloomberg, viene proposto che l’indice dei siti conosciuti da Google possa diventare pubblico. Ma sarà davvero possibile rendere pubblico l’indice di Google ?

È una ipotesi affascinante, che tuttavia non tiene conto degli anni di tracce che ognuno di noi ha già lasciato nella sconfinata memoria del motore di ricerca.

La mole di Big Data sulle scelte degli utenti, seppure anonimizzate, sono un’ immensa fotografia degli usi e costumi della società di tutto il mondo occidentale. Questi dati di utilizzo oggi sono il modello sul quale vengono allenati gli algoritmi di intelligenza artificiale, se questi dati non fossero resi pubblici c’è il rischio concreto che gli algoritmi possano diventare sempre più opachi e manipolatori della realtà che viviamo.

Un esempio: i dati come le auto al casello

Facciamo un esempio. Tutti vediamo coi nostri occhi una coda al casello autostradale, non è difficile annotare anche in modo approssimativo l’utilizzo o meno di una certa uscita, quindi l’azienda di gestione delle autostrade non potrebbe mai sostenere di aver avuto zero ricavi da un certo casello, perché sarebbe facile dimostrare il contrario, anche creando una base di dati “empirica” e esperienziale.

Cosa accadrebbe se le auto fossero invisibili? L’azienda potrebbe sostenere di non aver avuto alcun ricavo.

Proviamo a sostituire le automobili del nostro esempio con i dati della storia degli utenti che usano il web. In questo momento tutti i dati relativi alle ricerche degli utenti sono visibili solo a Google, che li utilizza per allenare i propri “caselli automatici”, ed in alcuni casi guida gli utenti verso ciò che genera maggiore profitto.

Cosa accadrebbe se questi dati fossero visibili a tutti? Tutti i motori di ricerca potrebbero allenare i propri algoritmi e gli utenti potrebbero scegliere tra livelli qualitativi simili potendo di fatto confrontare la qualità degli algoritmi (invece che come accade al momento solo la qualità parziale dei risultati).

Ora, facciamo finta che come accade su Google Ads, le nostre automobili al casello possano uscire più velocemente se pagano di più. Nella situazione odierna con le “automobili invisibili”, si può dare un costo massimo alla propria uscita dall’autostrada, ma sempre e solo Google decide l’ordine in cui le auto usciranno.

Facendo un’altra ipotesi, separando invece il motore di ricerca delle aste, il regolatore saprebbe comunque tutte le dinamiche importanti da tenere sotto controllo e verificherebbe che ad un prezzo di uscita alto possa corrispondere un reale servizio.

È importante che il dominio pubblico possa osservare le dinamiche messe in moto dagli algoritmi, ed è altrettanto importante che gli Stati possano intervenire per stabilire gli ambiti di intervento delle aziende nella nostra vita privata e sociale.

Censura, etica e patrimoni dell’umanità

Per quanto Google sia un’azienda con un comportamento improntato all’evoluzione, in occasione dei trimestrali si corre ai ripari, facendo leva sugli asset per “generare valore”. Ma cosa accadrebbe se per caso tra quegli asset risultasse anche la visibilità verso partiti politici? Diventa difficile dimostrare l’equidistanza e l’obiettività dei risultati che poi influenzeranno il voto.

Immaginiamo una città dove arrivano stazioni, autostrade, aeroporti, e una città dove non arrivano: Google può censurare persone, aziende, luoghi, entità. È un potere immenso, e il fatto che lo stiano gestendo in modo tutto sommato accettabile, non significa che non ci siano criticità a riguardo.

La mia idea è che i dati che Google e le altre multinazionali hanno raccolto e stanno raccogliendo siano a tutti gli effetti un patrimonio dell’umanità. Mi auspico che prima o poi tutti i dati relativi alle ricerche degli utenti possano essere rilasciati in formato anonimo e interoperabile. In questo modo anche altri player potrebbero offrire alternative di qualità, potendo allenare i propri algoritmi di IA su dati reali, e allo stesso tempo tutte le aziende potrebbero lavorare in un contesto paritario.

La stessa Google, con il progetto Google Trends stava andando in questa direzione. Sarebbe utile abbracciare appieno questa filosofia, popolando lo stesso Trends con numeri realistici e completi, possibilmente accessibili tramite API per operatori certificati.