la riflessione

Big data e ricerca: come comprendere l’intelligenza artificiale con la Filosofia

Come affrontare il “diluvio” di dati che ci aspetta? La risposta c’è, ed è in una disciplina quasi in disuso in questi tempi di continua innovazione, e cioè la Filosofia, che ci aiuta a dirimere una questione ben definita: qual è lo statuto epistemologico del (o dei) Data?

Pubblicato il 17 Gen 2022

Giovanni Landi

Head of Portfolio & Chief Philosophy Officer di Finix Technologies Solutions e Expert dell’Istituto EuropIA.it

In una novella di Isaac Asimov, un autore che in tempi di Intelligenza Artificiale sarebbe bene riscoprire, si immagina un enorme computer chiamato Multivac, in grado di rispondere a qualunque domanda gli si voglia porre^[1]. La quantità di dati immagazzinata in Multivac ed il ritmo al quale la sua conoscenza aumenta è tale che non ci sono limiti alle sue capacità di risposta.

Animismo razionalizzato dell’IA: shintoismo e Leibniz come possibili soluzioni etiche

Insomma, nel 1956 Asimov aveva già immaginato il Big Data, l’idea di una macchina in grado di digerire quantità incommensurabili di dati ma soprattutto di identificare correlazioni sempre più complesse tra dati sempre più eterogenei. Quello che per Asimov però rimaneva chiaro era che la produzione di verità (o per meglio dire di nuova conoscenza) richiedeva un terzo ingrediente, uno che Multivac non poteva avere, e cioè la capacità di porre le domande adeguate. Di qui il ruolo, sempre nella novella, dei Grandi Maestri, esseri umani con particolari capacità intuitive in grado di formulare appunto le domande in modo adeguato. Il limite di Multivac non è dunque un limite tecnico, è un limite legato all’essenza della verità, che non è raggiungibile solo quantitativamente.

Indice degli argomenti

Un “diluvio” di dati

È questa visione che i sostenitori più entusiasti del Big Data ritengono si possa ormai superare. In un editoriale sulla rivista “Wired” Chris Anderson ha teorizzato nientemeno che “il diluvio di dati rende obsoleto il metodo scientifico”.^[2] La tesi di Anderson è che le dimensioni della macchina e delle sue banche dati siano talmente “Big” da poter arrivare a conclusioni corrette, cioè che funzionano, senza neanche bisogno più di porre domande. Il metodo scientifico tradizionale, quello per il quale si formula una teoria, poi la si prova sperimentalmente e si osservano i risultati, non ha più senso, è sufficiente trovare la giusta correlazione perché si possa dire che la nostra conoscenza si è estesa.

Questa evoluzione teorica di ciò che potrebbe essere il Big Data conferma l’intuizione di chi da tempo segnala il divorzio tra Machine Learning ed Intelligenza Artificiale. Invece di una simulazione o riproduzione dell’intelligenza umana qui si teorizza un nuovo tipo di intelligenza, capace di acquisire nuova conoscenza in modo diverso e migliore degli uomini, analogici e limitati in quanto a capacità di storage. La conoscenza diventa dunque un mero affare quantitativo.

Un nuovo paradigma per la ricerca scientifica

Come ci insegna Thomas Kuhn, al sorgere di un nuovo paradigma i fautori del vecchio intraprendono varie strategie di difesa. E in difesa del metodo scientifico tradizionale sono scesi in tanti, tra gli altri l’epistemologa Sabina Leonelli^[3] e il suo team, con l’obiettivo di inglobare questi nuovi strumenti nella visione della scienza che da Galileo in poi rappresenta per molti il migliore se non l’unico mezzo di accrescere la nostra conoscenza del mondo che ci circonda.

L’idea non è di rifiutare l’apporto del Big Data alla ricerca scientifica, ma di mantenere una certa indipendenza del lavoro scientifico “umano” rispetto a metodi completamente meccanizzati. E gli argomenti non mancano certo per questa posizione, anche se le conclusioni cui giunge questa difesa ricalcano molti dei suggerimenti già noti a chi si preoccupa dell’impatto dell’Intelligenza Artificiale sulle nostre vite: necessità di un approccio “etico”, meno pressione sui ricercatori (leggasi più prudenza nell’implementazione anche a costo di qualche punto sul ritorno dell’investimento), più partecipazione democratica degli utenti ai processi decisionali.

Sono tutti suggerimenti encomiabili e condivisibili, non fosse che per il coraggio che ci vuole a sostenerli di fronte al rullo compressore propagandistico cui non solo l’industria informatica ma la società tutta è sottoposta in questi tempi. Tuttavia, si tratta di una battaglia di retroguardia, come quella dei tolemaici che hanno per secoli adattato la teoria geocentrica per farvi rientrare le anomalie osservate dagli astronomi. Il cambio di paradigma nella ricerca scientifica annunciato da Chris Anderson sembra proprio essere analogo all’arrivo di Galileo sulla scena.

L’anomalia non più risolvibile, in questo caso, sta nel fatto:

che il Big Data funziona, che Google è diventata la maggiore azienda pubblicitaria al mondo guardando i dati e non la psicologia degli utenti
che anche se preoccupati della nostra privacy siamo pronti a rivelarci in cambio di qualche applicazione gratuita, e così via. “Una nuova verità scientifica non trionfa quando convince e illumina i suoi avversari, ma piuttosto quando essi muoiono e arriva una nuova generazione, familiare con essa”^[4] dice Thomas Kuhn, ed è difficile pensare che le prossime due-tre generazioni di data scientist non saranno in gran parte adepti dell’impostazione di Chris Anderson. Il “diluvio” di dati sta inesorabilmente arrivando.

L’arca della filosofia

Come argomentare con chi ci promette che, opportunamente allenato, un algoritmo sarà in grado, analizzando 2-3-4 mila parametri della nostra voce, di prevedere se e quando avremo il cancro? Oppure che le nostre password non sono più necessarie poiché l’algoritmo sarà in grado di riconoscere il nostro modo di premere sui tasti e da lì riconoscerci? Dopotutto, se milioni e milioni di osservazioni tra due fenomeni indicano una correlazione statisticamente significativa, come non accettare che una relazione (magari anche causale) esista? E come non accettare l’idea che avendo ancora più dati a disposizione, magari triangolandoli ed incrociandoli in molti altri modi, non si possa giungere ad una qualche forma di certezza?

Insomma, come affrontare il “diluvio” di dati che ci aspetta? Dove trovare una Arca robusta abbastanza per tenerci a galla? La risposta c’è, ed è – per quanto possa sorprendere – in una disciplina quasi in disuso in questi tempi di continua innovazione, e cioè la Filosofia. Non nel senso dell’ennesimo dibattito a favore di una etica dell’Intelligenza Artificiale, ma in una questione ben definita: qual è lo statuto epistemologico del (o dei) Data?

Già il fatto che Data possa essere immaginato sia al singolare che al plurale segnala che non sappiamo bene cosa intendiamo quando parliamo di esso (o di loro)!

Il problema, se affrontato da un punto di vista filosofico, diviene subito più chiaro: per quanto numerosi, i Data non ci possono dare una risposta perché di fronte a loro c’è, molto semplicemente, un’infinità di altri Data potenzialmente raccoglibili. E lo stesso vale per le triangolazioni e le correlazioni possibili ed immaginabili. L’apparente ricchezza e sovrabbondanza dei Data perde dunque tutta la sua verità nell’atto del conoscere. Ci si permetta qui di citare un po’ per esteso Hegel che nella Fenomenologia dello Spirito dice:

“Sulla base della concretezza del suo contenuto, la certezza sensibile appare immediatamente come la conoscenza più ricca, anzi come una conoscenza infinitamente ricca; infatti non ci sembra possibile porle né un limite esterno, nello spazio e nel tempo in cui essa si dispiega, né un limite interno, nella divisione in parti di un qualsiasi frammento di questa pienezza. Inoltre, essa appare come la conoscenza più vera, in quanto non ha ancora trascurato nulla dell’oggetto, ma lo ha piuttosto davanti a sé in tutta la sua integrità e completezza. Di fatto però tale certezza si rivela proprio come la verità più astratta e più povera.”^[5]

Cosa dice qui il grande filosofo in un testo del 1807 (a riprova che il progresso tecnico non sempre ci mette di fronte a domande nuove)? Semplicemente che per quanto numerosi siano i dati che raccogliamo, sempre ce ne saranno infinitamente altri da poter raccogliere, e che per quante correlazioni tra dati possiamo immaginarci sarà sempre possibile trovarne altre, di altro tipo, infinite.

Un computer superpotente può certo trovare correlazioni significative tra le migliaia di parametri in cui scomponiamo la nostra voce e il sorgere di una determinata malattia; ma lo stesso supercomputer potrebbe scomporre la voce non in migliaia ma in decine di migliaia di parametri, magari ottenendo risultati diversi. E lo stesso supercomputer potrebbe trovare correlazioni altrettanto significative tra altri parametri, per esempio la rapidità di crescita dei capelli e il sorgere della stessa malattia.

Dove poniamo il limite?

È evidente che è l’infinità stessa dei parametri (infinità in estensione e in divisibilità) che li rende epistemologicamente inutili.^[6]

L’avvento dello storytelling

I tanti tentativi di estrapolazione “predittiva”, per quanto ammantati di scientificità e di calcoli probabilistici, semplicemente non reggono ad una analisi neanche di buon senso. E a questo punto entra in gioco inevitabilmente lo storytelling, con tutta la potenza che già Platone aveva visto nell’arte dei Sofisti. Sabina Lionelli sottolinea giustamente il paradosso odierno; da un lato una modalità di ricerca scientifica apparentemente oggettiva oltre ogni sospetto poiché basata solo sui dati, e dall’altro una miriade di interpretazioni senza più senso:

“Questo oceano di dati si trasforma inevitabilmente in una cacofonia di interpretazioni dissonanti. Troviamo dati che provano che bere vino regolarmente fa male alla salute, ma anche dati che provano che i malati di cuore farebbero bene a bere un bicchiere di vino al giorno. Dati che confermano l’effetto negativo della plastica sull’ecosistema marino, e dati che lo smentiscono…E – cosa forse ancora più sconcertante – troviamo persone che usano esattamente gli stessi dati per trarre conclusioni opposte……e il nostro giudizio su cosa credere si riduce ad un giudizio su a chi credere.”^[7]

Ma questo paradosso è solo apparente. Il big data e lo storytelling sono due facce della stessa medaglia, di quella transizione digitale che il mondo sta affrontando. Per quanto Big, i Data non possono darci non dico la verità ma neanche la certezza, e quello che resta è dunque l’abilità nel presentare il proprio punto di vista con il giusto ammanto di dati a supporto.

Non basta perciò ricordare che i data lake diventano obsoleti, o che i dati raccolti per un determinato scopo non sono necessariamente rilevanti a qualunque altro scopo: tutte queste sono precauzioni tecniche che non vanno al cuore del problema.

Sabina Leonelli pone giustamente il problema dello statuto epistemologico del (o dei) Data, e conclude, ovviamente, che essi non possono essere considerati la rappresentazione di una situazione oggettiva ed immutabile della realtà. Ma definirli “relazionali” non fa avanzare molto le cose, perché le relazioni stanno anch’esse di fronte a quell’infinito che rende tutto vano. Non importa quante relazioni si possano immaginare o scoprire con i computer, sempre ce ne saranno una infinità di altre da immaginare e scoprire.

Conclusioni

È impossibile sapere cosa la tecnologia ci riserva nei decenni a venire, ed è un bene che sia così; quello che realmente conta è come ci comportiamo di fronte ad essa, è lo sforzo costante e faticoso di capire, senza fidarsi dei proclami e degli annunci pubblicitari. È importante e giusto, come dimostrano i lavori di Sabina Leonelli, contestare il trionfalismo che inneggia alla tecnologia solo perché lavora “più in grande” (come se Big fosse garanzia di per sé di una maggiore verità).

Ma dopo la necessaria demistificazione occorre fare un passo in più, tentare di comprendere. In primis, comprendere che comprendere non significa trovare delle soluzioni: questo è il compito delle scienze, comunque esse si configureranno nei prossimi decenni. La comprensione è qualcosa di diverso, che agisce sugli uomini e non su quello che fanno o credono di fare. Può sembrare uno sforzo inutile ma nella storia è ciò che resta, le tecnologie e le società vanno e vengono, mentre la Verità rimane. Ed è per questo che ci sentiamo di negare l’idea che oggi “viviamo nell’era della post-verità”^[8]. La verità, se è verità, esiste per sempre, oggi come nel Medioevo, ed indipendentemente da quanti follower abbia.

ISAAC ASIMOV,Il barzellettiere, 1956, storia pubblicata in varie edizioni ↑
CHRIS ANDERSON,The End of Theory: the Data Deluge makes the scientific method obsolete, “Wired 23 Giugno 2008” ↑
SABINA LEONELLI, La ricerca scientifica nell’era dei Big Data, Milano, Meltemi Editore, 2018. Ancora più interessante è il sottotitolo di questo importante lavoro “Cinque modi in cui i Big Data minacciano la scienza, e come salvarla.” ↑
THOMAS KUHN, La teoria delle rivoluzioni scientifiche, Segrate (MI), Einaudi Editore, 1999. ↑
G.W.F.Hegel, La Fenomenologia dello Spirito, Milano, Rusconi Editore, 1995, p. 170 (prima edizione 1807). ↑
Rimandiamo all’hegeliano concetto di “Cattivo Infinito (schlechte Unendlichkeit)” per chi voglia approfondire questo punto ↑
SABINA LEONELLI, La ricerca scientifica nell’era dei Big Data, Milano, Meltemi Editore, 2018, p. 4 ↑
SABINA LEONELLI, La ricerca scientifica nell’era dei Big Data, Milano, Meltemi Editore, 2018, p4 ↑