intelligenza artificiale

Deep learning vs scienze cognitive: così l’intelligenza si è disconnessa dal corpo

I successi ottenuti dal deep learning in compiti in cui si riteneva solo gli umani potessero eccellere mettono in discussione le tesi cognitiviste e filosofiche secondo cui non è possibile comprendere l’intelligenza avulsa del corpo fisico. Vediamo come ci si è arrivati

Pubblicato il 22 Ott 2019

Alessio Plebe

Università degli Studi di Messina

Energizzata dalla tecnica denominata deep learning, “apprendimento profondo”, l’intelligenza Artificiale (IA) ha mietuto e continua a mietere una quantità di successi in ambiti applicativi insperabili fino una decina di anni fa, e sono questi risultati e le loro ricadute economico-sociali a tenere banco in discussioni a vari livelli in tutti i media di comunicazione.

Scivolano invece quasi inosservate possibili ripercussioni dell’IA, e in particolare del suo strumento vincente, il deep learning, riguardo certi principi teorici sull’intelligenza umana, che si sono andati consolidando negli ultimi trent’anni.

Si tratta della tesi, maturata nelle scienze cognitive e in filosofia, secondo cui non è possibile comprendere l’intelligenza avulsa del corpo fisico, ed è anzi proprio questo, con le sue proprietà ed esigenze biologiche, a produrre dei piani di azione, che quando raggiungono una certa sofisticazione conquistano il nome di “intelligenza”. I successi ottenuti dal deep learning in compiti in cui si riteneva solo gli umani potessero eccellere, dal riconoscimento di immagini alla comprensione linguistica – senza nulla che somigli ad un “corpo” – sembrerebbero porre qualche imbarazzo alla tesi di cui sopra.

Indice degli argomenti

Il duplice intento dell’intelligenza artificiale

Prima di verificare se questo imbarazzo possa trasformarsi in minaccia, sono necessarie alcune premesse. L’IA è figlia dell’incontro tra discipline che cercano di comprendere come funziona l’intelletto umano, e discipline che invece hanno a cuore lo sviluppo di artefatti informatici, al servizio di una gamma sempre più estesa di attività umane, cognitive incluse. Di conseguenza l’IA ha tipicamente avuto una duplicità di intenti: da un lato coadiuvare lo studio della cognizione umana, mediante la riproduzione artificiale di suoi aspetti, dall’altro migliorare algoritmi informatici, prendendo ispirazione da meccanismi propri dell’intelligenza umana. Attraverso la sua storia, e a seconda dei suoi svariati centri di ricerca nel mondo, i due intenti hanno avuto enfasi diverse.

Prendiamo proprio il caso del settore responsabile dell’attuale fortuna dell’IA, il più volte menzionato deep learning. Si tratta dell’evoluzione dell’idea di reti neurali artificiali, risalente agli anni ’80. I suoi proponenti ambivano soprattutto ad offrire nuovi strumenti per chi voleva comprendere la cognizione umana, riproducendola in modelli che coglievano alcuni aspetti di come funzionano i neuroni del nostro cervello. Tale proposito era esplicitato nel sottotitolo del celebre volume Parallel Distributed Processing: “Explorations in the Microstructure of Cognition”. Ed effettivamente negli anni ’90 un gran numero di psicologi si cimentarono nella costruzione di modelli di reti neurali artificiali, per “esplorare la microstruttura della cognizione”, soprattutto nello studio del primo sviluppo di capacità cognitive nel bambino. La produzione di modelli di questo tipo nei dipartimenti di psicologia, puramente ai fini di studio della mente, quasi rivaleggiava con lo sviluppo di modelli neurali per applicazioni industriali. Peraltro, gli stessi padri fondatori delle reti neurali artificiali erano psicologi, convertitisi all’informatica in corso d’opera: Geoffrey Hinton, James McClelland, David Rumelhart.

All’inizio di questo secolo le reti neurali artificiali andavano esaurendo il loro potenziale, sia per gli psicologi che per ingegneri ed informatici, e perdevano di rilevanza tra i diversi domini che compongono l’IA. Restava comunque viva una ricerca di sottofondo, entro cui proprio uno dei fautori della prima ondata di successo delle reti neurali, Hinton, nel 2006 inventa il deep learning, che in pochi anni ribalta la situazione, diventando il metodo di gran lunga prevalente in IA. Ma quel che si ribalta è anche l’enfasi rispetto ai due diversi intenti di fondo dell’IA. Nei centri di ricerca oggi dedicati alle reti neurali stile deep learning c’è una sostanziale indifferenza verso la cognizione umana, sia nella direzione di proporre strumenti per studiarla, sia nella direzione opposta del carpire da nuove conoscenze sull’intelligenza umana, spunti utili per l’IA.

I profondi cambiamenti nelle scienze cognitive

Nel lasso di tempo intercorso tra la prima generazione di reti neurali artificiali, attenta alla cognizione, e quella attuale disinteressata, anche le scienze cognitive hanno vissuto profondi cambiamenti. Riassumiamo, con una generosa dose di approssimazione, come sono andate le cose. Per un lungo periodo le scienze cognitive hanno interpretato la mente come una sorta di collezione di processori di informazioni. Per esempio, uno dei principali processori si dedica alle informazioni visive, elaborando i segnali catturati dalla retina, e restituendo una lista concettuale delle categorie di oggetti che il soggetto ha dinnanzi: tavolo, computer, tazza di caffè, e associando a ciascuno una posizione nello spazio. Altri processori costruiscono una pianificazione delle attività, tenendo conto di quanto percepito dal mondo esterno, e dei bisogni del soggetto. Infine ci sono processori che trasformano i piani in comandi ai muscoli, quando viene il momento di attuarli. L’intelligenza non è altro che la composizione di questi processori di informazione.

Dagli anni ’90 in poi si insinua l’idea che questo ritratto dell’intelligenza sia troppo astratto, che occorra invece fare i conti con la materia con cui siamo fatti, restituire centralità al corpo fisico, anzitutto al suo organo chiamato cervello, ma non solo. Uno dei suoi manifesti è stato il Philosophy in the Flesh. The Embodied Mind and its Challenge to Western Thought di George Lakoff e Mark Johnson, dal titolo eloquente.

La teoria delle 4E

Oggi la tendenza che va per la maggiore è la teoria della cognizione 4E, che sarebbero le quattro iniziali di Embodied, Embedded, Enactive, Extended. L’intelligenza è quindi anzitutto indissociabile dal corpo (embodied), di conseguenza è immersa (embedded) nell’ambiente fisico, con cui il corpo del soggetto interagisce (enactive) e l’intelligenza si estende (extended) negli strumenti adoperati.

Per capire cosa questo significhi, torniamo all’esempio della percezione visiva. Per gli adepti della cognizione 4E non ha senso concepire la visione come un processo che elabora i segnali visivi ricavandone rappresentazioni concettuali degli oggetti presenti nella scena. La visione è asservita all’azione, ed il soggetto percepisce in funzione di quelli che sono di volta in volta i suoi piani motori.

Se ha voglia di caffè, la visione verrà indirizzata ad individuare la zona della tazza idonea ad afferrarla – tipicamente il manico – e a collocarla nello spazio di manovra della propria mano.

Le scienze cognitive iniziano questo nuovo corso contemporaneamente alla nascita delle prime reti neurali artificiali, e non si tratta di coincidenza. Da un lato Rumelhart e amici condividono lo scetticismo sulla possibilità che generici algoritmi di processamento delle informazioni dicano qualcosa sull’intelligenza umana, e per questo propongono in alternativa algoritmi che cerchino di imitare alcune parti dal corpo: i neuroni. Dall’altro lato gli esponenti della svolta cognitivista accolsero prontamente i modelli neurali come strumento d’indagine appropriato per la svolta “embodied”, così fece Lakoff e il suo gruppo a Berkeley. L’idillio è andato via via esaurendosi. Come visto, nella generazione delle reti deep regna l’indifferenza rispetto alle vicende cognitive. Dal canto suo, il cognitivismo all’insegna 4E ha sviluppato una certa respingenza verso qualunque forma di spiegazione dei fenomeni mentali di tipo computazionale, ritenuta astratta e aliena alla natura biologica dei corpi, e fa poca differenza se si tratti di computazioni tradizionali o di tipo neurale.

Il corpo e la natura umana

Ha giocato su questo atteggiamento l’influsso di certe correnti filosofiche novecentesche, prima di tutte la fenomenologia, che avevano assunto il corpo a oggetto centrale di analisi riguardo la natura dell’uomo, caricandolo di attribuzioni ben oltre il suo stato fisiologico. E’ famosa la distinzione di Edmund Husserl tra il corpo in senso convenzionale, fisiologico, e la sua idea di “corpo vivo”, ricco di proprietà quali infondere negli individui il senso di volontà e potere.

Anche Maurice Merleau–Ponty opera una distinzione tra il corpo così come lo concepiscono i comuni mortali, scienziati inclusi, e una nozione più profonda, per la quale usa la parola “carne”. Sarebbe questo “corpo-carne” a consentire il congiungimento tra l’interiorità del soggetto e il mondo esteriore. Un certo numero di scienziati cognitivi, come Francisco Varela e Evan Thompson hanno recuperato questa eredità, arricchita da ulteriori influenze, quali il pensiero buddista, allontanando radicalmente la cognizione embodied dalla concezione della mente come insieme di processi computazionali, anche di tipo neurale, e arrivando persino a contestare che il cervello costituisca una parte privilegiata del corpo, rispetto alla cognizione. Le suggestioni sul corpo della fenomenologia o del buddismo sono sicuramente ricche di fascino e feconde di riflessioni speculative, ma comportano un rischio non da poco per le scienze cognitive: di abdicare ai suoi buoni propositi fondativi, di perseguire lo studio della mente con metodi il più possibile rigorosamente scientifici.

Ma questa è solamente una delle correnti dell’attuale cognitivismo 4E, un’altra compagine, non certo minoritaria, considera sempre prioritario perseguire la comprensione della cognizione e del ruolo in essa del corpo con pratiche scientifiche, e con il più ampio supporto possibile di osservazioni empiriche. Ne sono esempio gli studi di John Findlay e diversi altri sui movimenti oculari e della testa, in abbinamento ai processi corticali di visione, che hanno condotto e corroborato l’idea di “visione attiva”, in cui la percezione è mediata dal corpo nel dirigere lo sguardo, istante per istante, laddove l’interazione con l’ambiente lo richieda.

Vittorio Gallese, uno degli scopritori dei neuroni specchio, ha dimostrato in una lunga serie di studi il coinvolgimento di aree cerebrali deputate alla pianificazione di azioni, nell’interpretare quel che un soggetto vede fare ad altre persone, come lo stesso genere di azione. Non solo, anche altri neuroni coinvolti in alcune sensazioni emotive soggettive, sono risultati coinvolti per rappresentare cosa un soggetto immagini che provino altre persone, per esempio nel subire qualcosa che potrebbe provocare dolore. E’ evidente come questi fenomeni mostrino una sorprendente interdipendenza tra cognizione e corpo, purtuttavia interamente mediata da rappresentazioni che hanno sede in neuroni, pertanto viene mantenuto un certo privilegio a quella parte del corpo chiamata cervello.

Anche per questa ala del cognitivismo 4E più ligia ai buoni propositi scientifici le reti neurali artificiali hanno perso attrazione, e quindi con il deep learning c’è una reciproca indifferenza, nondimeno vi sono linee di contatto con altri comparti dell’IA. Quello storicamente solidale con le istanze della cognizione embodied è il mondo robotico, l’unico che si sia cimentato nel realizzare surrogati di corpi.

Rodney Brooks fu proprio uno dei protagonisti della svolta embodied, proponendo un tipo di robotica in cui l’intelligenza emergesse dall’esigenza di muovere un corpo (artificiale) in un ambiente. Inoltre la nuova concezione di “visione attiva” poteva fornire una illuminante consolazione per il frustrante insuccesso nel campo della visione computerizzata, in cui cinquant’anni abbondanti di intensi studi avevano condotto a sistemi di un’efficacia imbarazzante rispetto alla capacità dell’uomo di riconoscere tutto quel che c’è davanti ai suoi occhi.

La cognizione 4E poteva spiegare quanto ingrato fosse il compito che si richiedeva al computer, privo di possibilità di indirizzare i suoi occhi, privo di un corpo con cui manipolare ciò che c’è davanti agli occhi, privo della necessità di compiere azioni a cui la visione naturale è asservita. Una ventina di anni fa ci fu un certo impegno a realizzare sistemi in grado di orientare una o più telecamere montate su robot, in modo da realizzare delle repliche artificiali del principio della visione attiva, ma ebbero poco successo e rimasero casi isolati.

E poi arriva il deep learning

Poi arriva il deep learning, e dopo nemmeno tre anni dal suo ingresso surclassa ogni genere di algoritmo di visione, raggiungendo prestazioni pari a quelle umane nel riconoscimento di oggetti in immagini. Nessuno nella comunità del cognitivismo 4E pare ancora essersi reso conto della portata di questi risultati. Eppure si tratta del primo algoritmo artificiale in grado di avvicinare il principale sistema percettivo umano. L’aspetto eclatante è che queste straordinarie prestazioni sono ottenute in modo puramente computazionale, e senza traccia di nessuna delle quattro “E” che compongono la cognizione 4E. Non vi è traccia di corpo (“Embodiement”), i modelli neurali deep sono assolutamente astratti, trattano i segnali visivi come fossero pure configurazioni di numeri. Non vi è traccia di azione (“Enaction”), le immagini impiegate nei modelli sono statiche, fotografie avulse dal tempo. Non vi è traccia di contesto ambientale (“Embedded”), ogni immagine è processata senza tener in alcun conto il suo ambito di provenienza, le condizioni in cui è stata catturata.

Si potrebbe certamente obiettare che questi risultati, per quanto inattesi e sorprendenti, derivino da brillanti soluzioni matematiche e ingegneristiche, che nulla dicono riguardo il funzionamento della cognizione umana, sicuramente ben diverso. L’argomento suona sensato, visto che nessuna delle migliorie che hanno traghettato dalle vecchie reti neurali artificiali al deep learning ha ispirazione cognitiva, e anzi, è venuta a cadere l’iniziale interazione tra ricerca sull’intelligenza umana e IA, almeno nell’ambito reti neurali.

Ma le sorprese non sono finite. Da pochi anni alcuni studiosi hanno provato a comparare i passi intermedi di processo che una rete deep effettua, a partire da un’immagine fino a riconoscere che oggetto è raffigurato, e le attivazioni nelle diverse aree corticali della visione, di un soggetto che guarda la stessa immagine. Ebbene, sono state riscontrate impressionanti concordanze tra le configurazioni di attivazioni dei neuroni biologici, misurati tramite risonanza magnetica nei soggetti, e i neuroni artificiali del modello deep learning. Risultati compatibili sono stati ottenuti da diversi indipendenti gruppi di ricerca, tra cui quello diretto da Nikolaus Kriegeskorte alla Columbia University. Diventa allora davvero difficile liquidare le prestazioni del deep learning come irrilevanti rispetto all’intelligenza umana, almeno nel caso del riconoscimento visivo.

Naturalmente non si tratta di mettere in discussione i tanti progressi, suffragati empiricamente, raggiunti dalla scienza cognitiva 4E. Verrebbe però da prendere in considerazione l’eventualità che certi processi basilari, come la percezione visiva, abbiano una consistente parte di puro processo computazionale, in cui il corpo non conta poi tanto. Beninteso, il corpo, cervello escluso, il quale invece conta eccome.