addestramento basato su esempi

Intelligenza artificiale e apprendimento: le origini e il futuro delle reti neurali

Molta ricerca è stata fatta e molta è ancora ne serve per capire cosa avviene dentro un sistema neurale quando impara ad associare un elemento particolare con una categoria concettuale più vasta. Il tema stimola da tempo anche filosofi ed esperti dell’apprendimento umano. Ma come siamo arrivati all’intelligenza artificiale?

Pubblicato il 31 Mag 2022

Ernesto Damiani

Senior Director of Robotics and Intelligent Systems Institute at Khalifa University

Non c’è dubbio che alla base del successo dell’Intelligenza Artificiale di oggi ci siano i grandi progressi nel realizzare sistemi che imparano dagli esempi, ovvero modelli neurali le cui inferenze sono basate su un addestramento supervisionato ricevuto in precedenza. Celebrando oggi i successi di questo paradigma di apprendimento, a volte ci dimentichiamo di quanto l’addestramento basato su esempi fosse precario nei sistemi neurali delle origini.

Un’IA a “immagine e somiglianza” del nostro cervello? La sfida è possibile

Indice degli argomenti

Alle origini dei sistemi neurali

Nel 1958 Frank Rosenblatt descrisse il percettrone come una rete di unità neuronali dotata di strati di ingresso e uscita e di una regola di apprendimento basata sulla minimizzazione dell’errore. La procedura di addestramento altera i pesi delle connessioni della rete sulla base della differenza tra l’uscita effettiva e quella desiderata. Dopo aver addestrato il percettrone con una serie di coppie ingresso-uscita corrette, si può presentargli un ingresso la cui uscita non è nota e sperare che il percettrone possa calcolarla. Qualche tempo dopo, Marvin Minsky e Seymour Papert dimostrarono che il percettrone di Rosenblatt può calcolare solo funzioni linearmente separabili (ad esempio, la funzione logica “or esclusivo” non può essere calcolata da un percettrone).

Presto si scoprì che questo limite può essere superato usando strutture multistrato più complesse; ma addestrare strutture complesse usando la minimizzazione dell’errore su esempi noti è tutt’altro che agevole (il numero dei pesi da adattare sulla base dell’errore in uscita cresce non-linearmente con quello delle unità neuronali) e ci sono voluti quarant’anni di ricerca dei piccoli passi prima che i ricercatori (tra gli altri Bengio, Hinton e LeCun) ci mostrassero come è possibile addestrare anche sistemi neuronali “profondi” in modo ripetibile e in tempi ragionevoli.

La deduzione automatica e la scienza dell’automazione del ragionamento logico

Fin dalle origini alla linea di ricerca sull’inferenza percettiva si affiancò quella parallela delle deduzioni simboliche, in cui si vogliono automatizzare delle inferenze sillogistiche che partono da fatti e premesse espresse in forma di simboli per raggiungere delle conclusioni logiche. Nel lontano 1956, durante il seminario estivo tenutosi presso il Dartmouth College di Hanover nel New Hampshire che secondo molti segnò la nascita dell’Intelligenza Artificiale, la nuova disciplina venne fondata programmaticamente come scienza dell’automazione del ragionamento logico, prima che della percezione artificiale.

La prima, sfortunata “estate dell’IA” negli anni Ottanta del secolo scorso si basava sull’idea di realizzare sistemi esperti corredati da ampie conoscenze dei fatti e dei vincoli posti dalle situazioni reali (tema a cui contribuì molto Alain Colmerauer, il “padre” del Prolog scomparso nel 2017), nella speranza che potessero eseguire automaticamente delle deduzioni di qualità migliore di quelle eseguite dagli umani. Le tecniche fondamentali sono il “forward chaining” che parte dai fatti e dagli assiomi per arrivare a una conclusione, e il “backward chaining”, che retrocede da una conclusione desiderata per vedere se è correttamente fondata sui fatti noti. Gli elementi costitutivi principali di tali metodi di inferenza sono gli algoritmi di verifica dei fatti e l’unificazione, che permette al processo deduttivo di seguire le catene di astrazione passando da concetti generali a quelli particolari e viceversa. Occorre riconoscere che non si tratta di un compito facile: nel mondo reale, ad esempio, le deduzioni per unificazione che funzionano impeccabilmente in matematica (“i triangoli hanno tre lati, x è un triangolo, quindi x ha tre lati”) possono causare una crisi operativa quando un sistema deduttivo che nella sua base di conoscenza contiene la premessa “gli uccelli volano” entra in contatto con uno struzzo. La ricerca sul ragionamento automatico si è così concentrata sulle tecniche per gestire l’incompletezza della base di conoscenza dei sistemi senza cadere in un’eccessiva complessità (o addirittura nell’intrattabilità computazionale) della deduzione automatica.

Oggi, la deduzione automatica ha ampie applicazioni in molti ambiti, tra cui la risoluzione assistita di problemi e la conversazione in linea con agenti intelligenti.

Per lungo tempo, queste due tradizioni dell’Intelligenza Artificiale hanno proceduto in parallelo, cercando l’una di trovare architetture di rete e strategie di addestramento efficaci e trattabili, l’altra di delimitare i frammenti di logica “a mondo aperto” per cui fosse efficace e trattabile la deduzione automatica. Non sono mancati però i tentativi di creare dei collegamenti. Senza pretesa di completezza, qui descriviamo alcuni sviluppi nelle due direzioni.

Da neurale a simbolico: la psicanalisi delle macchine

Una delle caratteristiche del ragionamento automatico è la possibilità per gli umani di capirne lo svolgimento (quello che i filosofi antichi chiamavano “argumentum”), seguendone i passaggi logici dalle premesse alle conclusioni. Una sequenza deduttiva può così diventare il “dato” di un procedimento (meta-)deduttivo, anche automatico, che derivi le proprietà del processo di deduzione. La trasformazione dell’inferenza in dato è meno diretta per i modelli neurali.

Volendo prevedere fenomeni complessi come il traffico in una città affollata o il rendimento di un investimento in un mix di criptovalute, abbiamo bisogno di stabilire le relazioni tra una variabile obiettivo y (l’intensità del traffico e il valore dell’investimento) e l’ampio insieme di variabili di input x che caratterizza l’ambiente del fenomeno. Supponiamo di avere a disposizione un modello neurale g tale che per molti valori d’ingresso calcola y con una approssimazione soddisfacente. Tuttavia, g non è comprensibile, perché è una rete così complessa e dotata di così tanti parametri da non poterne capire il reale funzionamento. Questa difficoltà di trasformare il modello (che decide) in dato (su cui discutere) prospetta inquietanti scenari orwelliani, in cui intere comunità di persone rinunciano a comprendere il motivo per cui i modelli di AI prendono certe decisioni, rassegnandosi al dettato dell’antica affermazione aristotelica “contra factum non valet argumentum”.

Spiegabilità e interpretabilità delle inferenze neurali

In questi ultimi vent’anni, la comunità scientifica ha lavorato molto sulla definizione di spiegabilità e interpretabilità delle inferenze neurali, anche introducendo tecniche simboliche per giustificare a posteriori le conclusioni a cui arrivano i modelli addestrati tramite esempi, cercando di passare “dalle sinapsi alle regole”. Il punto di partenza è sostituire la rete g con un surrogato, ovvero una funzione g ̃ esprimibile con una formula simbolica che abbia una struttura prefissata (ad esempio lineare o polinomiale di grado basso), in modo che sia facile giustificarne il calcolo. La sostituzione delle reti con modelli surrogati può avvenire a secondo varie strategie ma si basa comunque sulla minimizzazione delle aree di divergenza tra g e il surrogato g ̃. Vi sono due importanti considerazioni da fare.

Anzitutto, quello che importa è che il modello neurale e il surrogato siano d’accordo nell’area di ingressi specifica per cui viene richiesta la giustificazione.

In secondo luogo, la rete neurale profonda agisce come un oracolo che fornisce tutti gli esempi di addestramento che necessitano per imparare i parametri dei modelli surrogati, che a loro volta forniscono un’interpretazione gestibile di ciò che il sistema neurale può aver appreso durante il suo addestramento. Naturalmente, gli umani possono trovare difficile il modello surrogato, o non riuscire a seguire l’interpretazione risultante. Tuttavia, la surroga tramite funzioni simboliche fornisce un punto di partenza concreto per derivare una spiegazione delle decisioni del sistema neurale che ne consenta la discussione e valutazione da parte delle comunità umane di riferimento.

Da simbolico a neurale: la neuralizzazione dei simboli

Il successo delle reti neurali profonde ha portato alla costruzione di un ponte nella direzione opposta, ovvero a riformulare il problema della deduzione automatica come apprendimento su esempi. Mostrando a un sistema neurale profondo le coppie “base di conoscenza – conclusioni” derivate da un dimostratore automatico o da un esperto umano, è possibile cortocircuitare la catena deduttiva e farlo arrivare direttamente alle conclusioni?

Sulle conseguenze etiche di questo cortocircuito quando sistema simbolico e neurale coincidono nel nostro cervello, si è espresso magistralmente Edoardo Boncinelli nel suo “Quel che resta dell’anima”: al sistema simbolico umano (la nostra mente) non resta forse che il ruolo di giustificare a posteriori inferenze su cui non ha più controllo dopo aver favorito l‘addestramento del sistema neurale. Quindi, che responsabilità morali possiamo attribuire alla mente? Per noi informatici, più interessati agli aspetti implementativi, il lato positivo di quest’approccio è che il modello deduttivo simbolico può essere conservato per le verifiche di giustificazione.

Oggi, sistemi software innovativi come RuleTaker utilizzano trasformatori per ridurre il problema della deduzione logica in un problema di classificazione del testo binario, in cui il modello neurale viene addestrato a prevedere il valore di verità (Vero/Falso) di una interrogazione testuale data una base di conoscenza costituita da fatti e regole testuali.

Anche il mio gruppo di ricerca all’Università di Milano, lavorando con i colleghi della Tokyo Denki University, ha tradotto in un problema di classificazione (nel contesto del giapponese) il noto problema il problema di risoluzione dell’anafora, in cui bisogna calcolare a quale sostantivo si riferisce un pronome (ad esempio, per decidere chi aveva bevuto troppo nella frase “Bob argued with Steve because he was drunk”)

Queste classi di problemi testuali sono particolarmente interessanti per la neuralizzazione dei simboli poiché non richiedono la traduzione esplicita di fatti e regole logiche formali nei valori vettoriali richiesti dagli ingressi delle reti neurali ma consentono a queste ultime di imparare direttamente conoscenza espressa testualmente.

Conclusioni

I risultati ottenuti dal gruppo di Kevin Clark hanno dimostrato che i modelli neurali per l’apprendimento di dati testuali, come ROBERTA o BERT (di cui abbiamo parlato altre volte su queste pagine), possono essere addestrati per cortocircuitare catene di inferenza simbolica sia in termini di accuratezza che di capacità di generalizzazione. Quando il modello neurale viene addestrato con deduzioni sufficientemente profonde (almeno 3 passaggi di inferenza), è in grado di rispondere correttamente alla maggior parte delle interrogazioni (97,6%) che richiedono fino a 5 passi di inferenza “backward”. Questo risultato vale non solo per i dati di addestramento e test nello stesso dominio, ma anche per testi in altri domini.

Molta ricerca è ancora necessaria per comprendere cosa avviene all’interno del sistema neurale quando impara a unificare, ovvero ad associare un elemento particolare con una categoria concettuale più vasta. Si tratta peraltro di un tema che stimola da secoli i filosofi e gli esperti dell’apprendimento umano.