L'approfondimento

Deep Learning: dove si usa nella ricerca e gli impatti sul metodo scientifico

Il deep learning viene usato all’interno degli acceleratori di particelle come selezionatore di eventi o in meteorologia per le previsioni ma è molto diverso dai simulatori tradizionali. La storia della sinergia tra scienza e computer, come funzionano i simulatori continui o a particelle, il modello Met-Net-2

Pubblicato il 04 Mag 2022

Alessio Plebe

Università degli Studi di Messina

intelligenza artificiale - deep learning

Il deep learning è una strana creatura: nata quasi per caso, dall’accanimento di pochi ricercatori^[1] che hanno perseguito la strada delle reti neurali artificiali, è poi dilagato in ogni rivolo di impiego dell’IA.

Adesso sta invadendo anche il campo per il quale meno che mai era stato concepito: l’indagine scientifica. Al centro di un crescente interesse da parte di molti settori, è un genere di software ben lontano dai tipici simulatori.

Explainable AI: perché pretendere spiegazioni dall’Intelligenza Artificiale è giusto ma non basta

Indice degli argomenti

Perché la scienza usa la simulazione al computer

Il computer ha aperto la strada a indagini scientifiche altrimenti impraticabili. La sinergia ha radici lontane: John von Neumann, uno dei padri storici del computer, già nel 1945 iniziò a sviluppare un calcolatore dedicato alla simulazione di reazioni termonucleari, e un altro per la simulazione della circolazione atmosferica.

Al fianco delle due strade tradizionali percorse dall’impresa scientifica, l’elaborazione di teorie e la sperimentazione empirica, il computer ne ha offerto una formidabile terza: la simulazione.

Siccome la scienza mira a spiegare fenomeni che succedono in qualche porzione del mondo, ogni ipotesi e teoria deve poter combaciare con quel che si osserva nel mondo stesso, è quindi alla sperimentazione che viene affidata la parola definitiva per riporre o meno fiducia in una spiegazione scientifica.

Pur nell’estrema varietà di metodologie sperimentali, a seconda del pezzetto di mondo sotto esplorazione, un principio cardine è quello di combinare le osservazioni dei fenomeni con interventi, che manipolino certe variabili ritenute cruciali per il fenomeno stesso.

Per esempio, volendo verificare se un gas si comporta come prevede la classica legge dei gas perfetti, lo si mette in un contenitore riscaldabile. Mantenendo il volume del contenitore fisso si può misurare come cambia la pressione modificando la temperatura, viceversa mantenendo la pressione costante, con un coperchio mobile, si può vedere come cambia il suo volume al variare della temperatura.

Il problema è che solo una frazione minuscola dell’universo è accessibile e manipolabile come il gas in questo esempio, e solamente la simulazione al computer può riportare la restante parte, con le dovute approssimazioni, a portata di mano.

Scienza e simulazione: l’astronomia

Il campo dove, più che in ogni altro, gli oggetti di studio sono decisamente fuori portata è l’astronomia: non è un caso infatti che sia la disciplina dove i simulatori dominano la ricerca, alla pari con i telescopi.

Ne citiamo giusto uno per tutti, il celebre simulatore dei moti convettivi nelle stelle rosse giganti.

L’appellativo di queste stelle è appropriato: arrivano ad avere un diametro simile a quello dell’intero sistema solare, e le più vicine distano decine di anni luce. Queste stelle sono un rompicapo di grande interesse, perché il loro trasporto convettivo di energia è altamente instabile a partire dal denso nucleo che genera calore, fino all’estremità più rarefatta della sua superficie.

Variazioni minime in temperatura, pressione, o densità in ogni porzione interna del sistema stellare possono innescare turbolenze che si amplificano in modo imponente, viceversa piccoli vortici alla superficie possono favorire la formazione di profondi flussi convettivi.

Alla fine del secolo scorso un gruppo dell’università del Minnesota riuscì a realizzare un programma, basato su di un metodo per modellare le turbolenze, il “piecewise parabolic method”, in grado di tenere assieme in un unico complesso simulatore fenomeni convettivi nell’estrema varietà di scale a cui avvengono nelle stelle rosse giganti.

Questi lontanissimi e complicati oggetti sono stati riportati virtualmente vicini all’interno di un computer, con la possibilità di apprezzarne i meccanismi, verificare la risposta a variazioni di parametri, studiarne l’evoluzione.

È talmente sentita la brama di simulatori in astrofisica che qualcuno ha avuto persino la fantasia di inventarne di concreti, non realizzati al computer.

Uno dei fenomeni più affascinanti dell’universo sono i cosiddetti buchi neri, delle porzioni di spazio dove si è addensata una quantità immane di massa, che produce un campo gravitazionale di enorme potenza. Questo campo è talmente intenso da catturare ogni corpo celeste circostante, aumentando in tal modo ancor di più la propria massa e di conseguenza il picco di campo gravitazionale.

Sono chiamati “neri” perché la gravità è così forte da intrappolare ogni forma di energia, quindi non emettono nessuna luce. Questi fenomeni sono talmente distanti da noi che a confronto le stelle rosse giganti paiono nelle vicinanze, i buchi neri più vicini sono a migliaia di anni luce.

Un fantasioso fisico canadese, Bill Unruh, pensò che innescando in un fluido un vortice con velocità molto elevate, se la velocità avesse superato quella del suono, dal centro del vortice non sarebbe più potuto uscire nessun suono.

L’idea era creare una sorta di analogo dei buchi neri, giustamente ora denominati buchi muti, o talvolta anche buchi neri acustici. Unruh non aveva però idea di come realizzare questo simulatore: creare un vortice talmente veloce in un fluido non è banale, anche se senz’altro più fattibile di fare una visitina ad un buco nero. Ci riuscì un laboratorio israeliano trent’anni dopo, nel 2014, usando uno stato della materia piuttosto particolare, chiamato condensato di Bose-Einstein.

Il risultato è indubbiamente spettacolare, ma evidenzia anche quanto sia incomparabilmente più pratico simulare i fenomeni nella virtualità di un computer, piuttosto che escogitando e realizzando concreti pezzettini di realtà che abbiano analogie con quel che si vuole studiare.

Scienza e simulazione: l’atmosfera

Anche quel che succede nel cielo poco sopra la nostra testa ha una folta collezione di sofisticati simulatori, di cui anche la gente comune beneficia quotidianamente, quando controlla sul proprio telefonino le previsioni meteorologiche.

Le simulazioni della dinamica atmosferica, fin dagli albori, hanno avuto una duplice funzione: far progredire la conoscenza scientifica e effettuare previsioni, per qualunque genere di attività umana dipendente dalle condizioni meteorologiche.

Le simulazioni sono preziose per la navigazione marittima e vitali per il trasporto aereo, che non potrebbe nemmeno avvenire in mancanza di specifici bollettini meteorologici.

Una delle principali difficoltà nello studio dell’atmosfera terrestre è la molteplicità di scale, spaziali e temporali, dei fenomeni rilevanti. La formazione di gocce d’acqua in nubi avviene su una scala di centesimi di millimetri, mentre le principali ondulazioni di pressione, le onde di Rossby, hanno lunghezze di migliaia di chilometri.

Stessa storia per il tempo: interazioni di fasi locali avvengono su tempi inferiori al secondo, le variazioni stagionali su tempi di mesi, e le variazioni climatiche su decine di anni. È ben noto come tra i simulatori atmosferici dove attualmente si concertano maggiori sforzi di ricerca vi siano proprio quelli climatici.

Sono i simulatori la cui predizione è una sorta di verdetto su quanti anni di sopravvivenza restano a questa strana specie animale, che insiste a pianificare con accanimento la propria estinzione.

Deep learning: la differenza con i simulatori scientifici continui e a particelle

Il deep learning non è stato concepito e sviluppato per farne un simulatore scientifico, al contrario la sua comunità mira ad obiettivi ben più mondani e redditizi, tant’è vero che i suoi più attivi centri di ricerca sono oggi interni a Google, Facebook e Amazon.

Avrebbe potuto esserci una parvenza di scopi scientifici, dovuta alla sua eredità storica: le reti neurali artificiali negli anni ’80 erano state infatti introdotte con l’ambizione di farne strumenti per una particolare indagine scientifica, come funziona la mente.

Ma, col tempo, questa velleità è sfumata, e nel passaggio al deep learning è stata sostanzialmente abbandonata: quel che conta nel progresso del deep learning è la sua capacità di coprire aree applicative dell’IA e di stimolarne di nuove.

Inoltre, il deep learning non ha alcuna delle caratteristiche tipiche dei simulatori scientifici.

Pur nella loro vasta diversità, esistono fondamentalmente due strategie di simulazione del mondo al computer: continua oppure a particelle.

I simulatori continui

I simulatori continui incorporano direttamente le equazioni consolidate della teorica scientifica adottata. Se si tratta di elettrodinamica macroscopica le equazioni scelte saranno quelle di Maxwell e Lorenz, per la fluidodinamica vanno bene le equazioni di Eulero se il fluido ha viscosità trascurabile, altrimenti il riferimento diventano le equazioni di Navier e Stokes.

È destino di tutti i fenomeni interessanti dell’universo, quando riescono a essere catturati in una teoria descritta da formulazioni matematiche, assumere la forma di equazioni differenziali intrattabili analiticamente.

L’unica maniera per poterci ricavare dei risultati è tramite il computer, che trasforma le equazioni differenziali in una miriade di differenze finite, e con metodi opportuni ne produce soluzioni approssimate.

I simulatori a particelle

I simulatori a particelle invece si basano su un gran numero di singole unità, relativamente semplici, che interagiscono tra di loro, e queste interazioni locali seguono le regole stabilite dalla teoria scientifica a cui fa riferimento il simulatore.

Spesso le condizioni iniziali delle particelle sono fissate in modo causale, ma vengono reiterati molti esperimenti con condizioni iniziali diverse, adottando poi in modo probabilistico l’insieme di tutti i risultati, è il metodo chiamato Montecarlo.

La particella più gettonata in questa classe di simulatori è la molecola: i simulatori della sua dinamica dominano la ricerca in scienza dei materiali, e risultano utili anche in chimica e biofisica, per esempio per studiare la diffusione di proteine e acidi nucleici. Vi sono simulatori in cui le particelle hanno dimensioni decisamente maggiori, come granelli di sabbia in ambito geologico, o chicchi di cereali all’interno di silos nelle scienze agrarie.

Infine particelle ancora più grandi e speciali possono essere organismi viventi: la simulazione di queste particolari particelle venne inaugurata proprio da von Neumann con gli automi cellulari, ed è oggi un valido strumento in biologia, soprattutto per lo studio di fenomeni emergenti nel mondo vivente. Quando le particelle sono esseri umani, entriamo nel genere di simulatori impiegati nelle scienze sociali.

Sia nel continuo che con le particelle, il requisito basilare di ogni simulatore è che esista una precisa corrispondenza tra le sue componenti e quelle del sistema reale da simulare.

Un simulatore continuo di qualche fenomeno fisico macroscopico avrà nel software, per esempio, delle variabili che rappresentano temperature, organizzate su griglie i cui vertici corrispondono a coordinate dello spazio reale, e si conviene che il valore di una tale variabile in una determinata posizione di griglia corrisponda nel sistema reale alla temperatura nel punto preciso che corrisponde alla posizione della griglia.

Questo insieme di valori distribuiti che rappresentano temperature entrerà legittimamente in tutte le equazioni in cui, nella teoria fisica adottata dal simulatore, entra in gioco la temperatura.

Se abbiamo un simulatore a particelle, per esempio di qualche fenomeno di solubilità, le particelle saranno molecole di precise caratteristiche, e ciascuna sarà dotata di un suo vettore di posizione e di uno di velocità. Queste grandezze entreranno in gioco in tutte le regole che definiscono le interazioni locali fra molecole. Nulla di tutto questo può essere realizzato usando il deep learning.

Un modello deep learning è totalmente refrattario all’imposizione di regole, non vi è modo di iniettarvi nemmeno le più semplici leggi fisiche, per esempio che l’accelerazione di corpo solido è uguale alla forza netta su di lui applicata, diviso la sua massa. Le uniche variabili in un modello deep learning a cui è possibile agganciare una corrispondenza con il mondo reale sono i suoi ingressi e le sue uscite.

Il deep learning segue un principio radicalmente empirista: non parte da nessun presupposto, nessuna teoria, nessuna regola, tutto quel che riesce a fare deriva dalla sua esposizione all’esperienza, fornita mediante esempi in cui agli ingressi sono corredate le uscite corrette desiderate.

Qualunque genere di relazione sussista tra ingressi ed uscita, viene semplicemente appresa, senza necessità di conoscere nulla della possibile teoria che li lega fra loro.

Nonostante la mancanza dei minimi presupposti per poter essere un buon compagno nell’indagine scientifica, negli ultimi anni si sono moltiplicati gli impieghi nel deep learning in una varietà di ambiti scientifici impressionanti, che includono chimica, sismologia, climatologia, biologia, astronomia, geologia, fisica atmosferica, fisica delle alte energie. Un paradosso che induce a trovare risposte.

Il deep learning che seleziona gli eventi: il caso LHC-CERN

Una risposta facile vale per certi usi del deep learning non come vero e proprio simulatore di un pezzo di realtà, ma come strumento di supporto ad una diversa strategia di ricerca scientifica.

Il caso emblematico è la selezione degli eventi di interesse negli acceleratori di particelle, come il Large Hadron Collider (LHC) al CERN. La strategia scientifica di base è evidentemente sperimentale, le energie prodotte entro LHC sono davvero alte, arrivando alla mostruosa cifra di 10mila di miliardi elettronvolt, e le collisioni producono realmente particelle atomiche, i sui segnali sono misurabili.

Tuttavia questi particolari esperimenti hanno fin dal loro inizio richiesto una sinergia con le altre strategie a disposizione in scienza, in particolare i simulatori, che a loro volta incorporano la teoria. La grande attrattiva di questi immensi e sofisticati strumenti è di verificare l’esistenza delle più elementari particelle che compongono la materia esistente.

Di queste una delle più suggestive è stata l’elusivo bosone di Higgs, dal nome del fisico inglese Peter Higgs che ne ipotizzò l’esistenza nel 1964.

Il LHC, con le sue portentose energie e i 27 chilometri di lunghezza del suo anello, aveva le carte in regola per poter produrre collisioni in cui si manifestava un bosone di Higgs, il problema è che a quelle tremende energie il numero di collisioni che si verificano è elevatissimo, e la gran maggioranza sono eventi privi di interesse. I bosoni di Higgs sono una rarità, derivano solamente da collisioni tra protoni, con una probabilità inferiore ad uno ogni miliardo di collisioni.

Per dedicarsi ad analizzare solamente gli eventi promettenti, le campagne di ricerca usano dei cosiddetti trigger, dei sistemi di analisi preliminare molto veloce, che fanno passare ad una fase successiva solo una piccola frazione di tutti gli eventi. I trigger a più alto livello si ritrovano un numero ragionevole di eventi, e possono impiegare più tempo simulando la fisica del processo per verificare se i candidati siano degni di ulteriori attenzioni.

È in questo modo che, combinando faticosamente esperimenti in senso stretto e simulazioni, nel 2013 si è verificata con certezza, per la prima volta, l’esistenza del mitico bosone.

Successivamente è stato Pierre Baldi, ricercatore americano di vecchia data sulle reti neurali, ad intravedere un ruolo per il deep learning nel facilitare questo meticoloso setacciamento di eventi da dare in mano ai fisici: nel 2014 realizzò un modello con cinque strati, addestrandolo sui dati pregressi di oltre 10 milioni di collisioni.

Da allora, il deep learning è entrato nel regno della fisica delle particelle, e si è affermato come metodo più affidabile e di gran lunga più preciso nel selezionare eventi rilevanti. È stato calcolato che attualmente, con il miliardo abbondante di collisioni al secondo rilevate dai sensori del LHC, il lavoro eseguito in un giorno dal deep learning avrebbe richiesto dieci anni di lavoro con simulatori tradizionali.

Il deep learning nella meteorologia: il modello MetNet-2

Ma vi sono casi in cui il deep learning getta inaspettatamente della luce nuova sui fenomeni di cui ha appreso a predire certe uscite grazie ad un congruo numero di esempi. Nell’apprendere il suo compito, un modello deep learning di grandi dimensioni è come se incorporasse implicitamente i principi di base che governano le relazioni tra ingressi ed uscita, e quindi costruisse spontaneamente una sorta di teoria del fenomeno stesso.

Diamo qualche dettaglio giusto di uno di questi casi, a titolo di esempio. Si è detto come uno dei campi elettivi di simulazione al computer sia la meteorologia, e tutti i simulatori incorporano un gran numero di teorie che modellano il comportamento delle varie componenti dei sistemi atmosferici, a diverse scale spaziali e temporali.

Da anni esiste anche uno spazio per le consolidate attitudini predittive del DL, ma vista la sua incapacità di incorporare alcuna fisica dei fenomeni, lo si è impiegato solamente per le previsioni a brevissimo termine, fornendogli in ingresso i dati previsionali dei simulatori fisici, ottenendo in uscita previsioni su una scala spaziale di maggior dettaglio, su scala temporale di qualche ora.

Il rapido progresso in questo settore ha però condotto a modelli DL come il MetNet-2, realizzato nel 2021 dal team di ricerca di Google, che arriva alle 12 ore di previsione, mai raggiunte prima con modelli non fisici.

L’aspetto più intrigante è che questo modello è in grado di rivelare fatti fisici di grande interesse. Uno riguarda il diverso ruolo di una grandezza fisica denominata vorticità assoluta, ovvero la velocità con cui una particella di atmosfera ruota su se stessa, misurata non rispetto alla terra ma ad un sistema inerziale.

Questa grandezza ha un’importanza relativamente modesta nel breve termine, mentre diventa dominante a scale temporali maggiori, un risultato che fornisce supporto ad un certo tipo di teoria della dinamica atmosferica, denominata quasi-geostrofica.

Questa subdola capacità del deep learning di far implicitamente propri certi principi che governano i fenomeni, di cui ha appreso solamente tramite i loro dati, è in prospettiva di grande interesse per la scienza, ma solamente nella misura in cui questi principi da impliciti diventino comprensibili per gli esseri umani, per gli scienziati in particolare.

Qui viene in aiuto del deep learning un campo di ricerca nuovo, ma in rapida espansione: XAI- Explainable Artificial Intelligence, che mira a sviluppare strumenti in grado di scrutare all’interno i modelli deep learning mentre effettuano le loro previsioni, e in qualche modo spiegare come vi riescono.

Per esempio, nel caso del modello MetNet-2, la tecnica XAI “integrated gradients” ha permesso di rivelare la variazione del ruolo della vorticità assoluta alle diverse scale temporali.