Conosciamo meglio le proteine grazie all'intelligenza artificiale DeepMind: perché è una scoperta enorme

Deepmind, una succursale di Google e l’istituto EBI (European Bioinformatics Institute hanno annunciato la creazione di una banca dati contenente la predizione della struttura di 350 mila proteine, quasi il doppio delle strutture di proteine a noi note. Ecco le implicazioni di un’enorme risultato

L’intelligenza artificiale sta sempre più velocemente rivoluzionando il nostro sapere e la nostra percezione del mondo.

La scorsa settimana l’AI (artificial intelligence) ha contribuito ad un epocale passo avanti nel campo della determinazione della struttura delle proteine.

Deepmind, una succursale di Google e l’istituto EBI (European Bioinformatics Institute hanno annunciato la creazione di una banca dati contenente la predizione della struttura di 350 mila proteine, quasi il doppio delle strutture di proteine a noi note che sono il risultato di 60 anni di ricerca.

Indice degli argomenti

Deepmind predice la struttura delle proteine, perché è importante

Può sembrare un dettaglio da addetti ai lavori ma in realtà è un’evento che Ewan Birney (Twitter @ewanbirney), il noto bioinformatico che dirige l’EBI, ha equiparato alla pubblicazione del genoma umano che ci ha introdotto nell’ultimo ventennio nell’era della genomica. Per comprendere origini e implicazioni di quanto è successo occorre fare un passo indietro e rispolverare qualche nozione fondamentale di biologia.

Cosa sono le proteine e a cosa servono

Le proteine sono microscopiche macchine molecolari responsabili di gran parte delle attività che si svolgono all’interno delle nostre cellule. Sono prodotte grazie all’informazione contenuta nei nostri geni a partire da un set di 20 aminoacidi diversi ordinati in catene lineari di lunghezza variabile. Ogni aminoacido è caratterizzato da una parte comune che forma la catena lineare, e da un parte variabile che determina la forma tridimensionale che la proteina prenderà ripiegandosi una volta prodotta all’interno di una cellula. La metafora più calzante è quella di foglio che si trasforma in origami sempre diversi a seconda di come viene ripiegato.

La forma che la proteina assume è cruciale per determinarne la funzione (positiva o negativa per il corpo umano), sia essa l’emoglobina che veicola l’ossigeno a nostri tessuti o la proteina Spike del virus SARS-CoV2, che, mutando in molteplici varianti, sta attualmente giocando a braccio di ferro con i nostri sforzi di contenere il contagio covid.

La comprensione della forma di una proteina è il viatico per immaginare come contrastare proteine tossiche, non solo quelle dei un virus, ma anche quelle prodotte da una cellula tumorale o che si accumulano nei neuroni di un anziano afflitto da Alzheimer.

Un problema da risolvere anche con l’AI

Paradossalmente, pur conoscendo da anni la forma dei singoli aminoacidi e il modo in cui si legano a formare catene proteiche, non è un compito affatto facile desumere il modo in cui la catena si può ripiegare (fold) per costruire l’origami che corrisponde alla struttura finale.

Manualmente, un ricercatore può impiegare tutti gli anni del proprio dottorato per ricostruire il folding di una sola proteina.

Questo perché le proteine possono essere formate da catene che vanno da poche decine a migliaia di aminoacidi, arrangiati un combinazioni diverse, tali per cui si stima che ogni organismo possa produrre dalla decina al centinaio di migliaia di proteine diverse. Data questa complessità, predire la struttura di una proteina pur conoscendo la sequenza di aminoacidi che la compone si è rivelato un compito immane. Anche sapendo gli spazi che un aminoacido può occupare rispetto ai suoi vicini è le leggi chimico-fisiche che governano il ripiegamento. Infatti, per determinare la struttura delle proteine si sono sviluppati negli anni metodi fisici quali la cristallografia a raggi X o la crio-microscopia elettronica.

Queste tecniche hanno faticosamente prodotto una fotografia di quasi duecentomila proteine che sono state analizzate in più di mezzo secolo di esperimenti. Ognuno di questi esperimenti necessita di anni di lavoro ed è limitato dal raggiungimento di condizioni sperimentali che favoriscano la determinazione della struttura

. Da qualche giorno AlphaFold2, l’algoritmo di DeepMind predice la struttura delle proteine con circa il 90% di accuratezza. Lo fa – in stile Google – con un click, precisamente qui. I biologi di gran parte del mondo, non solo quelli che si occupano di strutture delle proteine, si stanno divertendo come bambini a vedere la forma delle proteine di loro interesse, chi stupefatto che la predizione ricalchi effettivamente l’esperimento non ancora pubblicato, chi scettico perchè AlphaFold2 non sembra averci visto bene.

AlphaFold 2, i vantaggi medici dall’intelligenza artificiale che rivoluziona lo studio delle proteine

La ricerca Deepmind sulle proteine

Come hanno lavorato i ricercatori DeepMind per raggiungere un obbiettivo che per più di 50 anni è stato il sacro Graal della biologia strutturale? Più o meno dallo stesso punto di anni fa quando gli algoritmi “nonni” di AlphaFold2, hanno preso a battere i più bravi giocatori di scacchi al mondo, fino ad arrivare ad un presente dove nessun umano si sognerebbe di battere un computer a scacchi. Sono partiti definendo un set di obbiettivi per l’intelligenza artificiale, con una chiara idea di un successo o di una sconfitta.

Il successo era predire correttamente la struttura delle proteine già determinate sperimentalmente, da anni presenti in una banca dati open access chiamata PDB (Protein Data Bank consultabile da https://www.rcsb.org/). Dopodiché hanno permesso all’algoritmo di autoevolversi avendo accesso a tutti i dati di PDB e a tutti i dati di milioni di proteine di cui si conosce la sequenza. Questo processo iterativo, oggi alla base di molta della moderna AI, ha prodotto la magia. Il termine magia qui non è scelto a caso, ma piuttosto sottolinea il fatto che non sia del tutto chiaro ai ricercatori di DeepMind come l’algoritmo proceda per generare le predizioni. Si sa è che usa solo la conoscenza a cui gli si è dato accesso. E’ cieco per esempio a parti delle proteine che non derivano dalla catena aminoacidica, come per esempio quelle che contengono ioni o co-fattori necessari al funzionamento di una particolare proteina.

Gli stessi ricercatori di DeepMind hanno presentato mesi fa lo studio che valida l’efficacia dell’algoritmo, che è stato infine pubblicato pochi giorni fa su Nature. Ora, insieme alla comunità scientifica, stanno imparando come l’algoritmo raggiunga delle predizioni cosi accurate, nella speranza di derivare principi utili per comprendere come le proteine si ripieghino durante la loro formazione. Nonostante l’accuratezza, neanche AlphaFold2 è perfetto. Funziona molto bene per parti della struttura delle proteine che sono molto strutturate, mentre non è accurato laddove una parte di particolare proteina sia estesa, molto flessibile o non particolarmente strutturata.

Le implicazioni future

Il rilascio di AlphaFold2 e del database per utilizzarlo sviluppato da EBI, come è successo per il genoma umano, non è però un punto di arrivo ma piuttosto un punto di partenza. Si cercherà di migliorare la capacità di predire le parti “difficili” di una proteina e di integrare la banca con sempre più predizioni, per ora limitate alle proteine umane e dei sistemi genetici modello, ovvero gli organismi che studiamo più frequentemente in laboratorio.

I limiti ora sono più nella nostra immaginazione di come usare l’algoritmo. Esistono per esempio varianti di sequenze di proteine che sono dovute alla naturale diversità tra gli individui (i polimorfismi) o che sono dovute a malattie come nel caso dei difetti congeniti o dei tumori. Come queste varianti alterino la forma di una proteina è ancora in gran parte oscuro ma molto importante per determinare la funzione residua di una proteina o la suscettibilità ad un farmaco di un malato.

Potranno i nipoti di AlphaFold2 aiutare a predire tutto ciò e chissà quant’altro? Predirà delle strutture che non sono state ancora osservate sperimentalmente? E’ difficile dirlo, ma di certo è chiaro che questi moderni oracoli ci permetteranno di progredire nella nostra conoscenza dei viventi.

Infine, la vicenda di AlphaFold2 marca un nuovo modello alla base di una scoperta. Come in passato, i successi del gruppo di DeepMind, si basano sul lavoro di biologia di base fatto da precedenti generazioni di ricercatori, sostenuti dalle nostre tasse e da una buona dose di mecenatismo. Ma anche da anni di investimenti immani nello sviluppo, a scopi principalmente commerciali, di AI. Chiaramente, per vedere oltre lo steccato anche AlphaFold2 ha dovuto sedersi sulle spalle di molti giganti, pubblici e privati, che lo hanno preceduto.

Non è chiaro perché Alphabet, il conglomerato che raggruppa Google e Deepmind, abbia voluto investire parecchie risorse nella risoluzione di un quesito che, seppur epocale, è solo uno tra le molte grandi sfide della biologia moderna. E’ chiarissimo quanto minimo sia stato l’investimento, rispetto a quelli fatti a scopi commerciali, soprattutto in luce dei potenziali ritorni futuri.

Rimane sicuramente importantissimo che EBI, che fa parte del network di laboratori EMBL (European Molecular Biology Laboratory) finanziati da molti stati europei, abbia insistito che le predizioni fossero tutte ad accesso libero (open access).

Cosi ogni ricercatore potrà farsi una sua idea e DeepMind potrà usarla per migliorare ulteriormente gli algoritmi. Solo così la conoscenza generata sarà veramente un patrimonio dell’umanità. Senza distrarsi troppo a meravigliarsi di come un prodotto dell’uomo ne superi l’intuizione e immagini un mondo che sempre più corrisponde al reale.

Che sia un nuovo paradigma per accelerare le conoscenze in un epoca di poche e instabili risorse dedicate al progresso?