La diagnosi delle malattie rare segue spesso un percorso simile, con famiglie che vagano per anni da un ospedale all’altro, facendo esami su esami e ottenendo diagnosi ipotetiche che si smentiscono a vicenda. Nel frattempo, la malattia progredisce, e quello che manca non è la tecnologia per leggere il genoma, ma la capacità di interpretarlo.
Proprio da qui nasce l’interesse per popEVE, il modello di intelligenza artificiale descritto in dettaglio su Nature Genetics, sviluppato da un team di ricerca congiunto fra la Harvard Medical School e il Centre for Genomic Regulation di Barcellona. Non promette miracoli, ma tenta di trasformare una massa caotica di varianti genetiche in una mappa ordinata delle mutazioni davvero pericolose.
Indice degli argomenti
Malattie rare: un problema enorme, spesso invisibile
Le malattie rare sono tutt’altro che rare, se le si guarda nel loro insieme. Si stima che colpiscano decine o forse anche centinaia di milioni di persone nel mondo e che per molte di queste la diagnosi arrivi dopo cinque, sette anni o addirittura non arrivi mai.
Il paradosso è che oggi il sequenziamento del genoma è relativamente accessibile e un singolo paziente può essere studiato a livello di DNA con grande dettaglio. Il problema è che ogni individuo porta decine di migliaia di varianti e solo una piccola frazione ha un ruolo patologico. Per i clinici, il vero nodo è capire quali cambiamenti nella sequenza delle proteine siano davvero in grado di alterare il funzionamento cellulare in modo grave.
Come funziona popEVE per le malattie rare
PopEVE si inserisce esattamente in questo punto critico della catena diagnostica. È un modello di intelligenza artificiale che parte da un precursore, EVE, sviluppato nel 2021 per sfruttare i pattern evolutivi osservati in centinaia di migliaia di specie, e lo estende all’intero proteoma umano.
Invece di limitarsi a valutare una mutazione all’interno del singolo gene dove avviene, popEVE costruisce una scala comune di gravità che consente di confrontare il “peso patologico” delle varianti su geni diversi.
Le tre sorgenti di informazione usate dal modello
Per farlo combina tre sorgenti di informazione: le sequenze proteiche di specie lontane tra loro sull’albero della vita, che rivelano quanto certe posizioni siano conservate; un modello linguistico di proteine, addestrato sulle sequenze di amminoacidi; e i dati di popolazione umana, che mostrano quali varianti sono tollerate nei soggetti sani e quali invece sono rarissime o assenti.
Un punteggio continuo di severità, non una sentenza binaria
Il risultato è un punteggio di severità per ogni variante, non limitandosi a catalogarla come “patogena” o “benigna”, ma collocando ogni mutazione lungo uno spettro continuo che va dal probabile effetto nullo al potenziale letale.
Questo approccio ha due vantaggi pratici. Il primo è che aiuta a distinguere varianti che causano morte o gravi disabilità nell’infanzia da quelle associate a forme meno severe che si manifestano in età adulta, un’informazione cruciale per il counselling genetico.
Il secondo è che funziona anche quando mancano i dati dei genitori, cioè quando non è possibile stabilire direttamente se la mutazione sia de novo o ereditaria, una situazione frequente nei sistemi sanitari con risorse limitate.
Le prove su grandi coorti e il nodo dei bias
I test su grandi coorti di pazienti mostrano che popEVE è in grado di separare in modo netto i profili genetici dei controlli sani da quelli di bambini con gravi disturbi dello sviluppo, senza introdurre bias significativi tra diversi background ancestrali.
La prova di forza del modello arriva da un’enorme coorte di oltre 30.000 famiglie con figli affetti da disturbi dello sviluppo per i quali, nonostante il sequenziamento, non era stata trovata una causa genetica convincente. Applicando popEVE, i ricercatori sono riusciti a identificare la variante probabilmente responsabile in circa un terzo dei casi, un incremento importante rispetto agli approcci precedenti.
Scoperta di nuovi geni e riduzione dei falsi positivi
Ancora più impressionante è la capacità di scoperta: utilizzando un insieme di strategie statistiche, il modello ha individuato più di 400 geni associati ai disturbi dello sviluppo, recuperando quasi tutti quelli già noti in precedenza e proponendo 123 nuovi geni candidati, molti dei quali espressi nel cervello in via di sviluppo e inseriti in reti di interazione con proteine già implicate in malattie genetiche.
Nei test su dati reali di popolazione, popEVE sembra produrre meno falsi positivi, cioè varianti erroneamente classificate come patogene, pur mantenendo un’elevata capacità di ritrovare quelle davvero causali. Questo aspetto è tutt’altro che accademico: ogni etichetta di “probabile patogena” che non corrisponde alla realtà può generare ansia, esami inutili e decisioni cliniche inappropriate.
Un modello pensato anche per contesti con risorse limitate
Allo stesso tempo, il modello è stato progettato per essere relativamente efficiente dal punto di vista computazionale, in modo da poter girare anche su infrastrutture non particolarmente potenti. Ciò apre la porta all’uso in paesi a medio e basso reddito, dove l’accesso al sequenziamento si sta diffondendo, ma le risorse informatiche e specialistiche sono limitate.
Non a caso, il sistema è già stato sperimentato su casi clinici in Africa occidentale, contribuendo almeno in un caso alla diagnosi di una forma di atrofia muscolare in Senegal.
Dall’algoritmo ai database: come può entrare nel lavoro clinico
Dal punto di vista dei laboratori e dei clinici, popEVE non è un software “chiuso” che restituisce una sentenza opaca, ma un tassello in una infrastruttura più ampia. I punteggi di severità sono in corso di integrazione in grandi database pubblici come UniProt e ProtVar e il modello è accessibile attraverso un portale web, in modo che i genetisti possano interrogare rapidamente il profilo di una variante sconosciuta nel contesto di ciò che è già noto sulla proteina.
Questo non sostituisce l’interpretazione manuale, ma la rende più mirata. Invece di esaminare decine di varianti di significato incerto, il medico può concentrarsi sulle poche che il modello considera davvero critiche, corroborando poi il sospetto con dati clinici, immagini, studi funzionali e, quando possibile, osservazioni in altri pazienti.
Limiti, squilibri nei dati e rischio di fidarsi troppo dei numeri
Resta però fondamentale ricordare che si tratta di uno strumento di supporto, non di un oracolo. Ogni modello di intelligenza artificiale incorpora assunzioni, limiti nei dati di addestramento, incertezze statistiche.
PopEVE è stato progettato per ridurre al minimo il bias di popolazione, ma le banche dati genetiche globali sono ancora fortemente squilibrate a favore di individui di origine europea. Ciò significa che la performance in contesti diversi dovrà essere monitorata con attenzione, così come la tendenza umana a fidarsi troppo dei numeri quando sono presentati in forma elegante e colorata.
Le linee guida di buona pratica clinica richiedono che ogni predizione venga interpretata alla luce del quadro complessivo del paziente, e questo vale a maggior ragione per uno strumento che promette di riorganizzare la gerarchia delle varianti in un genoma.
L’IA come infrastruttura sanitaria: cosa racconta la storia di popEVE
C’è infine un aspetto culturale da non sottovalutare. PopEVE è uno dei primi esempi maturi di modello proteoma-wide che entra in corsia e la sua storia racconta il passaggio dall’IA come tecnologia di laboratorio, all’IA come infrastruttura del sistema sanitario.
La capacità di interpretare il genoma, più ancora di quella di leggerlo, sta diventando una risorsa strategica, con implicazioni per le politiche sanitarie, per l’organizzazione dei centri di riferimento, per la formazione dei medici e per la stessa industria farmaceutica.
Se i prossimi anni confermeranno le promesse di popEVE, l’“odissea diagnostica” di molte famiglie potrà accorciarsi in modo significativo. Non perché un algoritmo sostituisce il medico, ma perché rende più visibili, dentro il rumore del DNA, quei segnali deboli che finora la medicina umana faticava a cogliere.













