La spatial transcriptomics ha trasformato il modo in cui i ricercatori osservano i tessuti biologici: non più come masse indifferenziate di segnali genetici, ma come mappe molecolari in cui ogni cellula occupa una posizione precisa e significativa.
Per capire quanto sia radicale questa svolta, è necessario ripercorrere il cammino della genomica dal sequenziamento bulk alle tecnologie di ultima generazione, fino all’ingresso dei modelli di intelligenza artificiale nella biologia dei sistemi.
Indice degli argomenti
Il sequenziamento bulk e i suoi limiti: quando la media nasconde la complessità
Per molti anni la biologia molecolare ha osservato l’attività dei geni con uno sguardo inevitabilmente sfocato. I metodi di sequenziamento dell’RNA sviluppati a partire dagli anni Novanta hanno permesso di misurare quali geni fossero attivi in un campione biologico, ma il prezzo di questa capacità è stato la perdita di dettaglio.
I tessuti venivano triturati, le cellule mescolate tra loro, e il risultato finale era una media statistica. Questa strategia, nota come sequenziamento “bulk”, ha rappresentato per lungo tempo lo standard della genomica funzionale. Ha consentito di capire quali programmi genetici caratterizzano un tessuto sano o malato, quali geni cambiano attività durante lo sviluppo o in risposta a uno stimolo.
Tuttavia, proprio come osservare una città solo attraverso i dati aggregati del traffico, il sequenziamento bulk raccontava poco di ciò che accadeva nelle singole strade. Con il passare degli anni è diventato sempre più evidente che questa visione media nascondeva una realtà molto più complessa. I tessuti non sono masse uniformi, ma ecosistemi cellulari composti da popolazioni diverse che cooperano, competono e comunicano tra loro.
Nel sistema immunitario, ad esempio, cellule apparentemente simili possono svolgere funzioni radicalmente diverse. Nei tumori, alcune cellule guidano la crescita della massa mentre altre contribuiscono alla resistenza alle terapie. Quando il sequenziamento bulk mescola tutte queste cellule, le differenze si diluiscono. Un gene può sembrare moderatamente espresso semplicemente perché è molto attivo in una piccola frazione di cellule e silente nelle altre.
La rivoluzione del single-cell RNA sequencing: ascoltare le voci delle singole cellule
L’avvento del single-cell RNA sequencing ha profondamente cambiato questo scenario. A partire dalla metà degli anni 2010, nuove tecnologie microfluidiche e protocolli di amplificazione hanno reso possibile isolare e sequenziare l’RNA di migliaia, poi di milioni, di cellule individuali.
Per la prima volta i ricercatori hanno potuto osservare direttamente la varietà interna dei tessuti. Ogni cellula diventava un punto in uno spazio ad alta dimensionalità definito dall’espressione dei suoi geni. Analizzando questi dati con strumenti statistici e computazionali, era possibile identificare nuovi tipi cellulari, ricostruire le traiettorie di differenziamento e scoprire stati intermedi prima invisibili.
La rivoluzione del single-cell non è stata soltanto tecnologica, ma anche concettuale. I biologi hanno iniziato a pensare ai tessuti come a paesaggi cellulari complessi, in cui ogni cellula rappresenta uno stato dinamico all’interno di un continuum. In molti casi si è visto che le categorie cellulari tradizionali erano semplificazioni eccessive. Cellule considerate identiche mostrano invece gradazioni di attività genica che riflettono ruoli funzionali diversi.
Questa nuova visione ha avuto ripercussioni profonde in campi come l’immunologia, la neurobiologia e la ricerca sul cancro.
Il limite del single-cell: l’informazione spaziale perduta
Eppure, anche il single-cell RNA sequencing presentava un limite fondamentale. Per ottenere le singole cellule, i tessuti devono essere dissociati, cioè separati fisicamente nelle loro componenti.
Durante questo processo si perde l’informazione spaziale e non sappiamo più dove si trovava ciascuna cellula nel tessuto originario. È un problema meno banale di quanto sembri. Le cellule non agiscono isolate, ma in relazione al loro contesto.
La posizione all’interno di un tessuto determina quali segnali chimici una cellula riceve, con quali vicini interagisce, e spesso anche quale funzione svolge.
Spatial transcriptomics: la cartografia molecolare dei tessuti
Negli ultimi anni la spatial transcriptomics è emersa come una risposta a questo limite. L’idea alla base è relativamente semplice, ma tecnicamente sofisticata. Consiste nel misurare l’espressione genica mantenendo intatta l’architettura del tessuto. In pratica, sezioni sottili di tessuto vengono depositate su superfici ricche di migliaia di punti microscopici, ciascuno dotato di un codice molecolare unico.
Quando l’RNA delle cellule viene catturato e sequenziato, questi codici consentono di ricostruire la posizione di origine di ciascun trascritto. Il risultato è una mappa in cui i livelli di espressione dei geni sono distribuiti nello spazio, come se si potesse osservare una cartografia molecolare del tessuto.
Con queste tecnologie, i ricercatori hanno iniziato a produrre veri e propri atlanti cellulari tridimensionali. Nel cervello, ad esempio, è possibile osservare come gruppi specifici di neuroni attivino programmi genetici diversi a seconda dello strato corticale in cui si trovano.
Nei tumori, la spatial transcriptomics ha rivelato regioni con profili molecolari distinti: zone in cui le cellule immunitarie penetrano e altre in cui vengono escluse, microambienti che favoriscono la crescita tumorale o la risposta alla terapia. Non si tratta più soltanto di sapere quali geni sono accesi o spenti, ma di capire dove avviene tutto questo.
Big data e intelligenza artificiale: i foundation models entrano in biologia
Questo salto qualitativo ha generato un’enorme quantità di dati. Ogni esperimento di spatial transcriptomics produce matrici gigantesche che combinano informazioni genetiche, coordinate spaziali e, spesso, immagini istologiche del tessuto. Analizzare questi dataset richiede strumenti computazionali sempre più sofisticati. Ed è a questo punto che, negli ultimi anni, entrano in scena nuovi protagonisti: i cosiddetti foundation models applicati alla biologia.
L’idea di fondo nasce dal successo dei modelli linguistici nell’intelligenza artificiale. I grandi modelli di linguaggio vengono addestrati su quantità immense di testo per imparare le regolarità statistiche che governano le parole e le frasi.
Senza ricevere istruzioni esplicite sulla grammatica o sul significato, riescono progressivamente a catturare le strutture profonde del linguaggio umano.
Alcuni ricercatori hanno iniziato a chiedersi se un approccio simile potesse essere applicato anche ai dati biologici. In un certo senso, l’espressione genica può essere considerata una forma di linguaggio. Ogni cellula “parla” attraverso la combinazione dei geni che esprime.
Alcuni geni tendono a comparire insieme, altri si escludono a vicenda. Alcuni programmi genetici emergono solo in determinati contesti cellulari. Proprio come le parole in una frase, i geni acquisiscono significato soprattutto in relazione agli altri.
Come funzionano i foundation models per la genomica
I foundation models per la genomica cercano di sfruttare questa analogia. Vengono addestrati su milioni di profili di espressione genica provenienti da esperimenti di single-cell e spatial transcriptomics.
Durante l’addestramento, il modello impara a prevedere parti mancanti dei dati o a ricostruire pattern di espressione a partire da contesti incompleti. Nel farlo, costruisce rappresentazioni interne che catturano le relazioni tra i geni e gli stati cellulari. Il risultato è una sorta di “spazio semantico” delle cellule. In questo spazio, cellule con funzioni simili tendono a collocarsi vicine tra loro, anche se provengono da tessuti o esperimenti diversi. I modelli riescono a riconoscere pattern ricorrenti, identificare stati cellulari rari e, talvolta, persino prevedere come una cellula potrebbe rispondere a una perturbazione genetica o farmacologica.
Spazio e identità cellulare: il potenziale dei modelli applicati alla spatial transcriptomics
Quando questi modelli vengono applicati alla spatial transcriptomics, il potenziale diventa ancora più interessante. L’informazione spaziale permette infatti di integrare il linguaggio delle cellule con la loro geografia. I modelli possono imparare non solo quali geni sono coespressi, ma anche come determinati programmi genetici si distribuiscono nello spazio di un tessuto. In altre parole, possono iniziare a comprendere la relazione tra l’identità cellulare e il contesto microambientale.
Questo approccio sta aprendo nuove prospettive nella biologia dei sistemi e nella medicina. In oncologia, ad esempio, i foundation models potrebbero aiutare a identificare configurazioni spaziali di cellule tumorali e immunitarie associate a prognosi diverse. Nel cervello, potrebbero contribuire a ricostruire mappe funzionali sempre più dettagliate dei circuiti neuronali.
E, più in generale, potrebbero diventare strumenti per integrare dati provenienti da diverse tecnologie, creando modelli unificati del comportamento cellulare.
Sfide aperte e prospettive future: verso una lettura molecolare dei tessuti
Naturalmente siamo ancora nelle fasi iniziali di questa trasformazione. Addestrare modelli di grandi dimensioni su dati biologici richiede infrastrutture computazionali notevoli e dataset ben curati. Inoltre, a differenza del linguaggio umano, i sistemi biologici sono influenzati da molte variabili difficili da controllare, come lo stato fisiologico dell’organismo o le condizioni sperimentali. Interpretare ciò che un modello ha effettivamente imparato resta una sfida aperta.
Nonostante queste difficoltà, il parallelismo tra linguaggio e biologia sta guadagnando terreno. Sempre più ricercatori parlano di “linguaggio delle cellule” per descrivere l’insieme di regole implicite che governano l’espressione genica.
Se il sequenziamento bulk ci ha dato la prima fotografia grossolana di questo linguaggio, e il single-cell ci ha permesso di ascoltare le voci individuali, la spatial transcriptomics sta iniziando a mostrarci il contesto in cui queste voci si intrecciano. I foundation models rappresentano forse il tentativo più ambizioso di decifrare su larga scala questa conversazione biologica.
Addestrati su quantità di dati che fino a pochi anni fa sarebbero state impensabili, questi modelli cercano di cogliere le regole profonde che organizzano la vita cellulare. È una prospettiva ancora in costruzione, ma suggerisce un futuro in cui comprendere un tessuto potrebbe assomigliare sempre più alla lettura di una complessa narrazione molecolare, in cui geni, cellule e spazio collaborano a scrivere la storia di un organismo.













