TRIBE v2 di Meta è uno di quei progetti che attirano attenzione per il titolo ancora prima che per il contenuto.
Un modello di intelligenza artificiale capace di prevedere come il cervello risponde a immagini, suoni e linguaggio sembra infatti appartenere, almeno in apparenza, alla retorica della “lettura della mente”.
Il contributo di Meta è però più interessante e, allo stesso tempo, più misurato. TRIBE v2 non legge pensieri individuali e non accede alla coscienza. Fa qualcosa di diverso e scientificamente più concreto. Prova a costruire un modello unificato del brain encoding, cioè della relazione tra stimoli complessi e risposta cerebrale misurata con fMRI.
Ecco il punto di partenza del paper di Meta: la neuroscienza cognitiva ha prodotto negli anni una grande quantità di modelli utili, ma spesso molto specializzati. Esistono pipeline per la visione, altre per il linguaggio, altre ancora per l’audizione, quasi sempre legate a dataset ristretti e a paradigmi sperimentali molto specifici.
TRIBE v2 prova a superare questa frammentazione. Gli autori lo presentano come un foundation model tri-modale, addestrato su oltre 1.100 ore di fMRI raccolte su 720 soggetti in otto dataset, con l’obiettivo di prevedere risposte cerebrali ad alta risoluzione in condizioni sia naturalistiche sia controllate.
Indice degli argomenti
Un cambio di scala per TRIBE v2 di Meta
La scala del progetto conta più del semplice dato impressionistico. Significa che il modello non è stato costruito su un solo compito o su una singola popolazione sperimentale, ma su una combinazione di studi “deep”, con pochi soggetti e molte ore per partecipante, e studi “wide”, con molti soggetti e tempi più brevi. È una distinzione importante, perché mette insieme precisione individuale e capacità di generalizzazione. In un campo in cui la raccolta di dati è costosa e il rumore sperimentale resta elevato, disporre di una base così ampia cambia davvero il perimetro del problema.
Nel paper la previsione avviene sia sulla superficie corticale fsaverage5, con 20.484 vertici, sia su 8.802 voxel distribuiti in otto regioni subcorticali. Questa scelta segnala un’ambizione diversa rispetto a molti modelli precedenti, spesso limitati a mappe più grossolane o a una sola famiglia di aree cerebrali. L’obiettivo non è soltanto ottenere una buona correlazione media, ma preservare più dettaglio anatomico e funzionale possibile.
Figura 1. Schema generale di TRIBE v2: acquisizione di segnali fMRI, estrazione di feature da video, audio e testo, quindi previsione delle risposte cerebrali.
Come funziona il modello Tribe V2
Sul piano tecnico TRIBE v2 combina tre famiglie di rappresentazioni. Per il testo usa Llama 3.2, per l’audio Wav2Vec-BERT 2.0 e per il video V-JEPA 2. Questi encoder restano congelati e forniscono embedding temporali che vengono allineati su una griglia comune, compressi e poi fusi in un Transformer con finestre di 100 secondi. A valle del modello interviene un subject block che tiene conto delle differenze individuali e che può essere adattato quando si passa a soggetti non visti in addestramento.
Questo punto va spiegato con cautela. Il bersaglio del modello non è l’attività neurale “pura”, ma il segnale BOLD della risonanza magnetica funzionale, cioè una misura indiretta legata a variazioni emodinamiche. Per questo parlare di lettura dei pensieri sarebbe improprio. Più correttamente, TRIBE v2 predice pattern di risposta cerebrale probabili a partire da stimoli video, sonori e linguistici. La differenza non è semantica. È ciò che separa un risultato serio di brain encoding da una semplificazione spettacolare ma fuorviante.
Leggere la mente con l’analisi del cervello: i filoni di ricerca
Da anni avanza la ricerca per migliorare la nostra capacità di leggere il pensiero che si genera nel cervello. Una missione utile per assistere nelle disabilità (strumenti per il recupero della comunicazione in persone con gravi paralisi), ma anche per migliorare la nostra comprensione di come funziona il cervello e quindi sviluppare terapie contro malattie neurodegenerative come l’Alzheimer o il Parkinson.
Una migliore comprensione del cervello umano può inoltre andare di pari passo con lo sviluppo di migliori sistemi di AI, com’è stato in passato, in un circolo virtuoso (gli stessi nuovi sistemi AI ci possono aiutare a comprendere meglio il cervello umano).
Il valore reale non sta nell’idea spettacolare di “leggere la mente”, ma nella possibilità di costruire mappe più precise del rapporto tra cervello, percezione e linguaggio.
Un primo filone di ricerca è quello della decodifica semantica del linguaggio. Un passaggio fondativo è il lavoro di Mitchell del 2008, che mostrava come prevedere pattern fMRI associati al significato di nomi concreti. Nel 2018 Pereira e colleghi hanno alzato l’asticella con un “universal decoder of linguistic meaning”, pensato per inferire significati di parole, frasi e periodi da pattern cerebrali usando spazi semantici costruiti su grandi corpora. Questo è il retroterra teorico di molti lavori successivi.
Il salto più noto, sul lato non invasivo, è arrivato con il gruppo di Alexander Huth all’Università del Texas: nel 2023 Tang e colleghi hanno pubblicato un decoder fMRI capace di ricostruire sequenze linguistiche continue che recuperano il significato di parlato ascoltato, parlato immaginato e perfino video muti, purché il soggetto collabori e il sistema sia addestrato su di lui. Nello stesso anno Défossez e colleghi hanno mostrato che anche MEG/EEG possono essere usati per decodificare rappresentazioni auto-supervisionate del parlato percepito in una coorte di 175 volontari. Nel 2025 il quadro si è ampliato con lavori come Towards decoding individual words from non-invasive brain recordings, che punta a decodificare parole individuali anche assenti dal training, e BrainLLM / Generative language reconstruction from brain recordings, che collega direttamente la rappresentazione decodificata a un LLM per generare linguaggio continuo.
Un secondo filone è la ricostruzione di immagini e video visti o immaginati. Qui il classico è Nishimoto del 2011, che ricostruiva filmati naturali a partire da attività fMRI evocata da video. Nel 2017 Horikawa e Kamitani hanno mostrato la decodifica di oggetti visti e immaginati usando feature gerarchiche ispirate alla visione artificiale. Nel 2019 Shen e colleghi hanno spinto la deep image reconstruction sia per contenuti percepiti sia immaginati. Dal 2023 in poi sono entrati in scena i modelli generativi moderni: Takagi e Nishimoto hanno usato latent diffusion / Stable Diffusion per ricostruzioni ad alta fedeltà semantica, mentre MindEye2 nel 2024 ha cercato di ridurre il problema pratico del fabbisogno enorme di dati, mostrando ricostruzioni fMRI-to-image con pretraining multi-soggetto e fine-tuning su circa un’ora di dati del nuovo soggetto.
Il terzo grande filone è quello invasivo, orientato soprattutto alla comunicazione assistita più che alla “telepatia”. Già nel 2012 Pasley e colleghi ricostruivano aspetti del parlato dall’attività della corteccia uditiva. Nel 2022 Proix e colleghi hanno mostrato che il parlato immaginato può essere decodificato da feature intracraniche a bassa e alta frequenza. Sempre nel 2022 il gruppo UCSF/Chang ha presentato una speech neuroprosthesis per spelling generalizzabile; nel 2023 Willett e colleghi hanno riportato una BCI capace di decodificare frasi libere da grande vocabolario a circa 62 parole al minuto; e nello stesso anno Metzger e colleghi hanno mostrato una neuroprotesi multimodale con testo, sintesi vocale e avatar facciale.
Negli sviluppi più recenti, la tendenza è passata dalla semplice decodifica offline alla voce sintetizzata in tempo reale. Nel 2024 Angrick e colleghi hanno riportato la sintesi online di parole intelligibili in una persona con SLA tramite impianto cronico. Nel 2025 sono arrivati due lavori molto citati: A streaming brain-to-voice neuroprosthesis to restore naturalistic communication, che punta a restituire una comunicazione più naturale e continua, e An instantaneous voice-synthesis neuroprosthesis, che mostra sintesi vocale quasi immediata da tentativi di eloquio mimato.
Accanto alla decodifica, oggi c’è anche un filone di foundation models del cervello. Qui rientra TRIBE v2 di Meta, descritto come foundation model tri-modale per prevedere attività fMRI umana da video, audio e linguaggio. Un lavoro affine, ma su topo, è il foundation model of neural activity pubblicato su Nature nel 2025, che generalizza a nuovi topi e a nuovi tipi di stimolo. Questi lavori non sono “mind reading” in senso stretto: sono soprattutto modelli di predizione della risposta neurale e di simulazione in silico.
I risultati di TRIBE v2 nei test comparativi
La parte più robusta del lavoro emerge nei confronti con le baseline. Gli autori non scelgono un avversario debole, ma una versione ottimizzata del classico modello FIR, alimentata con le stesse embedding multimodali usate da TRIBE v2. Il vantaggio del modello di Meta, quindi, non dipende dal fatto di partire da feature migliori, ma dall’architettura di integrazione. Nei dataset considerati il sistema supera in modo sistematico la baseline lineare e mostra una crescita dell’accuratezza di tipo log-lineare al crescere dei dati, senza un plateau evidente.
Ancora più interessante è la capacità di generalizzare a nuovi soggetti. Nei quattro dataset di test usati per la valutazione out-of-distribution, TRIBE v2 riesce a produrre in zero-shot una stima della risposta media di gruppo. Nel caso del dataset HCP, il paper riporta un valore di Rgroup vicino a 0,4, circa il doppio rispetto alla group-predictivity del soggetto mediano. È un dato che non va enfatizzato oltre misura, ma che resta notevole. Significa che, in certe condizioni, il modello approssima la risposta collettiva meglio di quanto faccia la registrazione della maggior parte dei singoli partecipanti. Quando poi viene raffinato con una piccola quota di dati individuali, il fine-tuning migliora ulteriormente le prestazioni, con vantaggi di due-quattro volte rispetto a un encoder lineare addestrato da zero sullo stesso soggetto.
Figura 2. Generalizzazione zero-shot a nuovi soggetti e miglioramenti dopo fine-tuning con poca quantità di dati individuali. Fonte: paper TRIBE v2.
TRIBE v2 come strumento per la neuroscienza in silico
Il salto più interessante, però, arriva quando TRIBE v2 smette di essere solo un predittore e diventa uno strumento per fare esperimenti in silico. Gli autori lo testano su protocolli dell’Individual Brain Charting e mostrano che il modello recupera risultati classici della neuroscienza visiva e del linguaggio. Nei localizer visivi riemergono aree ben note come la fusiform face area per i volti, la parahippocampal place area per i luoghi, la extrastriate body area per i corpi e la visual word-form area per i caratteri scritti. Nei task linguistici il modello riproduce andamenti compatibili con ciò che la letteratura si aspetta, dalle risposte a frasi brevi fino alla lateralizzazione sinistra nei contrasti sintattici e semantici.
Qui sta forse il valore più promettente del progetto. La fMRI resta una tecnologia lenta e costosa. Ogni nuovo protocollo richiede tempo macchina, soggetti, pre-processing e analisi. Un modello abbastanza affidabile da simulare in anticipo gli esiti plausibili di un paradigma non sostituisce l’esperimento vero, ma può aiutare a progettare meglio le ipotesi, a selezionare condizioni più informative e a ridurre una parte della sperimentazione esplorativa meno produttiva.
Multimodalità e interpretabilità in TRIBE v2
Il paper non si limita a riportare performance aggregate. Prova anche a capire che cosa il modello abbia imparato. Attraverso un’analisi ICA dello spazio latente finale, gli autori mostrano componenti che ricordano reti funzionali note, come il sistema visivo, la corteccia uditiva primaria, la language network, l’area del motion processing e la default mode network. Non è una dimostrazione definitiva di interpretabilità, ma è un segnale importante. Suggerisce che il modello non si limita a interpolare correlazioni locali e che una parte della sua struttura interna conserva un legame leggibile con l’organizzazione funzionale della corteccia.
C’è poi il tema della multimodalità, che è centrale. Quando TRIBE v2 viene addestrato su una sola modalità, video, audio e testo spiegano porzioni diverse del cervello. Il video domina nelle regioni visive, l’audio vicino alle cortecce uditive, il testo in una parte delle aree linguistiche e prefrontali. Il guadagno del modello integrato emerge soprattutto nelle aree associative. Nel paper i benefici più forti rispetto al miglior modello unimodale compaiono attorno alla giunzione temporo-parieto-occipitale, con incrementi che arrivano fino al 50 per cento. In altre parole, proprio dove il cervello combina segnali differenti per costruire contesto e significato, la multimodalità smette di essere un ornamento ingegneristico e diventa una necessità descrittiva.
Figura 3. La multimodalità migliora soprattutto le aree associative, con guadagni marcati nelle zone di integrazione tra video, audio e testo. Fonte: paper TRIBE v2.
Che cosa mostra la demo pubblica di TRIBE v2
La demo resa disponibile da Meta è utile perché traduce questi risultati in una forma più intuitiva. La pagina presenta TRIBE v2 come un modello capace di prevedere risposte neurali a vista, suono e linguaggio e collega la visualizzazione al paper e al codice. Non sostituisce la lettura dell’articolo scientifico, ma aiuta a comprendere il tipo di output che il sistema produce, cioè mappe e serie temporali di risposta cerebrale predetta a partire da segmenti multimediali.
Dal punto di vista della comunicazione scientifica è una scelta sensata. Su temi così esposti a semplificazioni, mostrare esattamente che cosa il modello predice e in quale forma riduce il rischio di equivoci. La demo non racconta una mente “trasparente”. Mostra un sistema di previsione su segnali neurali indiretti e lo colloca nel suo contesto tecnico. È una differenza importante, soprattutto nel rapporto con il pubblico non specialistico.
Limiti e questioni etiche intorno a TRIBE v2
L’aspetto più serio, a questo punto, è non scambiare un progresso significativo con una teoria completa della mente. I limiti del progetto sono espliciti. La fMRI non cattura la dinamica millisecondo per millisecondo dei neuroni. Le modalità considerate sono tre e lasciano fuori una parte dell’esperienza corporea, dall’olfatto alla somatosensazione. Inoltre il modello tratta il cervello soprattutto come osservatore di stimoli, non come agente che decide, agisce e modifica l’ambiente. Mancano anche, almeno per ora, una vera dimensione neuroevolutiva e una copertura clinica abbastanza ampia da sostenere conclusioni generali sulla popolazione umana.
A questi limiti scientifici si sommano quelli etici. Man mano che i modelli diventano più efficaci nel predire pattern cerebrali, cresce l’urgenza di definire meglio che cosa significhi proteggere i neurodati. La questione non riguarda solo la privacy in senso tradizionale, ma anche l’autonomia, il consenso informato e il rischio di sovrainterpretazione commerciale o mediatica. Proprio per questo TRIBE v2 va preso sul serio senza mitizzarlo. È un progetto importante perché rende più concreta l’idea di una neuroscienza in silico. Ma resta un modello di encoding, non una scorciatoia per comprendere integralmente la mente umana.
Perché TRIBE v2 merita ancora attenzione
La ragione per cui TRIBE v2 merita attenzione è semplice. Mostra che i foundation model stanno uscendo dal solo perimetro generativo e diventano strumenti per descrivere sistemi complessi del mondo reale, incluso il cervello. Tema al centro anche della Physical AI, robotica che può cambiare l’industria.
Il lavoro di Meta non chiude la questione, anzi la apre. Fa vedere che una parte dell’organizzazione funzionale del cervello può essere modellata con più ampiezza, più dettaglio e più capacità di generalizzazione rispetto a pochi anni fa. E costringe, allo stesso tempo, a usare parole più precise. Non siamo davanti alla lettura della mente. Siamo davanti a un nuovo tipo di infrastruttura scientifica, ancora imperfetta, ma abbastanza matura da cambiare il modo in cui si progettano alcuni esperimenti e si formulano alcune ipotesi.
Leggere il cervello: cinque applicazioni in Sanità
Ci sono almeno cinque applicazioni utili in Sanità che derivano dalla ricerca sulla lettura del cervello.
Primo, ridare una voce a persone con paralisi grave o SLA: nel 2023 due studi su Nature hanno mostrato neuroprotesi che trasformano l’attività cerebrale legata al linguaggio in testo, voce sintetica e perfino controllo di un avatar; in uno dei casi il sistema ha raggiunto 62 parole al minuto, avvicinandosi molto più dei sistemi precedenti a una conversazione reale.
Secondo, aiutare pazienti coscienti ma impossibilitati a parlare con metodi non invasivi: il decoder semantico pubblicato su Nature Neuroscience nel 2023 ha ricostruito il significato di linguaggio ascoltato, immaginato e persino di video muti a partire da fMRI, mostrando una possibile strada per la comunicazione assistita senza impianti, anche se oggi richiede addestramento sul singolo soggetto e condizioni molto controllate.
Terzo, migliorare la riabilitazione dopo ictus: le revisioni e meta-analisi più recenti indicano che i sistemi BCI usati insieme alla fisioterapia possono migliorare il recupero motorio dell’arto superiore e, in alcuni studi, anche la qualità della vita quotidiana, soprattutto nella fase subacuta.
Quarto, capire se un paziente apparentemente non responsivo è in realtà cosciente: fMRI ed EEG possono rilevare forme di covert consciousness, cioè consapevolezza non visibile all’esame clinico standard. Questo è utile per diagnosi più accurate, prognosi e, in prospettiva, per aprire canali minimi di comunicazione nei disturbi della coscienza.
Quinto, pianificare meglio neurochirurgia ed epilessia surgery: la mappatura funzionale del linguaggio con fMRI è già usata per aiutare a preservare funzioni come parola e comprensione vicino alle aree eloquenti, e le raccomandazioni cliniche recenti sottolineano il suo valore nel guidare interventi e ridurre il rischio di danni post-operatori, anche se restano limiti metodologici.
Bibliografia
Meta AI Blog, “Introducing TRIBE v2: A Predictive Foundation Model Trained to Understand How the Human Brain Processes Complex Stimuli”
Meta AI Research, “A foundation model of vision, audition, and language for in-silico neuroscience”
Meta Demo, “TRIBE v2 – An AI Model of the Human Brain”
GitHub, facebookresearch/tribev2
Algonauts Project 2025 Challenge
Pinho et al., “Individual Brain Charting, a high-resolution fMRI dataset for cognitive mapping”
Van Essen et al., “The WU-Minn Human Connectome Project: An Overview”
Fedorenko, Ivanova e Regev, “The language network as a natural kind within the broader landscape of the human brain”
UNESCO, “Ethics of neurotechnology”













