intelligenza artificiale

TRIBE v2, l’AI Meta che mappa il cervello umano



Indirizzo copiato

TRIBE v2 prova a prevedere come il cervello risponde a video, audio e linguaggio, ma senza “leggere la mente”. Il progetto di Meta amplia scala e precisione del brain encoding e apre nuovi scenari per la neuroscienza in silico

Pubblicato il 27 mar 2026

Alessandro Longo

Direttore agendadigitale.eu

Giovanni Masi

Computer Science Engineer



meta tribe v2
AI Questions Icon
Chiedi all'AI
Riassumi questo articolo
Approfondisci con altre fonti

TRIBE v2 di Meta è uno di quei progetti che attirano attenzione per il titolo ancora prima che per il contenuto.

Un modello di intelligenza artificiale capace di prevedere come il cervello risponde a immagini, suoni e linguaggio sembra infatti appartenere, almeno in apparenza, alla retorica della “lettura della mente”.

Il contributo di Meta è però più interessante e, allo stesso tempo, più misurato. TRIBE v2 non legge pensieri individuali e non accede alla coscienza. Fa qualcosa di diverso e scientificamente più concreto. Prova a costruire un modello unificato del brain encoding, cioè della relazione tra stimoli complessi e risposta cerebrale misurata con fMRI.

Ecco il punto di partenza del paper di Meta: la neuroscienza cognitiva ha prodotto negli anni una grande quantità di modelli utili, ma spesso molto specializzati. Esistono pipeline per la visione, altre per il linguaggio, altre ancora per l’audizione, quasi sempre legate a dataset ristretti e a paradigmi sperimentali molto specifici.

TRIBE v2 prova a superare questa frammentazione. Gli autori lo presentano come un foundation model tri-modale, addestrato su oltre 1.100 ore di fMRI raccolte su 720 soggetti in otto dataset, con l’obiettivo di prevedere risposte cerebrali ad alta risoluzione in condizioni sia naturalistiche sia controllate.

Un cambio di scala per TRIBE v2 di Meta

La scala del progetto conta più del semplice dato impressionistico. Significa che il modello non è stato costruito su un solo compito o su una singola popolazione sperimentale, ma su una combinazione di studi “deep”, con pochi soggetti e molte ore per partecipante, e studi “wide”, con molti soggetti e tempi più brevi. È una distinzione importante, perché mette insieme precisione individuale e capacità di generalizzazione. In un campo in cui la raccolta di dati è costosa e il rumore sperimentale resta elevato, disporre di una base così ampia cambia davvero il perimetro del problema.

Nel paper la previsione avviene sia sulla superficie corticale fsaverage5, con 20.484 vertici, sia su 8.802 voxel distribuiti in otto regioni subcorticali. Questa scelta segnala un’ambizione diversa rispetto a molti modelli precedenti, spesso limitati a mappe più grossolane o a una sola famiglia di aree cerebrali. L’obiettivo non è soltanto ottenere una buona correlazione media, ma preservare più dettaglio anatomico e funzionale possibile.

Figura 1. Schema generale di TRIBE v2: acquisizione di segnali fMRI, estrazione di feature da video, audio e testo, quindi previsione delle risposte cerebrali.

Come funziona il modello Tribe V2

Sul piano tecnico TRIBE v2 combina tre famiglie di rappresentazioni. Per il testo usa Llama 3.2, per l’audio Wav2Vec-BERT 2.0 e per il video V-JEPA 2. Questi encoder restano congelati e forniscono embedding temporali che vengono allineati su una griglia comune, compressi e poi fusi in un Transformer con finestre di 100 secondi. A valle del modello interviene un subject block che tiene conto delle differenze individuali e che può essere adattato quando si passa a soggetti non visti in addestramento.

Questo punto va spiegato con cautela. Il bersaglio del modello non è l’attività neurale “pura”, ma il segnale BOLD della risonanza magnetica funzionale, cioè una misura indiretta legata a variazioni emodinamiche. Per questo parlare di lettura dei pensieri sarebbe improprio. Più correttamente, TRIBE v2 predice pattern di risposta cerebrale probabili a partire da stimoli video, sonori e linguistici. La differenza non è semantica. È ciò che separa un risultato serio di brain encoding da una semplificazione spettacolare ma fuorviante.

I risultati di TRIBE v2 nei test comparativi

La parte più robusta del lavoro emerge nei confronti con le baseline. Gli autori non scelgono un avversario debole, ma una versione ottimizzata del classico modello FIR, alimentata con le stesse embedding multimodali usate da TRIBE v2. Il vantaggio del modello di Meta, quindi, non dipende dal fatto di partire da feature migliori, ma dall’architettura di integrazione. Nei dataset considerati il sistema supera in modo sistematico la baseline lineare e mostra una crescita dell’accuratezza di tipo log-lineare al crescere dei dati, senza un plateau evidente.

Ancora più interessante è la capacità di generalizzare a nuovi soggetti. Nei quattro dataset di test usati per la valutazione out-of-distribution, TRIBE v2 riesce a produrre in zero-shot una stima della risposta media di gruppo. Nel caso del dataset HCP, il paper riporta un valore di Rgroup vicino a 0,4, circa il doppio rispetto alla group-predictivity del soggetto mediano. È un dato che non va enfatizzato oltre misura, ma che resta notevole. Significa che, in certe condizioni, il modello approssima la risposta collettiva meglio di quanto faccia la registrazione della maggior parte dei singoli partecipanti. Quando poi viene raffinato con una piccola quota di dati individuali, il fine-tuning migliora ulteriormente le prestazioni, con vantaggi di due-quattro volte rispetto a un encoder lineare addestrato da zero sullo stesso soggetto.

Figura 2. Generalizzazione zero-shot a nuovi soggetti e miglioramenti dopo fine-tuning con poca quantità di dati individuali. Fonte: paper TRIBE v2.

TRIBE v2 come strumento per la neuroscienza in silico

Il salto più interessante, però, arriva quando TRIBE v2 smette di essere solo un predittore e diventa uno strumento per fare esperimenti in silico. Gli autori lo testano su protocolli dell’Individual Brain Charting e mostrano che il modello recupera risultati classici della neuroscienza visiva e del linguaggio. Nei localizer visivi riemergono aree ben note come la fusiform face area per i volti, la parahippocampal place area per i luoghi, la extrastriate body area per i corpi e la visual word-form area per i caratteri scritti. Nei task linguistici il modello riproduce andamenti compatibili con ciò che la letteratura si aspetta, dalle risposte a frasi brevi fino alla lateralizzazione sinistra nei contrasti sintattici e semantici.

Qui sta forse il valore più promettente del progetto. La fMRI resta una tecnologia lenta e costosa. Ogni nuovo protocollo richiede tempo macchina, soggetti, pre-processing e analisi. Un modello abbastanza affidabile da simulare in anticipo gli esiti plausibili di un paradigma non sostituisce l’esperimento vero, ma può aiutare a progettare meglio le ipotesi, a selezionare condizioni più informative e a ridurre una parte della sperimentazione esplorativa meno produttiva.

Multimodalità e interpretabilità in TRIBE v2

Il paper non si limita a riportare performance aggregate. Prova anche a capire che cosa il modello abbia imparato. Attraverso un’analisi ICA dello spazio latente finale, gli autori mostrano componenti che ricordano reti funzionali note, come il sistema visivo, la corteccia uditiva primaria, la language network, l’area del motion processing e la default mode network. Non è una dimostrazione definitiva di interpretabilità, ma è un segnale importante. Suggerisce che il modello non si limita a interpolare correlazioni locali e che una parte della sua struttura interna conserva un legame leggibile con l’organizzazione funzionale della corteccia.

C’è poi il tema della multimodalità, che è centrale. Quando TRIBE v2 viene addestrato su una sola modalità, video, audio e testo spiegano porzioni diverse del cervello. Il video domina nelle regioni visive, l’audio vicino alle cortecce uditive, il testo in una parte delle aree linguistiche e prefrontali. Il guadagno del modello integrato emerge soprattutto nelle aree associative. Nel paper i benefici più forti rispetto al miglior modello unimodale compaiono attorno alla giunzione temporo-parieto-occipitale, con incrementi che arrivano fino al 50 per cento. In altre parole, proprio dove il cervello combina segnali differenti per costruire contesto e significato, la multimodalità smette di essere un ornamento ingegneristico e diventa una necessità descrittiva.

Figura 3. La multimodalità migliora soprattutto le aree associative, con guadagni marcati nelle zone di integrazione tra video, audio e testo. Fonte: paper TRIBE v2.

Che cosa mostra la demo pubblica di TRIBE v2

La demo resa disponibile da Meta è utile perché traduce questi risultati in una forma più intuitiva. La pagina presenta TRIBE v2 come un modello capace di prevedere risposte neurali a vista, suono e linguaggio e collega la visualizzazione al paper e al codice. Non sostituisce la lettura dell’articolo scientifico, ma aiuta a comprendere il tipo di output che il sistema produce, cioè mappe e serie temporali di risposta cerebrale predetta a partire da segmenti multimediali.

Dal punto di vista della comunicazione scientifica è una scelta sensata. Su temi così esposti a semplificazioni, mostrare esattamente che cosa il modello predice e in quale forma riduce il rischio di equivoci. La demo non racconta una mente “trasparente”. Mostra un sistema di previsione su segnali neurali indiretti e lo colloca nel suo contesto tecnico. È una differenza importante, soprattutto nel rapporto con il pubblico non specialistico.

Limiti e questioni etiche intorno a TRIBE v2

L’aspetto più serio, a questo punto, è non scambiare un progresso significativo con una teoria completa della mente. I limiti del progetto sono espliciti. La fMRI non cattura la dinamica millisecondo per millisecondo dei neuroni. Le modalità considerate sono tre e lasciano fuori una parte dell’esperienza corporea, dall’olfatto alla somatosensazione. Inoltre il modello tratta il cervello soprattutto come osservatore di stimoli, non come agente che decide, agisce e modifica l’ambiente. Mancano anche, almeno per ora, una vera dimensione neuroevolutiva e una copertura clinica abbastanza ampia da sostenere conclusioni generali sulla popolazione umana.

A questi limiti scientifici si sommano quelli etici. Man mano che i modelli diventano più efficaci nel predire pattern cerebrali, cresce l’urgenza di definire meglio che cosa significhi proteggere i neurodati. La questione non riguarda solo la privacy in senso tradizionale, ma anche l’autonomia, il consenso informato e il rischio di sovrainterpretazione commerciale o mediatica. Proprio per questo TRIBE v2 va preso sul serio senza mitizzarlo. È un progetto importante perché rende più concreta l’idea di una neuroscienza in silico. Ma resta un modello di encoding, non una scorciatoia per comprendere integralmente la mente umana.

Perché TRIBE v2 merita ancora attenzione

La ragione per cui TRIBE v2 merita attenzione è semplice. Mostra che i foundation model stanno uscendo dal solo perimetro generativo e diventano strumenti per descrivere sistemi complessi del mondo reale, incluso il cervello. Tema al centro anche della Physical AI, robotica che può cambiare l’industria.

Il lavoro di Meta non chiude la questione, anzi la apre. Fa vedere che una parte dell’organizzazione funzionale del cervello può essere modellata con più ampiezza, più dettaglio e più capacità di generalizzazione rispetto a pochi anni fa. E costringe, allo stesso tempo, a usare parole più precise. Non siamo davanti alla lettura della mente. Siamo davanti a un nuovo tipo di infrastruttura scientifica, ancora imperfetta, ma abbastanza matura da cambiare il modo in cui si progettano alcuni esperimenti e si formulano alcune ipotesi.

Bibliografia

Meta AI Blog, “Introducing TRIBE v2: A Predictive Foundation Model Trained to Understand How the Human Brain Processes Complex Stimuli”

Meta AI Research, “A foundation model of vision, audition, and language for in-silico neuroscience”

Meta Demo, “TRIBE v2 – An AI Model of the Human Brain”

GitHub, facebookresearch/tribev2

Algonauts Project 2025 Challenge

Pinho et al., “Individual Brain Charting, a high-resolution fMRI dataset for cognitive mapping”

Van Essen et al., “The WU-Minn Human Connectome Project: An Overview”

Fedorenko, Ivanova e Regev, “The language network as a natural kind within the broader landscape of the human brain”

UNESCO, “Ethics of neurotechnology”

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x