intelligenza artificiale

LeWorldModel: così LeCun sfida i giganti dell’IA



Indirizzo copiato

LeWorldModel è un world model di tipo JEPA addestrato da pixel grezzi con soli 15 milioni di parametri e una GPU. Pianifica 48 volte più veloce del modello di riferimento grazie a uno spazio latente compatto. AMI Labs di LeCun punta a portarlo in robotica e sanità entro il 2026

Pubblicato il 18 mag 2026

Fabio Lalli

ceo ICONICO | Innovation & Digital Transformation



world models (1); DMA big tech
AI Questions Icon
Chiedi all'AI
Riassumi questo articolo
Approfondisci con altre fonti

Quindici milioni di parametri. Una sola GPU NVIDIA L40S. Poche ore di addestramento. È il setup descritto nel preprint arXiv 2603.19312, firmato da Lucas Maes (Mila e Université de Montréal), Quentin Le Lidec, Damien Scieur (Samsung SAIL), Yann LeCun e Randall Balestriero (Brown University), depositato il 13 marzo 2026 e aggiornato il 24 dello stesso mese.

Un world model su una GPU: come cambia la prospettiva

Il modello si chiama LeWorldModel, abbreviato LeWM, e ambisce a essere il primo world model di tipo JEPA addestrato in modo stabile end-to-end direttamente da pixel grezzi, senza i compromessi che hanno reso fragile la categoria fino a oggi.

Il dato che colpisce arriva dalla fase di pianificazione: 0,98 secondi contro i 47 secondi di DINO-WM, l’attuale riferimento della categoria, ovvero 48 volte più veloce a parità di compito e di budget computazionale. Il pezzo non è un esercizio accademico isolato, si inserisce nella strategia industriale che LeCun ha esplicitato uscendo da Meta a novembre 2025 e fondando AMI Labs, la startup che a marzo 2026 ha chiuso il più grande seed round europeo di sempre, 1,03 miliardi di dollari a valutazione pre-money di 3,5 miliardi, con investitori del calibro di Bezos Expeditions, Cathay Innovation, Greycroft, Nvidia, Samsung e Toyota Ventures.

Quindici milioni di parametri per imparare la fisica

Per capire perché un numero apparentemente piccolo come 15M conti così tanto serve mettere in scala. Un modello linguistico medio supera i 70 miliardi di parametri, GPT-5 e Claude Opus 4.7 viaggiano nell’ordine delle migliaia di miliardi. LeWM sta cinque ordini di grandezza sotto, e pure è capace di pianificare con successo tra l’86% e il 96% delle volte su compiti di manipolazione robotica come PushT o di navigazione 3D come OGBench-Cube. Il segreto è quello che gli autori definiscono «spazio latente compatto»: il modello non prova a ricostruire il mondo pixel per pixel, comprime ogni osservazione visiva in un vettore di 192 dimensioni e ragiona lì sopra.

Questa scelta architetturale ha conseguenze pratiche misurabili. LeWM codifica ogni osservazione usando circa 200 volte meno token rispetto a DINO-WM, il world model basato sull’encoder pre-addestrato DINOv2 di Meta. Meno token vuol dire meno calcolo per ogni passo di pianificazione, e meno calcolo significa che il ciclo di Model Predictive Control (controllo predittivo basato su modello, MPC), il meccanismo con cui il sistema sceglie le prossime azioni rivedendole continuamente in base al contesto, diventa effettivamente eseguibile in tempi compatibili con il controllo reale. Per un braccio robotico o un veicolo autonomo, la differenza tra 47 secondi e meno di un secondo per scegliere il prossimo gesto è la differenza tra essere usabili e non esserlo.

Il framework proposto da LeCun nel 2022

Joint Embedding Predictive Architecture, JEPA, è il framework che LeCun ha proposto nel 2022 come alternativa concettuale ai grandi modelli generativi. L’intuizione è semplice da raccontare: invece di insegnare a una rete a generare ogni dettaglio del mondo, le si insegna a prevedere come evolverà una rappresentazione compatta di esso. Il modello vede un’immagine, la comprime in un embedding, prova a prevedere l’embedding del frame successivo dato l’azione che l’agente sta eseguendo, e si addestra confrontando la previsione con la rappresentazione reale del frame successivo.

Il problema del collasso delle rappresentazioni

C’è un problema noto, però, ed è quello che ha bloccato la categoria per anni: il collasso delle rappresentazioni. La rete impara che il modo più semplice per minimizzare l’errore di predizione è mappare tutti gli input sullo stesso vettore costante, perché così la previsione coincide sempre con l’osservazione reale. Tutto funziona perfettamente, e tutto è inutile: il modello ha smesso di codificare informazione. Gli approcci precedenti hanno tamponato il problema con espedienti progressivamente più complessi: stop-gradient, exponential moving averages, encoder pre-addestrati congelati come DINOv2, perdite multi-termine con sei o sette coefficienti da bilanciare. Funzionano, però introducono fragilità e bloccano l’apprendimento end-to-end.

SIGReg, la singola leva che cambia il bilancio

Il contributo tecnico di LeWM è una funzione di regolarizzazione chiamata SIGReg, Sketched-Isotropic-Gaussian Regularizer. La meccanica è elegante. Le rappresentazioni latenti vengono proiettate su un grande numero di direzioni casuali, e su ognuna di queste proiezioni unidimensionali si applica un test statistico di normalità, l’Epps-Pulley test. Il teorema di Cramér-Wold garantisce che, se tutte le marginali unidimensionali sono gaussiane standard, allora anche la distribuzione congiunta in alta dimensione lo è. Tradotto: forzando le rappresentazioni a distribuirsi come una gaussiana isotropa nello spazio latente, il collasso diventa matematicamente impossibile, perché un vettore costante non può essere gaussiano.

L’effetto pratico è che il numero di iperparametri sensibili scende da sei a uno solo, il peso del termine di regolarizzazione, chiamato lambda. E gli autori dimostrano che il modello mantiene performance superiori all’80% su un intervallo di valori di lambda che copre due ordini di grandezza, da 0,01 a 0,2, con il picco a 0,09. Tradotto in pratica industriale: chi vuole replicare il setup non ha bisogno di settimane di grid search costose, basta una semplice bisezione logaritmica. La differenza con PLDM, l’unico precedente end-to-end della categoria, è netta: PLDM richiede una ricerca polinomiale su sei coefficienti, e la sua curva di addestramento mostra oscillazioni e instabilità che LeWM elimina alla radice.

Due filosofie a confronto: comprimere o generare

Pochi mesi prima dell’uscita di LeWM, World Labs di Fei-Fei Li commercializzava Marble, un altro tipo di world model. La differenza tra i due approcci aiuta a capire dove sta andando il campo, ed è un nodo strategico, non un dettaglio tecnico. Marble genera mondi tridimensionali navigabili ed esportabili in formati standard come GLTF, partendo da un’immagine o da un prompt testuale. È un world model nel senso pieno di simulatore del mondo, costruito con tecniche di generazione visiva, e si rivolge a creativi e sviluppatori di simulazioni e robotica.

LeWM va nella direzione opposta. Non genera nulla. Comprime, predice nello spazio compresso, decide le azioni in quello spazio. La metafora che gli autori riprendono dal lavoro di Hénaff e colleghi del 2019 è quella della «straightening» temporale: le traiettorie nel mondo reale, che a livello pixel sono curve complicate, diventano segmenti quasi rettilinei nello spazio latente di LeWM. Le due strategie corrispondono a due tesi diverse su cosa serve a un’IA per agire nel mondo. World Labs scommette che le servano mondi simulati ricchi e fotorealistici. LeCun scommette che le serva una rappresentazione astratta minimale, sufficiente per prevedere conseguenze e pianificare. Entrambe hanno mercato, però rispondono a domande industriali diverse.

Robotica, sanità, simulazione: dove arrivano prima i world model

La parte più interessante dal punto di vista applicativo è l’esperimento di «violazione delle aspettative» che gli autori descrivono nella sezione 5 del paper. Per ognuno dei tre ambienti di test gli autori hanno costruito tre traiettorie: una normale, una con perturbazione visiva (un oggetto cambia colore di colpo), una con perturbazione fisica (un oggetto viene teletrasportato in una posizione casuale, violando la continuità). LeWM produce un picco di «sorpresa» misurabile statisticamente, p minore di 0,01, quando si verifica la perturbazione fisica, mentre reagisce poco alla perturbazione puramente visiva. Significa che lo spazio latente ha effettivamente codificato qualcosa di simile a una nozione intuitiva di plausibilità fisica, e che il modello sa distinguere un cambio cosmetico da una violazione della legge di continuità degli oggetti.

Il primo settore che ne beneficia è la robotica: bracci che afferrano oggetti, veicoli autonomi che devono prevedere il comportamento di pedoni e altri agenti, droni che navigano in ambienti chiusi, hanno tutti bisogno proprio di questa capacità, non di generare un video fotorealistico del proprio futuro. Il secondo è la sanità, ambito in cui Alex LeBrun, CEO di AMI Labs e prima fondatore di Nabla, ha dichiarato esplicitamente di voler portare i world model: le allucinazioni dei LLM rendono questi modelli inadatti a contesti dove un errore può avere conseguenze cliniche gravi, e un sistema che ragiona su rappresentazioni compatte e verificabili è una scommessa diversa. Il terzo è la simulazione industriale, dove la possibilità di addestrare politiche di controllo offline, senza interazione costosa con sistemi reali, è già oggi un acceleratore di sviluppo.

La discontinuità che cambia i piani strategici

C’è un’implicazione che molte aziende italiane impegnate in progetti di AI applicata farebbero bene a metabolizzare velocemente. La narrativa dominante degli ultimi tre anni è stata che l’IA di prossima generazione richiede scale crescenti di calcolo e di capitale, e che chi non gioca nel club dei datacenter da gigawatt resta a guardare. LeWM dimostra che esiste almeno un percorso architetturale dove il problema non è la scala, è la struttura. Quindici milioni di parametri ben pensati battono in pianificazione robotica modelli che ne contano cento volte tanti.

Per chi sviluppa prodotti, questa biforcazione si traduce in una scelta concreta. Se l’obiettivo è automatizzare ragionamento testuale e generazione di codice, gli LLM restano la strada giusta, e la scala continua a contare. Se l’obiettivo è far agire macchine nel mondo fisico (robot industriali, veicoli autonomi, dispositivi di simulazione), allora la categoria dei world model latenti, di cui LeWM è oggi il riferimento aperto e replicabile, diventa il filone tecnologico da presidiare. AMI Labs ha dichiarato che i primi modelli applicati arriveranno in circa un anno, partendo dai partner sanitari e industriali, ed è verosimile che il 2026 sia ricordato come l’anno in cui la corsa ai world model è uscita dal laboratorio. Senza dubbio molte aziende stanno ancora dimensionando la propria strategia AI sulla sola dimensione linguistica: quanto resterà valida quella scelta se l’IA fisica accelera con questi tassi?

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x