intelligenza artificiale

World Models: gli approcci studiati per una AI fisica e “spaziale”

Home Industry 4.0/Innovazione in azienda

Le migliori menti dell’intelligenza artificiale lavorano sui World Models (“modelli del mondo”), una tecnologia che mira a dare alle macchine una comprensione profonda delle leggi della realtà, della causalità e dello spazio, comprendendo gli ambienti fisici e simulati nel quale operano. Ecco le vie allo studio, per arrivarci

Pubblicato il 9 mar 2026

Luigi Mischitelli

Legal & Data Protection Specialist at Fondazione IRCCS Casa Sollievo della Sofferenza

L’inarrestabile evoluzione dell’Intelligenza Artificiale sta attraversando un cambio di paradigma epocale nel quale stiamo (neppure troppo) gradualmente passando dall’era dei “chiacchieroni digitali” a quella dei “sistemi con senso fisico”. Ma spieghiamo meglio.

Fino a oggi, abbiamo ammirato modelli linguistici capaci di farci compagnia nel nostro tempo libero, di scrivere saggi impeccabili e comporre poesie, nonché – financo – di creare video di complessità “hollywoodiana” e risolvere problemi irrisolti della matematica. Il tutto senza accorgerci che gli stessi modelli fallirebbero miseramente nel compito più banale per un bambino di tre anni: capire che una palla che rotola sotto un divano non smette di esistere, o che un bicchiere di vetro posto sul bordo di un tavolo è in una posizione di pericolo.

Questa lacuna cognitiva è il cuore della sfida dei World Models (lett. “modelli del mondo”), una tecnologia che mira a dare alle macchine una comprensione profonda delle leggi della realtà, della causalità e dello spazio, comprendendo gli ambienti fisici e simulati nel quale operano.

Project Genie | Experimenting with infinite interactive worlds

Guarda questo video su YouTube

L’idea che per essere “davvero intelligenti” serva una simulazione interna del mondo non è affatto una novità partorita recentemente dai laboratori della Silicon Valley. Già nel 1943, in pieno secondo conflitto mondiale, lo psicologo scozzese Kenneth Craik teorizzava che il cervello umano non reagisse semplicemente agli stimoli ambientali come un automa, ma che portasse con sé un “modello in scala ridotta” della realtà esterna. Invero, questo nostro “simulatore biologico” ci permette di anticipare gli eventi e di testare ipotesi mentalmente prima di compierle fisicamente.

Se vediamo una pozzanghera abbastanza profonda, non abbiamo bisogno di bagnarci per sapere che l’acqua ci entrerà nelle scarpe; il nostro “modello interno” ha già, semplicemente, eseguito la simulazione e ci ha inviato il segnale di evitarla. Senza questa capacità, saremmo esseri puramente reattivi, incapaci di pianificare il futuro o di comprendere il passato (anche se su quest’ultimo punto ne possiamo discutere…).

Indice degli argomenti

Perché i world models sono diventati il “Sacro Graal” dell’informatica

Oggi, questa intuizione psicologica è diventata il “Sacro Graal” dell’informatica. Google, con il suo progetto sperimentale Genie, ha dimostrato che è possibile addestrare un’Intelligenza Artificiale a generare interi mondi interattivi partendo da una singola immagine o da un breve frammento di testo. Genie non “legge” la realtà, ma la “sogna” in modo coerente. Se gli mostriamo una foto di una cucina, il sistema intuisce che i cassetti e le ante si aprono verso l’esterno, che i liquidi si versano seguendo la gravità (quindi dall’alto verso il basso), e che gli oggetti solidi non possono essere “attraversati” come i liquidi.

Tuttavia, questi modelli basati esclusivamente sulla generazione video soffrono ancora di quella che i ricercatori chiamano “amnesia spaziale” o “allucinazione temporale”. Dopo pochi secondi di interazione, la coerenza del mondo generato inizia a sfaldarsi: una porta che era a destra scompare, un colore muta improvvisamente o le leggi della fisica si sospendono. Un po’ quello che succede in alcune scene del film “Inception” diretto da Christopher Nolan. È un limite critico che rende questi sistemi ancora inadatti a guidare un robot pesante in un magazzino affollato, dove un errore di calcolo spaziale può essere fatale (soprattutto per gli esseri umani che vi lavorano).

Spatial intelligence e memoria 3D persistente per i world models

Per risolvere questo problema di instabilità e dare alle macchine una “memoria” della forma delle cose, scienziati del calibro di Fei-Fei Li, pioniera del computer vision e direttrice del Vision and Learning Lab della Stanford University (Stati Uniti), propongono la strada della Spatial Intelligence (Intelligenza Spaziale), ossia la capacità di percepire, analizzare e manipolare informazioni visive tridimensionali, consentendo una rappresentazione mentale accurata, un ragionamento spaziale e una navigazione precisi della macchina. Secondo la professoressa Li, non deve esserci solo riconoscimento di pixel o etichettatura di immagini, ma anche una comprensione geometrica e volumetrica degli spazi.

La sua startup, World Labs, lavora su modelli che non si limitano a “immaginare” sequenze video, ma costruiscono internamente strutture 3D persistenti e complete. In questi mondi, se un robot gira l’angolo e smette di vedere una sedia, quella sedia continua a esistere nella memoria del sistema esattamente nella stessa posizione. È la differenza fondamentale tra un sogno confuso e una mappa architettonica dinamica. Questa persistenza è ciò che potrebbe permettere ai futuri robot domestici di muoversi nelle nostre case senza dover ricalcolare la posizione di ogni mobile a ogni battito di ciglia (elettronico). Difficoltà comune, ad esempio, per i robot aspirapolvere.

L’alternativa ai world models generativi: JEPA e causalità astratta

Un approccio radicalmente diverso e altrettanto influente è quello sostenuto da Yann LeCun, Chief AI Scientist di Facebook & JT Schwarz Professor al Courant Institute della New York University. LeCun è noto per essere uno dei critici più feroci dell’attuale dipendenza dai Large Language Models (LLM) che affligge il mondo. Secondo lui, l’idea che l’Intelligenza Artificiale debba generare ogni singolo pixel di una scena per dimostrare di averla capita è un inutile spreco di potenza di calcolo. La sua architettura, chiamata JEPA (Joint-Embedding Predictive Architecture), si ispira direttamente allo sviluppo cognitivo dei neonati, che imparano le leggi della fisica osservando il mondo per migliaia di ore prima ancora di proferire la prima parola.

L’obiettivo della JEPA non è creare un video cinematografico ultra-realistico, ma prevedere i cambiamenti essenziali nello stato del mondo a un livello astratto. Se stiamo guidando un’auto e un pallone rotola in strada, al nostro cervello non interessa calcolare il riflesso della luce sulla superficie del pallone o la forma esatta delle nuvole sopra di noi; ci interessa solo prevedere la traiettoria dell’oggetto e l’eventuale arrivo di un bambino che lo insegue. Questo approccio a “bassa risoluzione visiva ma alta logica causale” promette di rendere l’Intelligenza Artificiale molto più veloce, robusta ed efficiente nel prendere decisioni critiche in tempo reale, eliminando il rumore di fondo che confonde i modelli puramente generativi.

La scala come fenomeno emergente nei world models

Mentre LeCun e Li costruiscono modelli specifici per la fisica, un’altra scuola di pensiero, legata ai vertici di OpenAI e a figure come al computer scientist israelo-canadese Ilya Sutskever, ipotizza che la comprensione del mondo sia un “fenomeno emergente” della scala di calcolo. L’ipotesi è che, analizzando miliardi di testi, video e dati sensoriali, l’Intelligenza Artificiale finisca per intuire le leggi della fisica per pura necessità statistica: per prevedere correttamente la parola successiva in una descrizione fisica, il modello deve aver costruito internamente una rappresentazione logica di quella fisica.

Esistono prove affascinanti a supporto di questa tesi: alcuni ricercatori hanno scoperto che un modello linguistico addestrato solo sulle mosse testuali del gioco Othello aveva iniziato a mappare internamente la geometria della scacchiera, distinguendo i pezzi bianchi dai neri e le posizioni permesse da quelle non permesse, pur non avendo mai visto una vera scacchiera. Tuttavia, molti critici, tra cui la stessa Li, ribattono che leggere migliaia di libri sul nuoto non equivale neppure a saper restare a galla in acqua (e men che meno a saper nuotare!); manca, insomma, quella “messa a terra” (“grounding”) che solo l’interazione fisica può fornire.

World models in strada: guida autonoma e “edge cases”

Questa competizione non è solo accademica, ma ha implicazioni industriali enormi, specialmente nel settore dei trasporti. Aziende come Wayve nel Regno Unito (specializzata in tecnologie di guida autonoma) e la stessa Tesla di Elon Musk negli Stati Uniti stanno integrando World Models nelle loro flotte di veicoli a guida autonoma. Invece di basarsi solo su regole rigide (“se vedi il rosso, fermati”), queste auto utilizzano i World Models per “immaginare” scenari rari o pericolosi (come un cervo che sbuca dalla nebbia o un cantiere stradale non segnalato) e imparare a gestirli in una simulazione ultra-realistica prima di affrontarli sulle strade pubbliche (e, quindi, nella realtà).

Questo permette di superare il problema dei “casi limite” (“edge cases”), quelle situazioni insolite che sono troppo rare per essere catturate in un normale dataset di addestramento ma troppo pericolose per essere ignorate.

Robotica umanoide: world models per agire senza copioni rigidi

Un altro settore che beneficerà enormemente da questa rivoluzione è quello della robotica umanoide. Aziende come le statunitensi Figure AI o Boston Dynamics stanno passando da robot programmati per compiere gesti ripetitivi a macchine dotate di “cervelli spaziali”. Un robot che deve svuotare la lavastoviglie non può limitarsi a seguire un percorso predefinito; deve capire che i piatti sono fragili, che l’acqua può scivolare e che la disposizione degli oggetti cambia ogni giorno.

I World Models permettono al robot di simulare migliaia di modi diversi di afferrare un bicchiere nella propria “mente” in una frazione di secondo, scegliendo quello con la più alta probabilità di successo.

Oltre la vista: sensi, materiali e mondo sociale nei world models

Tuttavia, la sfida finale per avere un’Intelligenza Artificiale davvero consapevole del mondo resta l’integrazione dei sensi “non visivi”. Finora ci siamo concentrati sulla vista e sul linguaggio, ma la realtà umana è fatta anche di tatto, udito, resistenza dei materiali e persino percezione del calore e dell’odore. Un vero World Model del futuro dovrà includere dati multisensoriali. Dovrà, quindi, capire che il suono metallico di una chiave che cade indica una superficie dura, o che la resistenza opposta da una spugna richiede una pressione diversa rispetto a quella di un sasso.

Alcuni centri di ricerca stanno già sperimentando “pelli elettroniche tattili” che inviano feedback ai modelli, insegnando all’Intelligenza Artificiale la differenza tra “morbido” e “duro” (cosa assolutamente non scontata per un non-umano) non come concetti linguistici, ma come costanti fisiche.

Inoltre, c’è la dimensione sociale della realtà. Un mondo non è fatto solo di oggetti inanimati, ma di altri agenti intelligenti con intenzioni, desideri e pregiudizi. I futuri World Models dovranno includere una “Teoria della Mente”, ovvero la capacità di modellare non solo dove si trova un’altra persona nello spazio, ma cosa sta pensando di fare. Se un pedone guarda il cellulare mentre attraversa, il World Model dell’auto a guida autonoma deve prevedere che quella persona probabilmente non si fermerà, a differenza di un pedone che stabilisce un contatto visivo con il conducente.

Un mondo condiviso: i world models tra digitale e fisico nel 2026

In conclusione, l’Intelligenza Artificiale sta finalmente uscendo dalla sua “infanzia testuale”, fatta di simboli e astrazioni, per affrontare la “prova del fuoco” della materia. Che la soluzione definitiva risieda nella raffinata geometria 3D di Fei-Fei Li, nelle intuizioni predittive di Yann LeCun o nella “forza bruta” dei dati di OpenAI, una cosa è certa: il 2026 segna l’anno in cui la distinzione tra digitale e fisico ha iniziato a sfumare.

Stiamo insegnando alle macchine non solo a parlarci, ma a coesistere con noi nello stesso spazio fisico, rispettando le stesse leggi della gravità e della logica che governano le nostre vite. Questo passaggio non renderà solo i robot più utili, ma potrebbe portarci, per la prima volta, a creare una forma di intelligenza che somigli davvero alla nostra: un’intelligenza capace di sognare il futuro per agire meglio nel presente. Con tutti i pro e i contro del caso.

@RIPRODUZIONE RISERVATA