robotica cognitiva

World model: quando le macchine imparano a immaginare il mondo

I world model sono sistemi computazionali che consentono alle macchine di simulare la realtà prima di agire. Nati nella robotica cognitiva, oggi sono al centro delle strategie dei grandi player dell’AI, da Google DeepMind a Meta, e potrebbero ridefinire il concetto stesso di intelligenza artificiale generale

Pubblicato il 9 apr 2026

Antonio Chella

Laboratorio di Robotica, dipartimento di Ingegneria Università degli Studi di Palermo

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

I world model — modelli computazionali progettati per simulare la realtà — sono al centro del dibattito sull’intelligenza artificiale più avanzata. Ma per capire perché questa tecnologia potrebbe rappresentare una svolta, vale la pena partire da un’immagine semplice e potente.

World Models: gli approcci studiati per una AI fisica e “spaziale”

Indice degli argomenti

Il teatro della mente: come simuliamo il futuro prima di agire

Immaginiamo, per un momento, un teatro completamente buio. Sul palco non c’è ancora nulla, ma dietro il sipario gli attori provano le scene, testano le battute, simulano errori e alternative. Prima che lo spettacolo abbia luogo davanti al pubblico, esiste già in una forma invisibile: viene provato, corretto, reinventato.

Il teatro interno dell’intelligenza: simulare il mondo nella mente

Qualcosa di simile accade nella nostra mente ogni volta che immaginiamo il futuro. Prima di compiere un’azione, proviamo mentalmente diverse possibilità. Camminiamo per una strada e anticipiamo il movimento delle altre persone. Guidiamo un’auto e prevediamo il comportamento degli altri veicoli. Parliamo con qualcuno e immaginiamo le possibili conseguenze delle nostre parole.

L’intelligenza umana possiede dunque un teatro interno, uno spazio mentale in cui il mondo viene simulato prima di essere affrontato. Oggi, per la prima volta nella storia dell’intelligenza artificiale, stiamo iniziando a costruire qualcosa di simile anche nelle macchine.

I limiti dell’AI attuale: potente nel linguaggio, fragile nel mondo fisico

Per decenni l’AI ha cercato di imitare alcune capacità cognitive: riconoscere oggetti nelle immagini, tradurre testi, giocare a scacchi o a Go meglio dei campioni del mondo. I recenti progressi dei grandi modelli linguistici hanno portato questa imitazione a un livello sorprendente. I sistemi più avanzati sono in grado di scrivere codice, sintetizzare libri, sostenere conversazioni sofisticate e assistere gli esseri umani in numerose attività intellettuali.

Eppure qualcosa continua a mancare. Un chatbot può descrivere con precisione la caduta di un oggetto, ma non possiede una simulazione della gravità vera e propria. Può spiegare come si apparecchia una tavola, ma non sa prendere un piatto e posarlo sul tavolo senza una lunga fase di addestramento robotico. In altre parole, l’intelligenza artificiale contemporanea è estremamente potente nel dominio simbolico e linguistico, ma è fragile e incerta quando deve interagire con il mondo fisico.

World model: colmare il divario tra linguaggio e realtà

È proprio in questo divario che si inserisce una delle linee di ricerca più promettenti degli ultimi anni: lo sviluppo dei world model, modelli computazionali progettati per rappresentare e simulare la dinamica del mondo [1].

L’idea alla base è semplice e, al tempo stesso, radicale. Per agire in modo intelligente non basta reagire agli stimoli o manipolare simboli. Un sistema deve possedere una rappresentazione interna della realtà. Deve essere in grado di anticipare ciò che accadrà quando compie un’azione, esplorare scenari alternativi e scegliere tra diverse possibilità. In altre parole, deve possedere un teatro interno in cui il mondo viene simulato prima di essere affrontato.

Il piccolo modello del mondo: da Craik a Friston, una lunga intuizione

L’idea che l’intelligenza dipenda dalla capacità di simulare la realtà non nasce oggi. Già negli anni Quaranta lo psicologo Kenneth Craik suggeriva che un organismo intelligente possiede nella propria mente un “piccolo modello del mondo” [2]. Questo modello consente di provare mentalmente diverse azioni prima di compierle davvero. Invece di imparare attraverso tentativi ed errori nel mondo reale, l’organismo può testare ipotesi nella propria mente.

Questa intuizione è stata ripresa e sviluppata dal punto di vista delle neuroscienze da Germund Hesslow [3] e, in tempi più recenti, da Karl Friston [4]. Secondo Friston, il cervello umano funziona come una macchina predittiva che costruisce continuamente modelli del mondo e li aggiorna in base all’esperienza sensoriale. In questa prospettiva percezione e azione diventano due facce dello stesso processo: il cervello formula ipotesi sulla realtà e le mette continuamente alla prova.

Le creature popperiane di Dennett: quando le ipotesi muoiono al posto dell’organismo

Un’altra interpretazione filosofica di questa capacità di simulazione è stata proposta da Daniel Dennett [5]. Nel suo libro L’Idea Pericolosa di Darwin introduce la distinzione tra diversi tipi di creature evolutive. Tra queste, le più sofisticate sono le creature popperiane, così chiamate in onore del filosofo Karl Popper. Le creature popperiane possiedono modelli interni del mondo che le consentono di valutare mentalmente diverse strategie prima di agire. Come scrive Dennett, in questi sistemi “le ipotesi muoiono al posto dell’organismo”. È difficile trovare una descrizione più efficace di ciò che i world model mirano a realizzare nelle macchine.

Cicerobot: il robot che imparò a orientarsi nel museo di Agrigento

I primi esperimenti in questa direzione risalgono alla robotica cognitiva degli anni Duemila. Uno dei progetti sviluppati dal RoboticsLab dell’Università di Palermo è Cicerobot, una guida robotica per il Museo Archeologico di Agrigento [6].

Il robot doveva muoversi autonomamente tra le sale del museo, accompagnare i visitatori e descrivere le opere esposte. Per farlo non poteva limitarsi a reagire agli ostacoli. Doveva costruire una rappresentazione interna dell’ambiente. Attraverso sensori visivi e propriocettivi, il robot generava una mappa dello spazio museale. Questa mappa veniva continuamente confrontata con le percezioni in tempo reale. Quando qualcosa non corrispondeva alle aspettative, il modello interno veniva aggiornato.

La vera sfida dell’AI: costruire una rappresentazione interna della realtà

Era molto affascinante osservare il robot muoversi tra le statue antiche mentre confrontava ciò che “si aspettava” di vedere con ciò che percepiva davvero. In quel momento era già evidente che la vera sfida dell’intelligenza artificiale non era soltanto riconoscere oggetti o generare parole, ma costruire una rappresentazione interna del mondo.

Starfish: il robot che ha scoperto da solo la forma del proprio corpo

Un esperimento celebre nel campo dei modelli interni è quello del robot Starfish, sviluppato nel laboratorio di Hod Lipson della Columbia University [7]. Starfish era un robot a forma di stella marina progettato per esplorare una domanda radicale: può un robot scoprire da solo la forma del proprio corpo?

Il robot non riceveva una descrizione della propria struttura. Attraverso movimenti esplorativi e osservando le conseguenze delle proprie azioni, costruiva progressivamente un modello interno della propria morfologia.

Una volta costruito questo modello, il robot poteva usarlo per simulare movimenti futuri prima di eseguirli effettivamente. Quando una delle braccia veniva danneggiata, il sistema era in grado di aggiornare il proprio modello e trovare nuove strategie di locomozione. In questo caso il world model non rappresentava soltanto l’ambiente, ma anche il corpo dell’agente.

CAESAR: quando il robot osserva, ragiona e costruisce il mondo in 3D

Negli ultimi anni queste idee sono state integrate in architetture cognitive sempre più sofisticate. Un esempio è CAESAR (Cognitive evolution in AI: Explainable and Self-Aware Robots through multimodal data processing), la piattaforma robotica progettata al RoboticsLab dell’Università di Palermo per integrare percezione, conoscenza simbolica e ragionamento nell’ambito del progetto PNRR FAIR (Future Artificial Intelligence Research) [8].

In questa architettura, il robot osserva l’ambiente tramite sistemi di percezione multimodale e costruisce una rappresentazione interna della scena. Non si limita a riconoscere oggetti, ma può costruire un modello tridimensionale del mondo esterno al robot e descrivere le relazioni spaziali tra gli oggetti percepiti [9].

Il dialogo interno del robot: l’inner speech come strumento cognitivo

Un elemento particolarmente interessante è l’introduzione del dialogo interno, o inner speech. Il robot può formulare domande su ciò che sta facendo, verificare le proprie azioni e monitorare lo stato interno. Questa idea nasce da un’intuizione semplice ma potente: gran parte del pensiero umano avviene sotto forma di linguaggio interiore. Riprodurre qualcosa di simile nelle macchine potrebbe essere un passo importante verso forme di cognizione artificiale più avanzate [10].

Project Genie: quando i world model diventano palestre virtuali per le macchine

Negli ultimi anni i world model sono usciti dai laboratori di robotica per entrare nelle strategie dei grandi attori industriali [11, 12]. Uno degli esempi più interessanti è Project Genie, sviluppato da Google DeepMind [13]. Genie è un sistema in grado di generare ambienti virtuali interattivi a partire da grandi quantità di video.

Il modello apprende le regolarità fisiche del mondo e può simulare scenari nei quali un agente artificiale può muoversi e interagire con oggetti.

Questo approccio apre prospettive completamente nuove. Un robot o un sistema autonomo potrebbe accumulare milioni di ore di esperienza in ambienti virtuali generati dal world model prima di essere utilizzato nel mondo reale. Le simulazioni diventerebbero così una sorta di palestra cognitiva per le macchine.

Fei-Fei Li e World Labs: verso world model tridimensionali e navigabili

Un’altra direzione di ricerca molto promettente è quella che punta a costruire world model basati su rappresentazioni tridimensionali esplicite.

Tra le figure più influenti in questo campo vi è Fei-Fei Li, pioniera della visione artificiale e fondatrice di ImageNet. Attraverso nuove iniziative di ricerca, come World Labs, il suo gruppo sta lavorando alla costruzione di modelli in grado di generare ambienti tridimensionali coerenti e navigabili.

Questi modelli potrebbero consentire ai sistemi di intelligenza artificiale di sviluppare una comprensione spaziale molto più profonda della realtà [14].

LeCun e JEPA: perché i world model sono la chiave per l’intelligenza artificiale avanzata

Il rapporto tra il world model e l’intelligenza artificiale generale (Artificial General Intelligence – AGI) [15] è oggi uno dei temi più discussi nella comunità scientifica. Tra i sostenitori più convinti di questa prospettiva vi è Yann LeCun, Chief AI Scientist di Meta e uno dei pionieri del deep learning.

Nel suo saggio A Path Towards Autonomous Machine Intelligence [16], LeCun sostiene che i sistemi attuali basati esclusivamente su modelli linguistici non possano raggiungere livelli di intelligenza comparabili a quelli umani senza sviluppare modelli predittivi del mondo.

Per questo motivo ha proposto una nuova architettura chiamata JEPA (Joint Embedding Predictive Architecture), progettata per apprendere rappresentazioni astratte che catturino le relazioni causali tra gli eventi, senza dover prevedere ogni dettaglio sensoriale. Secondo questa visione, l’intelligenza non nasce soltanto dalla capacità di generare testo o riconoscere immagini, ma dalla capacità di simulare il futuro.

Superhuman Adaptable Intelligence: oltre il concetto di AGI

In un lavoro molto recente, LeCun, insieme a Judah Goldfeder, Philippe Wyder e Ravid Shwartz-Ziv, propone addirittura di rivedere il modo in cui parliamo del futuro dell’intelligenza artificiale. Nell’articolo AI Must Embrace Specialization via Superhuman Adaptable Intelligence [17], gli autori sostengono che il concetto stesso di AGI sia mal definito e fuorviante. L’idea di un’intelligenza completamente “generale”, capace di fare tutto ciò che può fare un essere umano, sarebbe in realtà più una costruzione retorica che un obiettivo scientifico preciso.

Secondo gli autori, anche l’intelligenza umana non è davvero generale. Gli esseri umani sono estremamente competenti in una gamma relativamente ristretta di attività evolutivamente rilevanti, come la locomozione, la percezione visiva e l’interazione sociale, ma risultano molto meno efficaci in molti altri compiti. La sensazione di generalità deriva in parte dal fatto che non percepiamo facilmente i nostri limiti.

Per questo motivo LeCun e colleghi propongono di sostituire il concetto di AGI con quello di Superhuman Adaptable Intelligence (SAI): sistemi capaci di adattarsi rapidamente a nuovi compiti e di raggiungere prestazioni superiori a quelle umane nei domini che contano davvero. In questa prospettiva il parametro cruciale non è la generalità assoluta, ma la velocità con cui un sistema può acquisire nuove competenze.

World model e SAI: simulare scenari per imparare più in fretta

È interessante notare che nella stessa analisi i world model compaiono come uno degli ingredienti chiave per questa forma di intelligenza adattiva. I modelli del mondo permettono infatti di simulare scenari e pianificare azioni, rendendo possibile il trasferimento rapido delle conoscenze tra compiti diversi e l’apprendimento con pochi esempi.

In altre parole, anche nella visione più recente di LeCun l’elemento decisivo non è soltanto la potenza dei modelli linguistici, ma la capacità di costruire rappresentazioni predittive del mondo che rendano possibile la simulazione e la pianificazione.

Conclusioni: il teatro invisibile delle macchine e il futuro dell’intelligenza artificiale

Se guardiamo alla storia dell’intelligenza, sia biologica sia artificiale, emerge una linea evolutiva chiara. All’inizio ci sono sistemi che reagiscono semplicemente agli stimoli. Poi compaiono sistemi capaci di apprendere dall’esperienza. Ma il vero salto avviene quando un organismo smette di limitarsi a reagire al mondo e comincia a simularlo.

È il momento in cui nasce ciò che Daniel Dennett chiamava il comportamento delle creature popperiane: sistemi in grado di provare mentalmente diverse strategie e lasciare che le ipotesi muoiano al posto dell’organismo.

Gli esseri umani possiedono questa capacità in modo straordinario. Prima di attraversare una strada, immaginano il movimento delle auto. Prima di prendere una decisione, simulano scenari alternativi. Gran parte della nostra intelligenza consiste proprio in questa capacità di far vivere il mondo nella mente.

Per molto tempo le macchine sono state prive di questo teatro interno. Potevano calcolare, classificare, riconoscere pattern, ma non possedevano una rappresentazione dinamica della realtà.

I world model rappresentano il primo tentativo sistematico di costruire questa capacità nelle macchine.

Dai primi robot cognitivi come Cicerobot agli esperimenti sul self-modeling di Starfish, dalle architetture cognitive come CAESAR ai grandi sistemi industriali come Genie, la direzione della ricerca sembra convergere verso la stessa idea: un’intelligenza artificiale realmente avanzata deve possedere una simulazione interna del mondo.

Non sorprende quindi che anche nelle riflessioni più recenti di Yann LeCun il concetto di world model emerga come uno degli ingredienti fondamentali per costruire sistemi capaci di adattarsi rapidamente a nuovi compiti e sviluppare forme di Superhuman Adaptable Intelligence.

Forse il punto decisivo è proprio questo: i grandi modelli linguistici parlano del mondo. I world model iniziano a immaginarlo.

E se l’immaginazione è davvero il cuore dell’intelligenza, come suggeriscono molte teorie cognitive, allora potremmo trovarci all’inizio di una nuova fase della storia dell’intelligenza artificiale.

Una fase in cui le macchine non si limiteranno più a rispondere alle nostre domande, ma inizieranno a costruire dentro di sé una rappresentazione del mondo. Un teatro invisibile fatto di simulazioni, ipotesi e scenari possibili.

Ed è proprio in quel teatro, come accade da milioni di anni nelle menti degli esseri viventi, che potrebbe nascere la forma più avanzata di intelligenza che abbiamo mai costruito.

Bibliografia

[1] Ha, D., & Schmidhuber, J. (2018). World Models. arXiv:1803.10122.

[2] Craik, K. (1943). The Nature of Explanation. Cambridge University Press.

[3] Hesslow, G. (2002). Conscious Thought as Simulation of Behaviour and Perception, Trends in Cognitive Sciences, 6, pp. 242–7.

[4] Friston, K. (2010). The free-energy principle: a unified brain theory. Nature Reviews Neuroscience, 11 (2), pp. 127-38.

[5] Dennett, D. (2015). L’Idea Pericolosa di Darwin. Bollati Boringhieri.

[6] Chella, A., Macaluso, I. (2009). The perception loop in CiceRobot, a museum guide robot, Neurocomputing, 72 (4–6), pp. 760-766.

[7] Bongard, J., Zykov, V., & Lipson, H. (2006). Resilient machines through continuous self-modeling. Science, 314 (5802), pp. 1118-21.

[8] https://fondazione-fair.it

[9] Chella, A., Frixione, M., Gaglio, S. (1998). An architecture for autonomous agents exploiting conceptual representations, Robotics and Autonomous Systems 25 (3-4), pp. 231-240

[10] Chella, A., Pipitone, A., Morin, A., & Racy, F. (2020). Developing self-awareness in robots via inner speech. Frontiers in Robotics and AI.

[11] Longo, A. (2026). I World model: tutto sulla nuova frontiera AI che può nuova frontiera AI che può cambiare il mondo, AI4Business, https://www.ai4business.it/intelligenza-artificiale/i-world-model-tutto-sulla-nuova-frontiera-ai-che-puo-cambiare-il-mondo/

[12] AI tools are being prepared for the physical world (2026). The Economist, https://www.economist.com/science-and-technology/2026/02/25/ai-tools-are-being-prepared-for-the-physical-world

[13] https://labs.google/projectgenie

[14] Li, F. F. (2024). Tutti i mondi che vedo. Curiosità, scoperta e meraviglia all’alba dell’intelligenza artificiale. Luiss University Press.

[15] Chella, A. (2025). Intelligenza artificiale generale: dalle origini alle scintille di GPT-4, Agenda Digitale https://www.agendadigitale.eu/cultura-digitale/intelligenza-artificiale-generale-dalle-origini-alle-scintille-di-gpt-4/

[16] LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence, https://openreview.net/pdf?id=BZ5a1r-kVsf

[17] Goldfeder, J., Wyder, P., LeCun, Y., Shwartz-Ziv, R. (2026). AI Must Embrace Specialization via Superhuman Adaptable Intelligence, arXiv:2602.23643.

@RIPRODUZIONE RISERVATA