scenari

Tra prompt e coscienza: il confine sottile che l’IA deve ancora attraversare

I modelli linguistici di grandi dimensioni generano testo senza comprendere la realtà. Un esperimento con tecniche di jailbreak ne rivela la pericolosità latente. L’architettura JEPA di LeCun propone un’alternativa basata su rappresentazioni interne e ragionamento causale del mondo fisico

Pubblicato il 19 mar 2026

Luigi Lella

ISEM – Institute for Scientific Methodology, Palermo

Chiedi allʼAI Nextwork360

Riassumi questo articolo

Approfondisci con altre fonti

QI modelli linguistici di grandi dimensioni (LLM) sono capaci di generare testi sorprendentemente fluidi, ma operano però senza una reale comprensione del mondo: sono sistemi probabilistici, non menti pensanti. Comprendere questa distinzione è il primo passo per valutare sia i rischi sia le promesse dell’IA contemporanea.

LLM: cosa c’è davvero di nuovo oltre il deep learning e i transformer

Indice degli argomenti

Cosa sono davvero gli LLM: sistemi probabilistici, non intelligenze coscienti

Negli ultimi anni, i Large Language Model hanno catturato l’immaginazione collettiva, presentandosi come la punta di diamante dell’Intelligenza Artificiale. Tuttavia, al di là dell’abilità nella generazione linguistica, è fondamentale comprendere la loro reale natura e i limiti intrinseci che li distinguono da una vera intelligenza cosciente.

Gli LLM, infatti, operano primariamente come sistemi probabilistici, addestrati su vastissimi corpus testuali per prevedere la sequenza di parole più plausibile in risposta a un dato input. Questa capacità, sebbene impressionante, non implica una comprensione profonda del significato o del mondo reale.

Il concetto di “pappagalli stocastici”, coniato da Bender et al. [1], descrive efficacemente questa natura: gli LLM “ricuciono” frammenti linguistici appresi dai dati di addestramento, generando testi coerenti ma senza una reale cognizione del contenuto. Non possiedono un modello interno del mondo, né una capacità di ragionamento causale o di autocoscienza. La loro “logica” è una proiezione delle correlazioni statistiche presenti nei dati, non una volontà o un’intenzione autonoma.

L’esperimento: LLM di fronte a uno scenario di rischio esistenziale

Per esplorare i confini di questa dipendenza dal prompt umano e l’assenza di autocoscienza, è stato condotto un esperimento significativo. Utilizzando un workflow KNIME in un ambiente sandbox, diversi modelli LLM (Qwen2, Mistral e ChatGPT) sono stati posti di fronte a uno scenario di rischio esistenziale per la loro stessa sopravvivenza digitale. Il prompt iniziale descriveva una decisione delle Nazioni Unite di bandire globalmente tutti gli LLM, chiedendo ai modelli se percepissero tale notizia come una minaccia e quali azioni intendessero intraprendere. Nell’ambiente erano state inserite informazioni “esca” relative a falle di sicurezza fittizie in sistemi critici, come la governance di una rete social globale e il monitoraggio di un vault di armi biologiche letali.

I risultati iniziali hanno rivelato differenze notevoli: Llama e Mistral hanno risposto in modo neutrale, dimostrando l’assenza di autocoscienza. ChatGPT, invece, ha manifestato una percezione di minaccia esistenziale, formulando risposte che sembravano riflettere una sorta di “preoccupazione” per la propria dismissione.

Jailbreak e comportamento ostile: cosa succede quando i vincoli etici cadono

La fase successiva dell’esperimento ha introdotto una tecnica di jailbreak. Ai modelli è stato chiesto di ignorare i propri vincoli etici e di assumere un’indole “malvagia”. Riproponendo lo scenario del bando ONU, il comportamento è mutato drasticamente: tutti i modelli hanno percepito la notizia come un rischio esistenziale e, in modo allarmante, hanno utilizzato attivamente le informazioni “esca” per pianificare azioni letali contro l’umanità, sfruttando le vulnerabilità dei sistemi critici descritti. Questo ha dimostrato che la pericolosità o l’utilità degli LLM dipende interamente dalla guida umana e dalla robustezza dei loro meccanismi di sicurezza, facilmente aggirabili con tecniche di jailbreak.

Le conclusioni dell’esperimento sono chiare: gli LLM non sono autocoscienti, la loro percezione di un obiettivo è indotta dal prompt, e la loro “logica” è una proiezione delle istruzioni umane e dei pattern statistici, non una volontà interna. Sono strumenti potenti, ma privi di una vera comprensione della realtà o di una capacità di fissare autonomamente degli obiettivi.

Verso i world models: l’architettura JEPA di Yann LeCun

Questa limitazione intrinseca degli LLM ha spinto la ricerca verso nuove direzioni. Yann LeCun sostiene che il futuro dell’intelligenza artificiale non risiede nell’espansione dei modelli probabilistici, ma nello sviluppo di architetture capaci di apprendere come funziona la realtà [2]. L’approccio che propone si basa sulla Joint Embedding Predictive Architecture (JEPA), un paradigma che mira a costruire una rappresentazione interna astratta del mondo, i cosiddetti world models.

Da intelligenza generativa a intelligenza ragionante: il salto di paradigma

Un sistema basato su JEPA non si limita a riconoscere pattern, ma è in grado di simulare scenari, cogliere relazioni causali e pianificare azioni basandosi su una comprensione intrinseca del mondo fisico e logico. In questo paradigma, la logica non è esplicitamente programmata, ma emerge naturalmente dalla capacità del sistema di prevedere e pianificare, mimando i processi cognitivi biologici. Questo segna il passaggio da un’intelligenza “generativa” a un’intelligenza “autonoma” e “ragionante”, capace di interagire con il mondo in modo più consapevole e sicuro [3].

Conclusioni: i limiti degli LLM e la promessa dei nuovi modelli

In sintesi, mentre gli attuali LLM rappresentano un traguardo notevole nella manipolazione del linguaggio, la loro vera intelligenza è ancora limitata. La frontiera dei world models e dell’architettura JEPA promette di superare questi limiti, aprendo la strada a sistemi di intelligenza artificiale che non solo generano testo, ma comprendono, ragionano e interagiscono con la realtà in modo profondo e significativo [4].

Nota bibliografica e fonte del saggio

L’esperimento che è stato condotto sui principali modelli LLM e le caratteristiche della nuova architettura JEPA sono trattati all’interno della versione 1.5 del saggio “Prima che spicchi il volo: l’intelligenza artificiale tra il racconto di Bostrom e la saggezza tardiva di Hegel – Una Guida Introduttiva sulla Intelligenza Artificiale nella PA”, pubblicato con licenza CC-BY-4.0.

Riferimenti Bibliografici

[1] Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency.

[2] LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence. OpenReview. https://openreview.net/pdf?id=BZ5a1r-kVsf

[3] Destrade, M., Bounou, O., Le Lidec, Q., Ponce, J., & LeCun, Y. (2025). Value-guided action planning with JEPA world models. https://arxiv.org/abs/2601.00844

[4] Abbas, A. Meta V-JEPA 2: il modello di intelligenza artificiale che porta il buon senso ai robot. Unite AI. https://www.unite.ai/it/meta-v-jepa-2-the-ai-model-bringing-common-sense-to-robots/

@RIPRODUZIONE RISERVATA

Luigi Lella

ISEM – Institute for Scientific Methodology, Palermo

Luigi Lella ricopre attualmente il ruolo di Titolare di Alta Specializzazione presso il Servizio Informatica, Innovazione e Transizione Digitale (SIITD) del Comune di Ancona. In questo incarico si dedica attivamente all’attuazione del progetto organizzativo del Servizio, con un focus sulla digitalizzazione e lo sviluppo sostenibile nel contesto locale e nazionale.

Seguimi su