Da quando, nel 2022, gli LLM (modelli di linguaggio di grandi dimensioni) hanno conquistato il dominio linguistico pubblico, un dibattito—spesso molto acceso—non ha cessato di infuriare: gli LLM sono una forma di intelligenza? Gli LLM pensano?
A un estremo vi sono coloro che sostengono che le macchine, pur facendo tantissime cose che se fossero fatte da un essere umano sarebbero un chiaro segno di intelligenza, non sono altro che un’imitazione realizzata attraverso processi matematici.
In questo campo, curiosamente, si incontra un’improbabile alleanza. Filosofi, umanisti e studiosi della mente rivendicano uno speciale status ontologico dell’io umano. Allo stesso tempo, vi è un nutrito gruppo di informatici ed esperti di IA—pittorescamente definiti next-tokenisti o parrottisti dal celebre articolo che ha introdotto il termine pappagallo stocastico o parrot (Bender et al. 2021)—che, forti di una conoscenza di prima mano dei meccanismi al cuore degli LLM, sostengono che questi modelli si limitano a indovinare la parola successiva senza alcuna reale intelligenza.
Insieme, questi autori, sostengono che gli LLM non sono veramente intelligenti, a prescindere da quello che fanno, perché la vera intelligenza, il vero pensiero, è un’altra cosa che solo gli esseri umani sanno fare.
Per certi versi, la loro è una forma di benaltrismo. L’IA vince a scacchi? Il pensiero è ben altro! L’IA traduce come un essere umano? Il pensiero è ben altro! L’IA trova i collegamenti tra l’imperativo categorico di Kant e il principio antropico di John Barrow? Ben altro! Ben altro!
Indice degli argomenti
Il fenomeno del bersaglio mobile nell’intelligenza artificiale
Nel caso dell’IA abbiamo assistito a un classico caso di bersaglio mobile, come hanno recentemente sostenuto Azeem Azhar and Nathan Warren sul Washington Post (Azhar and Warren 2025).
Tutti i criteri che, nell’essere umano e negli animali sono considerati prove di intelligenza, nel momento in cui vengono raggiunti e superati da una macchina, vengono dichiarati insufficienti.
Il caso classico è il test di Turing che è stato superato per la prima volta nel 2014 (in era pre-LLM) da un chatbot che pretendeva di essere un ragazzino ucraino e che non fu riconosciuto come un’IA dal 33% dei giudici umani per oltre 5 minuti di conversazione.
Immediatamente, il noto esperto Gary Marcus dichiarò che «non si trattava di vera intelligenza».
In seguito, ChatGPT 4.5 ha passato con margini molto maggiori lo stesso test risultando indistinguibile da un essere umano. Ogni volta però il test viene dichiarato nullo. Finché era impossibile per una macchina, sembrava una soglia significativa, ma quando viene superato, ecco che non vale più nulla.
Oltre le motivazioni filosofiche: un approccio scientifico
In questo articolo vorrei smontare questa posizione, non tanto per dimostrare che gli LLM pensano come gli esseri umani o che il percorso che giunge a una certa proposizione in un LLM o in un umano è uguale.
Sarei assolutamente fuori strada. Tuttavia, voglio chiarire che le motivazioni informatico-scientifiche utilizzate dagli scettici sono infondate e che l’intelligenza non è una qualità esclusiva degli esseri umani, ma qualcosa di più generale che si manifesta in situazioni e sistemi non biologici.
Non considererò qui le motivazioni dei filosofi che presuppongono un ruolo metafisicamente privilegiato per gli esseri umani, ma soltanto i ragionamenti di chi—informatici ed esperti di IA—sostengono ci siano meccanismi speciali per «pensare veramente».
L’inesistenza del pensiero come entità separata
Prima di tutto, l’obiezione fondamentale è che non esiste un pensiero interno.
Se due sistemi producono lo stesso tipo di risposta, è inutile andare a guardare dentro per vedere se uno c’è arrivato pensando e l’altro c’è arrivato facendo calcoli. Quello che conta è l’esito finale.
Ovviamente, se l’esito è diverso—mettiamo che la macchina non sappia applicare certi ragionamenti di buon senso—allora ci saranno delle differenze. Ma lo stesso allora si dovrebbe dire di un essere umano che, per vari motivi, non riesca a risolvere particolari problemi.
Il pensiero non è un’essenza invisibile all’interno di un sistema cognitivo, ma è un modo per descrivere la capacità adattiva di certi sistemi e, nel caso del linguaggio, la capacità di utilizzare in modo generativo la conoscenza.
Non ci sono processi che producano il pensiero all’interno di un sistema cognitivo, semplicemente perché il pensiero in questo senso ingenuo non esiste.
Tra i neuroni non ci sono pensieri. I neuroni fanno quello che devono fare, organizzando stimoli in entrata e uscita e producendo il giusto comportamento, anche attraverso stati intermedi che mediano tra stimoli lontani e prossimi e pilotano comportamenti complessi.
In mezzo però non c’è una cosa aggiuntiva e invisibile che chiamiamo pensiero.
L’errore concettuale dei next-tokenisti
Entrando nel merito dei meccanismi, gli scettici (il mio termine favorito è next-tokenisti) fanno un errore concettuale ed empirico comparando il meccanismo di base dell’LLM (la probabilità condizionata) con il comportamento globale dell’essere umano.
Questo è fuorviante. Sarebbe altrettanto sbagliato comparare il meccanismo di base del cervello (apprendimento hebbiano e soglia non lineare dei neuroni) con il comportamento globale dell’LLM.
Si concluderebbe simmetricamente che noi siamo meno intelligenti di un LLM, perché un neurone non sa esprimersi linguisticamente. Sarebbe una conclusione assurda.
Il confronto corretto: meccanismi e comportamenti globali
Il ragionamento corretto dovrebbe confrontare i meccanismi di base dell’LLM con quelli dell’umano, o confrontare i comportamenti globali.
Il singolo neurone non è affatto più intelligente, intenzionale, cosciente, mentale, volitivo del singolo tensore di una LLM.
La comprensione del testo non avviene a livello dei componenti di base della rete neurale, ma è frutto della dinamica globale tra la rete neurale e l’ambiente.
Un LLM a livello di dinamica globale con l’ambiente (il dataset di addestramento e i prompt con gli esseri umani) esibisce un comportamento linguistico che—al netto di affermazioni metafisiche—permette di confrontare esseri umani e IA generative.
Oltretutto in questa prospettiva neutra, recentemente modellata dal cosiddetto sistema zero (Chiriatti et al. 2024), è interessante considerare una progressiva integrazione tra intelligenza umana e macchinica.
È un punto di vista che, in passato, era stato espresso anche dal principio di parità cognitiva, secondo cui il modo in cui un processo cognitivo è implementato non è discriminante; tesi che è uno sviluppo del funzionalismo (Clark and Chalmers 1998; Putnam 1960).
Il cuore tecnologico: l’algoritmo Transformer
Ma non è finita qui. Anche considerando in maggiore dettaglio il funzionamento interno di un LLM non ci sono motivi per negargli cittadinanza cognitiva, ovviamente al netto del fatto che, fino ad oggi, l’IA generativa non ha potuto disporre di un corpo e quindi non è stata incarnata al pari di un agente biologico.
Consideriamo il funzionamento di un LLM; al suo cuore c’è l’algoritmo Transformer in qualche sua recente incarnazione (Vaswani et al. 2017; Bubeck et al. 2023; OpenAI 2023; Agashe et al. 2024; Jin et al. 2024; Mangalam 2025).
Quelli che sostengono che gli LLM non fanno altro che indovinare la parola successiva, semplificano eccessivamente il loro meccanismo interno, limitandosi a fare un corto circuito tra il meccanismo di base (ovvero la statistica bayesiana) e il comportamento complessivo del sistema (ovvero la generazione di un flusso di token a partire da un prompt).
Analogie cerebrali: neuroni e tensori a confronto
Questo modo di ragionare mostra tutti i suoi limiti se applicato al cervello.
In fondo, si potrebbe dire, un neurone non è altro che una sommatoria a soglia non lineare con apprendimento hebbiano.
Globalmente, però, il cervello esibisce un comportamento linguistico che qualcuno potrebbe ridurre a mettere una parola dietro l’altra: cioè quello che sto facendo io in questo momento per scrivere questo articolo.
Il punto è che, per arrivare a prevedere quella famosa “parola successiva” o next token—tra il basso livello (un tensore bayesiano o una sinapsi hebbiana) e l’output finale—deve succedere qualcosa in mezzo ed è qui che l’argomento del pappagallo stocastico perde la sua forza.
Anatomia dell’attenzione: l’equazione fondamentale
Entriamo ancora di più nel dettaglio dell’algoritmo Transformer tenendo conto che, tra l’idea di base e l’implementazione commerciale di un LLM, ci sono numerosi livelli che aggiungono ulteriori gusci di complessità.
Partiamo dal cuore del sistema, l’equazione dell’attenzione (Vaswani et al. 2017):

In termini qualitativi, lo scopo di questa equazione (Dk è solo un fattore numerico di normalizzazione), è il calcolo delle matrici dell’attenzione Q e K sulla base del dataset V.
Praticamente, V contiene una porzione di testo su cui fare il training e Q e K sono le matrici che devono essere modificate fino a essere in grado di autogenerare V anche quando V è parzialmente nascosto.
A ogni iterazione, si toglie un pezzetto (un token o più) di V e si prova a modificare Q e K in modo che rigenerino la totalità di V.
In questo modo Q e K estraggono la conoscenza (e non soltanto la probabilità condizionale) contenuta nei testi usati per fare il training.
Così, quando il sistema riceve un prompt, genera il testo che, sulla base di tutta la conoscenza contenuta nei testi prodotti fino a quel momento, gli autori umani di questi testi, avrebbe probabilmente prodotto.
Q e K costruiscono un modello statistico che incarna la conoscenza che nei testi si è tradotta in legami probabilistici tra le parole.
In questo modo Q e K diventano in grado di generare nuovi testi che riflettono la struttura sintattico-semantica e, perché no, epistemica del testo di training.
Multi-head attention: l’intelligenza gerarchica
Ma non finisce qui. Un LLM non si limita a cercare legami tra parole, ma anche tra strutture più astratte e più globali.
I vari ChatGPT, Grok, Claude, DeepSeek o Gemini applicano l’equazione dell’attenzione sfruttando una struttura gerarchica iterativa in grado di creare collegamenti non solo tra parole (il famoso next token), ma anche tra strutture bayesiane a molteplici livelli di astrazione.
Ovviamente, a livello astratto, causalità e probabilità condizionata sono cose diverse, ma è un dato di fatto che la statistica bayesiana è una delle migliori approssimazioni matematiche che si possono dare della causalità tra fenomeni.
Fatte le debite ipotesi, un valore di P(A|B) pari a 1 è un ottimo indicatore del fatto che B causi A.
Strutture multiple di elaborazione
L’amplificazione dell’attenzione a livelli gerarchici multipli è implementato dal cosiddetto multi-head già introdotto da Vaswani (Vaswani et al. 2017), ma poi successivamente migliorato (Kwiatkowski et al. 2019; Granier and Senn 2025).
Il multi-head consiste nel procedere per vie multiple (in senso massivo) all’interno del dataset. Ogni head (“testa”) è un meccanismo di attenzione indipendente, cioè un piccolo blocco che prende l’input, lo proietta in uno spazio ridotto, calcola le matrici Q e K in quel contesto e produce un output.
Il dataset viene così percorso a livelli diversi di astrazione e di complementarietà. In questo modo si estraggono relazioni sintattiche e semantiche a livelli molteplici di astrazione.
Non è conoscenza linguistica questa? Non è, a tutti gli effetti, l’implementazione del livello epistemico e semiotico?
A parità di altre condizioni, non è, in fondo, quello che facciamo noi esseri umani quando leggiamo e costruiamo una rete di relazioni tra “concetti”?
Che cosa sono i concetti se non strutture condizionali nell’immensa rete di input linguistici che riceviamo fin da piccoli leggendo e ascoltando?
Le critiche degli esperti: Floridi e Quattrociocchi
Gli scettici, a questo punto, lamentano che non ci sono strutture che corrispondano a meccanismi deduttivi, pensiero o altro.
Per esempio, Luciano Floridi ha ripetutamente dichiarato che l’IA avrebbe «intelligenza zero» e secondo lui è una sciocchezza credere che l’IA «possa diventare intelligente anche solo come un gatto, che capisca o possa un giorno capire».
In altre circostanze, Walter Quattrociocchi ha sostenuto che gli LLM non sono intelligenti, perché non capiscono, ma fanno statistica.
Per lui, gli «LLM non capiscono il mondo: predicono la parola successiva in una sequenza, sulla base di correlazioni osservate in enormi corpus testuali. È un’operazione statistica, non epistemica. L’apparenza di intelligenza nasce dalla nostra propensione a riconoscere significato e intenzionalità in ciò che ha forma linguistica.» (Quattrociocchi 2025).
È la posizione perfetta dei next-tokenisti!
Meccanismi bayesiani: cervello e IA a confronto
Non trovo niente di sbagliato nella sua analisi degli LLM. Quattrociocchi non ha torto per quanto riguarda il meccanismo bayesiano, ma è sicuro che il cervello faccia qualcosa di diverso?
È sicuro che un sistema di milioni di parametri che catturano le relazioni epistemiche multiple come l’attenzione e il multi-head non catturi la conoscenza dal linguaggio?
Il pensiero e il capire, per quanto è dato da vedere, non esistono neppure a livello neurale se è per questo (Manzotti and Rossi 2023).
Ovviamente, un LLM manca di alcuni tasselli fondamentali per riprodurre una mente, tra i quali direi il corpo, la coscienza e le intenzioni.
Ma l’intelligenza come leggere tra, come meccanismo di estrazione della conoscenza epistemica da un corpus linguistico? Non mi sembra manchi nulla.
Il meccanismo multi-head applicato all’attenzione su scale multiple dell’algoritmo Transformer fa proprio questo: estrae dal linguaggio tutta la struttura causale-condizionale.
Questa struttura condizionale è molto vicina a quello che potremmo definire il livello semiotico dell’intelligenza.
Non è un caso che l’etimologia del termine «intelligenza» derivi da «leggere tra» ovvero cogliere le relazioni tra i termini del linguaggio o di un problema piuttosto che arrivate mentalmente al significato del mondo attraverso una fantomatica capacità, come la semantica o l’intenzionalità.
Alla ricerca della vera intelligenza
Quando gli esperti negano che oggi gli LLM pensino veramente, una domanda che sorge spontanea è «che cosa intendono per pensare veramente?».
Che cosa sarebbe la vera intelligenza?
Molti di loro hanno ereditato dalle scienze cognitive delle rappresentazioni del nostro pensiero (per esempio in termini di concetti e deduzioni) e sono alla ricerca di queste rappresentazioni all’interno dei meccanismi.
Non si rendono conto di confondere il modello dell’intelligenza con l’intelligenza stessa.
C’è un’autorevole tradizione che trovava nella competenza linguistica la base dell’intelligenza e cioè del leggere tra (Benveniste 1971).
Ovviamente, un animale o un essere umano hanno molto di più. Come si era detto sopra hanno un corpo, sono coscienti e hanno obiettivi.
Ma l’intelligenza? Che cosa sarebbe di più?
I next-tokenisti conoscono bene i meccanismi alla base degli LLM, ma cosa sanno del pensiero e del capire?
Forse, al netto del contorno ambientale e corporeo, non c’è veramente niente altro.
Non esiste nessuna definizione fisica del pensiero in quanto presenza invisibile tanto nei processi cognitivi quanto nell’attività neurale.
La lezione di Wittgenstein contro il pensiero magico
In fondo, già un secolo fa il grande Ludwig Wittgenstein ammoniva che «una delle idee logicamente più pericolose è l’idea che pensiamo con la testa, o nella testa. […] L’idea del pensare come di un processo che ha luogo nella testa; in uno spazio perfettamente conchiuso, conferisce al pensare un che di occulto.» (Wittgenstein 2007).
È strano che oggi molti esperti di IA difendano una posizione che ha qualcosa di magico.
Bibliografia
Agashe, Saaket, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, and Xin Eric Wang. 2024. ‘Agent S: An Open Agentic Framwork that Uses Computers like a Human’, arXiv, 2410.08164v1.
Azhar, Azeem, and Nathan Warren. 2025. ‘The paradox of GPT-5’, Accessed 14/8/2025.
Bender, Emily M., Timnit Gebru, Angelina McMillan-Major, and Shmargaret Shmitchell. 2021. “On the Dangers of Stochastic Parrots.” In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610-23.
Benveniste, E. 1971. Problemi di linguistica generale (Il saggiatore: Milano).
Bubeck, Sebastian, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Hortvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yanzhi Li, Li Scott, Scott Lundberg, Harsha Nori, Hamid Palngi, Marco Tulio, and Yi Zhang. 2023. ‘Sparks of Artificial General Intelligence: Early experiments with GPT-4’, arXiv, March 22: 1-154.
Chiriatti, Massimo, M. Ganapini, E. Panai, M. Ubiali, and Giuseppe Riva. 2024. ‘The case for human-AI interaction as system 0 thinking’, Nature Human Behavior, 8: 1829-30.
Clark, Andy, and David John Chalmers. 1998. ‘The Extended Mind’, Analysis, 58: 10-23.
Granier, Arno, and Walter Senn. 2025. ‘Multihead self-attention in cortico-thalamic circuits’, arxiv/Physics.
Jin, Peng, Bo Zhu, Li Yuan, and Shuicheng Yan. 2024. ‘MOH: Multi-head Attention as Mixture-of-Head Attention’, arxiv/Physics, 2410.11842v1
Kwiatkowski, Tom, Jennimaria Palomaki, Olivia Redfield, Michael Collins, Ankur Parikh, Chris Alberti, Danielle Epstein, Illia Polosukhin, Jacob Devlin, and Kenton Lee. 2019. ‘Natural questions: a benchmark for question answering research’, Transactions of the Association for Computational Linguistics, 7: 453-66.
Mangalam, Madhur. 2025. ‘The Variational Necromancy: A Forensic Autopsy of the Free Energy Principleìs Academic Corpse’, arXiv, May 28.
Manzotti, Riccardo, and Simone Rossi. 2023. IO & IA. Mente, cervello & GPT (Rubbettino: Soveria Mannelli).
OpenAI. 2023. ‘GPT-4 Technical Report’, arXiv, March 2023.
Putnam, Hilary. 1960. ‘Minds and Machines.’ in Sidney Hook (ed.), Dimensions of Mind (New York University Press: New York).
Quattrociocchi, Walter. 2025. ‘L’AI non è davvero intelligente, è una questione di statistica»’, Corriere della sera.
Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lucasz Kaiser, and Lilia Polosukhin. 2017. ‘Attention Is All You Need’, arXiv:, 1706.03762v5.
Wittgenstein, Ludwig. 2007. Zettel (Einaudi: Torino).











