intelligenza artificiale

“Il frambolo è sturnio”: il paradosso delle regole li linguistiche tra umani e LLM

Un test su frasi “soggetto-copula-predicato” mostra che umani e LLM generano enunciati corretti anche con parole inventate, segno di generalizzazione. Dal training token-by-token ai probe sintattici, il testo contrappone regole esplicite e pattern appresi, tra Wittgenstein-Kripke e Günther

Pubblicato il 2 feb 2026

Francesco D'Isa

filosofo, scrittore e artista digitale

agenzia entrate intelligenza artificiale compliance ia

Se chiediamo a un essere umano di costruire frasi della forma soggetto + copula + predicato, la risposta è immediata: “Il gatto è nero”, “La primavera è sbocciata”, “L’acqua è fresca”, eccetera. La giusta formulazione – si dice – dipende dall’aver interiorizzato delle regole per la formazione del linguaggio, spesso in modo inconsapevole. Fin qui tutto chiaro: ma siamo sicuri di conoscere quali sono queste regole?

La frontiera del linguaggio tra uomo e macchina: cosa cambia coi large language model

Pensiamo ora a un modello linguistico di grandi dimensioni (LLM). Alla richiesta di generare frasi nella stessa struttura, produce non solo sequenze plausibili con parole note, ma anche con termini inventati, come ad esempio “Il frambolo è sturnio” (come noi, del resto). Provateci: questa frase è una delle centinaia che gli ho fatto generare, tutte corrette. Questa produzione non può essere una copia dal dataset e indica generalizzazione su schemi morfosintattici anche con lessico inedito. Ne consegue che né l’umano né il modello si limitano a ripetere formule preimparate e che entrambi applicano regolarità che permettono di trattare anche del materiale inedito.

Indice degli argomenti

Generalizzazione linguistica negli LLM: dal “prossimo token” agli effetti complessi

Nei modelli linguistici di grandi dimensioni il principio di base è semplice: imparare a predire il prossimo token, dato un contesto. Questa operazione elementare, ripetuta miliardi di volte su enormi corpora di dati, porta però a effetti complessi. Non che sia davvero tutto qui: nella pratica, varianti architetturali e fasi di allineamento (come il fine-tuning con feedback umano) integrano e modificano questo meccanismo di fondo.

Durante l’addestramento, la rete neurale sviluppa rappresentazioni distribuzionali che catturano regolarità, sia locali (ad esempio le co-occorrenze frequenti di parole) sia a lungo raggio (accordi soggetto-verbo, dipendenze sintattiche e fenomeni di livello superiore come ruoli semantici e coreferenze). I primi studi sui modelli Transformer, in particolare su BERT, mostrarono che nei livelli intermedi emergono tracce riconoscibili di informazione sintattica: con tecniche di probing è possibile ricostruire in buona approssimazione la gerarchia ad albero delle frasi (Hewitt & Manning 2019; Tenney et al. 2019; Clark et al. 2019).

Sebbene BERT sia un modello encoder addestrato a predire parole mascherate, e quindi orientato alla comprensione, evidenze analoghe sono state poi osservate anche nei modelli autoregressivi di tipo GPT, dedicati alla generazione. Analisi su GPT-2 XL indicano che la sensibilità alla grammaticalità si distribuisce nei layer secondo pattern regolari (He et al. 2024), mentre prove su GPT-3 documentano il riconoscimento di tratti come numero e tempo verbale in contesti variabili (Zhang et al. 2022).

Cosa “misurano” i probe: informazione presente, non regole in uso

L’informazione sintattica, dunque, sebbene non sia codificata come regole simboliche esplicite, risulta comunque accessibile e recuperabile dalle rappresentazioni interne. È però necessaria una precisazione: il fatto che tali regolarità siano rilevabili non implica che il modello le utilizzi effettivamente nella generazione. I probe dimostrano che l’informazione è presente, ma non che costituisca il principio operativo durante la produzione del testo (Belinkov & Glass 2019). Con i modelli linguistici, insomma, non c’è mai da fidarsi troppo.

Generalizzazione linguistica negli LLM e frasi con parole inventate

È questo meccanismo a rendere possibile la generazione di frasi grammaticali con termini inediti. Se il modello ha appreso lo schema “articolo + sostantivo + è + aggettivo”, potrà applicarlo anche a parole mai viste insieme, purché rispettino la morfologia della lingua. In altre parole, la produzione di sequenze come “Il frambolo è sturnio” non è una (impossibile) copia dal dataset, ma una generalizzazione probabilistica a partire da regolarità statistiche.

Ciò non significa che i modelli non possano memorizzare porzioni di testo: esistono fenomeni documentati soprattutto per sequenze rare o ripetute nei dati (Carlini et al. 2021). Ma la possibilità di combinare elementi nuovi mostra che non si riducono a un archivio di citazioni e che la predizione token per token genera uno spazio combinatorio capace di produrre creatività grammaticale.

Umane regole grammaticali: acquisizione, non spiegazione a posteriori

Se per i modelli linguistici conosciamo i meccanismi di base, per gli esseri umani la situazione è molto più incerta. Quando chiediamo a una persona di spiegare come costruisce una frase, la risposta tipica è che “applica regole grammaticali”: un racconto cosciente che presuppone la presenza di procedure simboliche esplicite. Ma questa descrizione introspettiva potrebbe essere fuorviante, soprattutto se consideriamo il fatto che i bambini imparano a parlare ben prima di poter esplicitare delle regole (Tomasello 2003).

È importante distinguere tra l’acquisizione del linguaggio e la formalizzazione successiva delle regole. Un bambino impara a parlare senza conoscere né applicare consapevolmente regole grammaticali: esse vengono codificate successivamente dalla comunità linguistica per normare l’uso e per trasmettere in modo più rapido competenze che altrimenti richiederebbero un lungo processo di esposizione. Analogamente, un LLM apprende regolarità linguistiche dall’input senza che vi siano regole simboliche predefinite.

Tuttavia, sia gli umani sia i modelli possono adattarsi a regole esplicite quando queste vengono loro imposte: possiamo chiedere a uno studente di evitare il congiuntivo o a un LLM di scrivere un testo senza mai usare la vocale “a”, e in entrambi i casi l’agente tenta di adeguarsi a una prescrizione esterna. In questo senso, la differenza tra “seguire una regola” e “riprodurre un pattern” appare più sfumata di quanto sembri.

Teorie a confronto: simboli, connessionismo e modelli ibridi

Per quanto riguarda gli esseri umani, la linguistica e le scienze cognitive hanno proposto modelli molto diversi. La tradizione generativista, a partire da Chomsky, sostiene l’esistenza di una grammatica universale innata che struttura la competenza linguistica. In ambito filosofico-cognitivo, Fodor e Pylyshyn hanno difeso l’idea di un’architettura cognitiva simbolica e di regole esplicite, contrapponendosi alle ipotesi connessioniste.

Queste ultime, a partire da Rumelhart e McClelland, concepiscono la produzione linguistica come emergente da reti distribuite che apprendono regolarità statistiche dall’input. Approcci probabilistici successivi hanno esteso questa linea, modellando l’apprendimento linguistico come inferenza bayesiana. Più recentemente, ipotesi ibride come il predictive coding hanno cercato di conciliare i due poli, interpretando regole e probabilità come aspetti di un unico meccanismo adattivo.

In altre parole, non sappiamo con precisione se il cervello operi tramite regole simboliche rigide, attraverso pattern distribuzionali simili a quelli dei modelli neurali, o con un misto dei due. Quel che osserviamo con certezza è il comportamento: gli esseri umani, come gli LLM, sono in grado di generare frasi nuove e grammaticalmente corrette. Che i processi sottostanti siano simili o differenti è una questione ancora aperta, ed è proprio qui che il confronto con i modelli artificiali può offrire indizi utili.

Antropomorfismo, “sé” e racconti post hoc

Un aspetto che accomuna esseri umani e modelli linguistici è la nostra difficoltà di interpretare correttamente ciò che accade dietro le quinte. Nel caso degli LLM, il problema nasce anche dall’antropomorfismo: di fronte a un testo fluente e coerente, siamo portati a proiettare categorie umane come intenzione, comprensione o desiderio. In realtà, sappiamo che la generazione deriva dall’ottimizzazione statistica e che non c’è un sé che scelga le parole, anche se il risultato ci induce a pensarlo.

Già, ma per gli esseri umani questo “sé” esiste? Hume e Buddha sarebbero in netto disaccordo. La narrazione cosciente ci fa pensare di applicare regole grammaticali o di “pensare a cosa dire”, ma la ricerca psicologica e neuroscientifica (come anche un’onesta introspezione) suggerisce che questa impressione può essere ingannevole. I processi linguistici sono in gran parte automatici, e la spiegazione che forniamo a posteriori non coincide necessariamente con le operazioni neurali che hanno generato la frase (Nisbett & Wilson 1977).

Il paradosso delle regole: Kripke, Wittgenstein e l’oggettività impossibile

Ma non è l’unico problema in gioco. Il filosofo, logico e matematico Saul Kripke, riprendendo Wittgenstein, ha formulato il cosiddetto paradosso delle regole: non esiste un criterio oggettivo e privato per stabilire se un individuo stia davvero “seguendo una regola” oppure un’altra, perché qualunque serie finita di applicazioni può essere compatibile con infinite interpretazioni.

Dire di applicare una regola, quindi, non dimostra che sia quella regola a guidare il comportamento: è piuttosto una narrazione che si fonda sull’uso condiviso all’interno di una comunità linguistica.

Marketing, categorie vaghe e l’uscita dallo stallo

Il confronto tra esseri umani e modelli linguistici porta dunque a una contrapposizione sterile, che attribuisce o nega categorie vaghe (pensiero, intelligenza, comprensione) secondo criteri ancor più discutibili (funzionare o meno con la statistica). Più che un dibattito, è un modo di portare avanti un’agenda di marketing: da parte delle Big Tech per osannare le loro macchine, da parte di professori e giornalisti per consolarci dall’ennesimo trauma copernicano – e dalla paura di essere più macchine di quel che desideriamo.

La conseguenza è che la definizione di “intelligenza” non viene data in via provvisoria per capire il funzionamento dei meccanismi cognitivi (umani e non), ma assemblata a fatica al solo scopo di escludere o includere le macchine.

Generalizzazione linguistica negli LLM e “terza sfera”: la proposta di Günther

Una prospettiva interessante per uscire da questo stallo è quella del filosofo tedesco Gotthard Günther, attivo negli anni Sessanta e in dialogo con la tradizione cibernetica. Nel 1963 (ripeto: nel 1963) Günther osservava che molte funzioni tradizionalmente attribuite all’“interiorità” — memoria, intelligenza, spontaneità — possono essere scisse dal soggetto e trattate come processi informazionali autonomi. Da questa intuizione deriva l’idea di una “terza sfera”: né soggetto cosciente, né semplice oggetto esterno, ma un dominio di processi intelligenti produttori di informazione, formalizzabili da leggi matematico-statistiche.

Secondo Günther, per descrivere questa nuova dimensione occorre abbandonare la logica aristotelica binaria (vero/falso, soggetto/oggetto) e adottare sistemi trivalenti o polivalenti, più adeguati a cogliere la complessità dei processi cibernetici. Una prospettiva che negli anni Sessanta poteva sembrare quasi “fantafilososcienza”, ma che oggi torna attuale.

I modelli linguistici artificiali sembrano incarnare proprio questa “terza sfera”: né umani, né meri strumenti meccanici, bensì sistemi che generano informazione con regolarità e creatività proprie. Queste operazioni avvengono sulla base di dataset che rispetto agli umani presentano evidenti limiti (manca l’immensa mole dei dati sensoriali) e vantaggi (hanno letto più libri di quanti mai potremo leggerne).

E con architetture su cui ogni parallelo è inevitabilmente speculativo, sebbene sia senza dubbio un dato interessante il fatto che è empiricamente possibile una notevole produzione di testo dotato di senso e valore informativo attraverso tecnologie statistiche. Da questo punto di vista, le IA offrono un dato empirico che non può lasciare indenni le nostre idee: molte funzioni di quella che chiamiamo (chiamavamo?) intelligenza si possono produrre meccanicamente con la statistica.

Riconsiderare i confini del pensiero alla luce di questa intuizione significa riconoscere che le categorie classiche — coscienza, pensiero, soggetto — non sono più sufficienti a descrivere ciò che osserviamo nei sistemi complessi, siano essi biologici o artificiali. Forse, invece di chiederci se gli LLM “pensano”, dovremmo interrogarci su quali nuove categorie logiche e filosofiche siano necessarie per comprendere il loro funzionamento.

Bibliografia

● Belinkov, Yonatan, and James Glass. 2019. “Analysis Methods in Neural Language Processing: A Survey.” Transactions of the Association for Computational Linguistics 7: 49–72. https://doi.org/10.1162/tacl_a_00254.

● Carlini, Nicholas, Florian Tramèr, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Úlfar Erlingsson, Alina Oprea, and Colin Raffel. 2021. “Extracting Training Data from Large Language Models.” In 30th USENIX Security Symposium (USENIX Security ’21). https://www.usenix.org/conference/usenixsecurity21/presentation/carlini-extracting.

● Chomsky, Noam. 1965. Aspects of the Theory of Syntax. Cambridge, MA: MIT Press.

● Clark, Andy. 2013. “Whatever Next? Predictive Brains, Situated Agents, and the Future of Cognitive Science.” Behavioral and Brain Sciences 36 (3): 181–204. https://doi.org/10.1017/S0140525X12000477.

● Clark, Kevin, Urvashi Khandelwal, Omer Levy, and Christopher D. Manning. 2019. “What Does BERT Look at? An Analysis of BERT’s Attention.” In Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, 276–286. Florence: Association for Computational Linguistics. https://doi.org/10.18653/v1/W19-4828.

● Fodor, Jerry A., and Zenon W. Pylyshyn. 1988. “Connectionism and Cognitive Architecture: A Critical Analysis.” Cognition 28 (1–2): 3–71. https://doi.org/10.1016/0010-0277(88)90031-5.

● Friston, Karl. 2010. “The Free-Energy Principle: A Unified Brain Theory?” Nature Reviews Neuroscience 11 (2): 127–138. https://doi.org/10.1038/nrn2787.

● Günther, Gotthard. 1963/2024. La coscienza delle macchine: Una metafisica della cibernetica. Edited by Alberto Giustiniano. Translated by Rossella Maraffino. Napoli: Orthotes.

● He, Linyang, Peili Chen, Ercong Nie, Yuanning Li, and Jonathan R. Brennan. 2024. “Decoding Probing: Revealing Internal Linguistic Structures in Neural Language Models Using Minimal Pairs.” arXiv 2403.17299. https://arxiv.org/abs/2403.17299.

● Hewitt, John, and Christopher D. Manning. 2019. “A Structural Probe for Finding Syntax in Word Representations.” In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-HLT 2019), 4129–4138. Minneapolis: Association for Computational Linguistics. https://doi.org/10.18653/v1/N19-1419.

● Kripke, Saul A. 1982. Wittgenstein on Rules and Private Language: An Elementary Exposition. Cambridge, MA: Harvard University Press.

● Linzen, Tal, Emmanuel Dupoux, and Yoav Goldberg. 2016. “Assessing the Ability of LSTMs to Learn Syntax-Sensitive Dependencies.” Transactions of the Association for Computational Linguistics 4: 521–535. https://doi.org/10.1162/tacl_a_00115.

● Nisbett, Richard E., and Timothy DeCamp Wilson. 1977. “Telling More Than We Can Know: Verbal Reports on Mental Processes.” Psychological Review 84 (3): 231–259. https://doi.org/10.1037/0033-295X.84.3.231.

● Ouyang, Long, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, et al. 2022. “Training Language Models to Follow Instructions with Human Feedback.” In Advances in Neural Information Processing Systems 35 (NeurIPS 2022). https://arxiv.org/abs/2203.02155.

● Rumelhart, David E., and James L. McClelland. 1986. Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Volume 1: Foundations. Cambridge, MA: MIT Press.

● Tenney, Ian, Dipanjan Das, and Ellie Pavlick. 2019. “BERT Rediscovers the Classical NLP Pipeline.” In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019), 4593–4601. Florence: Association for Computational Linguistics. https://doi.org/10.18653/v1/P19-1452.

● Tomasello, Michael. 2003. Constructing a Language: A Usage-Based Theory of Language Acquisition. Cambridge, MA: Harvard University Press.

● Zhang, Lining, Mengchen Wang, Liben Chen, and Wenxin Zhang. 2022. “Probing GPT-3’s Linguistic Knowledge on Semantic Tasks.” In Proceedings of the Fifth BlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP (EMNLP 2022 Workshops), 297–304. Abu Dhabi: Association for Computational Linguistics. https://aclanthology.org/2022.blackboxnlp-1.24/.

@RIPRODUZIONE RISERVATA