Parte tutto da un paper, “The Illusion of Thinking”, in cui Apple mette in discussione la reale capacità dei Large Reasoning Models (LRM) di sostenere un pensiero articolato. Il test su puzzle logici mostra che anche i modelli più avanzati collassano di fronte alla complessità crescente, incapaci persino di seguire istruzioni corrette. Salesforce conferma, il divario tra large language model LLM e bisogni aziendali è ancora grande.
Si riaccende così il dibattito, è un limite dell’architettura transformer? Ha senso puntare su un unico reasoner generalista? O serve una nuova via, più modulare e situata, come sostiene in altri contesti, Yann LeCun? Tra le righe, si legge anche un posizionamento di Apple in un mercato dove ancora non gioca da protagonista.
Indice degli argomenti
Un paper che rompe il silenzio di Apple sull’AI generativa
Con il titolo “The Illusion of Thinking” , un gruppo di ricercatori Apple ha pubblicato uno studio che evidenzia i limiti strutturali dei cosiddetti Large Reasoning Models (LRM), ovvero le versioni evolute dei modelli linguistici (LLM) progettate per eseguire catene di pensiero articolate, riflessioni e verifiche logiche. L’articolo arriva in un momento strategico: Apple, che non ha ancora rilasciato un proprio LLM generalista, ha recentemente annunciato al WWDC 2025 l’integrazione di GPT-4 per alcune funzioni evolute del suo ecosistema, delegando a provider esterni la parte “generativa”.
Nel frattempo, firma un paper tecnico che sembra anche un atto politico, mettere in dubbio la traiettoria seguita finora da OpenAI, Anthropic, Google e altri. Una posizione coerente con la visione strategica già espressa da Apple, meno hype, più affidabilità, più privacy, meno generalismo e maggiore concretezza di implementazione. Un modello alternativo, non solo di AI ma anche di innovazione.
Come funzionano i reasoning model e perché falliscono
I modelli di ragionamento sono un’estensione dei LLM, incorporano tecniche come la chain-of-thought prompting, la self-reflection, e meccanismi di verifica interna. L’obiettivo è avvicinarli a un comportamento cognitivo umano, non solo predire parole, ma risolvere problemi logici, fare piani, riflettere su sé stessi. A differenza degli LLM tradizionali, che si limitano a generare output plausibili data una sequenza di input, i reasoning model cercano di attivare una forma di elaborazione intermedia che imiti processi mentali umani, inferenza, deduzione, pianificazione.
Sono i candidati ideali per compiti come la programmazione, il problem solving strutturato o il supporto decisionale. Questa ambizione espone anche i limiti intrinseci dell’architettura sottostante. I reasoning model non dispongono di un vero stato mentale interno, né di un ciclo deliberativo, sono ancora, nella sostanza, sequenze di predizione statistica vestite da coerenza logica. Questo potrebbe spiegare perché falliscono proprio dove servirebbe davvero “pensare”. Ma possono farlo davvero? Fino a che punto?
Il collasso cognitivo nei test logici: evidenze dal paper
Nel paper i ricercatori Apple hanno sottoposto diversi Large Reasoning Models, tra cui Claude 3.7 Thinking, DeepSeek R1 e OpenAI o3, a test su ambienti classici come la Torre di Hanoi[1], il River Crossing e il Blocks World[2], aumentando progressivamente la complessità dei compiti logici.
Le evidenze raccolte tracciano una dinamica ricorrente e inquietante, se a bassa complessità i modelli standard (senza componenti “thinking”) si dimostrano addirittura più efficaci, all’aumentare della difficoltà emerge un breve vantaggio per i modelli dotati di capacità riflessive. Superata una soglia critica, tutti i modelli, indistintamente, collassano. Non si tratta solo di errori di calcolo o imprecisioni, ma di veri e propri cortocircuiti cognitivi, i modelli smettono di “pensare” proprio quando dovrebbero farlo di più, interrompendo la catena logica, confondendo le istruzioni o addirittura ignorandole del tutto. Tra l’altro in un’altra analisi era emerso anche un problema di allucinazioni frequenti per questi modelli.
Inoltre, ancora più emblematico è il fatto che, anche fornendo loro in input un algoritmo corretto, i modelli non riescono a seguirlo, manca la capacità di eseguire logicamente i passi previsti. Il collasso avviene non per mancanza di token o per overload computazionale, ma per un deficit strutturale nella capacità di mantenere e manipolare coerentemente rappresentazioni logiche complesse nel tempo. In altri termini, non è solo illusione di pensiero, è illusione di comprensione, di sequenzialità, di coerenza operativa.
Reazioni della community tech e polarizzazione del dibattito
La pubblicazione del paper ha immediatamente acceso il dibattito all’interno della community tecnologica, dando vita a una fitta rete di discussioni che si sono propagate attraverso thread su X, post su Substack e conversazioni nei gruppi Signal riservati agli addetti ai lavori. Da un lato, i sostenitori dell’approccio “scaling will solve it” hanno minimizzato i risultati, sostenendo che i fallimenti osservati sono temporanei e superabili con maggiore potenza computazionale o più dati. Dall’altro, i critici hanno colto nel paper un segnale importante, un punto di discontinuità che mette in discussione la narrativa dominante sugli LLM come surrogati del pensiero umano. In questo clima, l’intervento del Wall Street Journal, che ha enfatizzato come i compiti proposti fossero alla portata di un bambino ben istruito, ma non delle AI più avanzate, ha reso ancora più evidente la distanza tra le aspettative pubbliche e le capacità effettive dei modelli. La polarizzazione del confronto riflette così una tensione più ampia, quella tra la retorica entusiastica sull’AI generalista e la necessità di rivedere le fondamenta concettuali e architetturali su cui poggia.
Altre chiavi di lettura possibili
Il comportamento dei modelli AI ricorda l’effetto Dunning-Kruger: mostrano sicurezza in compiti che non comprendono. L’apparenza di coerenza inganna sviluppatori e utenti, creando una falsa percezione di intelligenza
Dunning-Kruger, la sovrastima del pensiero
L’effetto Dunning-Kruger, secondo cui individui poco competenti tendono a sovrastimare le proprie capacità, trova una curiosa analogia nel comportamento dei modelli AI analizzati nel paper Apple. Questi sistemi, infatti, mostrano una sorprendente sicurezza anche nei compiti per i quali non possiedono le capacità logiche necessarie. La loro risposta formale, spesso strutturata e apparentemente coerente, inganna non solo gli utenti ma talvolta anche gli stessi sviluppatori, portando a credere che sia in atto un ragionamento autentico. In realtà, come sottolinea il paper, l’illusione si rompe proprio nei passaggi più complessi, dove il modello non solo fallisce ma non riconosce nemmeno il proprio errore. Da qui nasce un altro rischio, quello che i creatori di questi modelli, forti dei progressi ottenuti in ambiti linguistici e percettivi, sopravvalutino il livello di generalizzazione raggiunto, confondendo la forma esteriore del pensiero con la sua sostanza. In questa prospettiva, il lavoro di Apple assume anche un significato metacognitivo, mostrare che il “pensiero” generato non è ancora dotato della consapevolezza del proprio limite.
Apple e la storia della volpe e l’uva: posizionamento strategico o critica opportunistica?
Apple non ha ancora un modello di linguaggio proprietario paragonabile a quelli dei principali player del settore, ma ha deciso di mettere in discussione i limiti di quelli attuali. In questo senso, una possibile chiave di lettura del paper è quella della parabola della volpe e dell’uva, meglio dire che “l’uva è acerba”. Ma il messaggio potrebbe essere più sottile. Invece di inseguire direttamente l’hype dell’AI generativa, Apple sembra voler costruire una narrazione alternativa, dove la critica ai modelli “thinking” altrui si configura come posizionamento strategico e branding etico. Un modo per comunicare, “ci arriveremo, ma senza illusioni, senza accettare compromessi su affidabilità, privacy e sostenibilità”. Non è solo marketing, ma un tentativo di reimpostare i termini del confronto in un settore che finora ha premiato più la velocità della riflessione.
Verso una AI modulare e contestuale
Ha senso utilizzare lo stesso reasoner in medicina e nella finanza, due domini caratterizzati da linguaggi, priorità e logiche decisionali profondamente differenti? Probabilmente no. I contesti applicativi pongono esigenze diverse, nel primo caso, il ragionamento è spesso orientato alla diagnosi, alla gestione dell’incertezza e all’interazione empatica; nel secondo, è più vicino all’analisi quantitativa, all’ottimizzazione e alla valutazione del rischio. Cercare un unico modello capace di affrontare entrambi i contesti rischia di produrre un’intelligenza generica ma inefficace, che ragiona ovunque e bene da nessuna parte. Per questo sta emergendo l’idea che non serva un ragionatore universale, bensì una costellazione di moduli cognitivi verticali, specializzati e orchestrabili, capaci di adattarsi ai vincoli specifici del dominio. La sfida diventa allora non costruire una mente artificiale onnisciente, ma progettare architetture modulari che mettano insieme competenze specialistiche in modo sinergico e contestuale.
I limiti strutturali dei transformer secondo Apple e LeCun
Yann LeCun, chief scientist di Meta AI, ha affermato chiaramente che non è più interessato a scalare l’architettura dei transformer: “I sistemi autoregressivi presentano limiti strutturali: non è sufficiente incrementare il numero di parametri, la quantità di dati o la potenza computazionale per superarli.”.
Secondo lui, entro cinque anni probabilmente non saranno più utilizzati come nucleo dell’intelligenza artificiale, perché non consentono una vera memoria persistente, ragionamento strutturato o complessa pianificazione. Il paper di Apple, pur non citando esplicitamente LeCun, sembra confermare una diagnosi simile: il crollo del reasoning in ambienti ad alta complessità non dipende dalla quantità di token o dalla potenza computazionale, ma appare radicato nelle caratteristiche strutturali dei transformer. I modelli smettono di “pensare” proprio quando dovrebbero farlo di più, suggerendo che i limiti non siano contingenti ma architetturali. In questo senso, forse, sia LeCun che Apple convergono verso l’idea che servano nuove architetture, più capaci di sostenere modelli di pensiero coerenti, dinamici e contestuali.
Reasoning AI: illusione tecnologica o punto di svolta
Il paper di Apple segna un momento critico nel dibattito sull’intelligenza artificiale: non tanto perché svela limiti finora ignoti, ma perché costringe a cambiare il fuoco della riflessione.
L’illusione di “pensiero” che circonda i modelli autoregressivi non è solo una questione tecnica, è una lente che rivela quanto il nostro entusiasmo per la performance linguistica abbia oscurato la domanda più rilevante, non se questi modelli sappiano ragionare, ma in quali condizioni abbia senso che lo facciano, come e perché. In una recente intervista, lo storico di fama internazionale Niall Ferguson ha affermato che molta della confusione sull’intelligenza artificiale nasce dal sovrapporre i large language model all’AI nel suo complesso.
Secondo Ferguson, i LLM sono strumenti che simulano il linguaggio umano generando contenuti che sembrano intelligenti, ma in realtà sono solo “giocattoli sofisticati”, utili per scrivere testi o creare immagini, non per pensare davvero. Il vero nodo dell’AI, aggiunge, è altrove, nella sua capacità di condurre ricerca scientifica autonoma, progettare virus, sviluppare armi senza intervento umano. È qui che si gioca la posta in gioco più profonda e pericolosa.
Da questo punto di vista, il paper può rappresentare uno spartiacque, ma gli scenari aperti sono molteplici. In uno scenario evolutivo lineare, i limiti messi in luce potrebbero essere progressivamente superati grazie a una maggiore potenza di calcolo, dataset più raffinati, tecniche di prompt engineering più sofisticate. In questa prospettiva, l’attuale crisi del reasoning sarebbe solo una tappa temporanea, simile ai momenti di stallo che ogni tecnologia attraversa prima di una nuova impennata. In un secondo scenario, invece, questi limiti rappresentano un punto di saturazione dell’architettura transformer, che richiede un cambio di paradigma: l’abbandono del dogma autoregressivo in favore di architetture più ibride, con elementi di memoria, deliberazione, pianificazione.
È la visione che LeCun ha già abbracciato e che anche Apple, tra le righe, sembra suggerire. In un terzo scenario, quello più radicale ma anche più promettente, il futuro non appartiene né ai modelli generalisti né ai reasoning universali, ma a ecosistemi di modelli specialistici, orchestrabili e contestuali, agenti modulari, verticali, capaci di collaborare in ambienti situati.