l’analisi

LLM: cosa c’è davvero di nuovo oltre il deep learning e i transformer

Gli LLM mostrano capacità sorprendenti e alimentano il dibattito su AGI e super-intelligenza. Tra entusiasmi e timori, cresce il peso di dati e potenza di calcolo. Il Web ha favorito questa evoluzione e si profila un futuro di agenti autonomi, con nuove sfide

Pubblicato il 4 mar 2026

Marco Gori

Professore ordinario di Informatica presso la Facoltà di Ingegneria, Università di Siena

costo LLM e RAG nell'automazione Funzionamento dei modelli ai Vulnerabilità dei LLM red-teaming LLM verifica LLM LLM open source introspezione dei modelli linguistici

Gli LLM sono intelligenti e creativi? Se si adottano valutazioni funzionali ispirate al concetto di Turing, la risposta non può che essere affermativa! Negli ultimi anni, la discussione si è estesa ben oltre l’intelligenza limitata a compiti specifici, sconfinando nel territorio dell’intelligenza artificiale generale (AGI) e, perfino dell’ “Artificial Super-Intelligence” (ASI).

Gli attori che si impegnano in queste discussioni devono tenersi in equilibrio su un pavimento piuttosto scivoloso, dove le abilità oratorie sono molto più importanti delle qualità scientifiche. Si vince con i clic, e spesso dominano tesi popolari e democratiche. Peccato che la Scienza abbia molto poco a che fare con le tesi popolari e democratiche!

Ex-Google CEO: What Artificial Superintelligence Will Actually Look Like w/ Eric Schmidt & Dave B

Guarda questo video su YouTube

L’esplosione di interesse nei Large Language Models (LLM) pone per la prima volta nella Storia straordinarie sfide all’Homo Sapiens che, forse non è più la sola struttura biologica a supportare processi cognitivi significativamente rilevanti. Questo divide l’opinione di scienziati e di imprenditori ed apre ovviamente nuove straordinarie sfide sul senso profondo della conoscenza. Eric Schmidt, amministratore delegato di Google dal 2001 al 2011, è uno dei sostenitori dell’emergenza di una vera e propria super-intelligenza, che va oltre la somma di tutti gli esseri umani. Sostiene che «è ragionevole prevedere che, entro cinque anni, avremo esperti prodigio di IA specializzati in ogni campo e che il limite naturale dell’IA è l’elettricità, non i chip.»

L’esplosione dell’AI crea tuttavia anche una certa apprensione. Tra coloro che pare abbiano trovato inquietante quanto accaduto, vale la pena ricordare che ci sono scienziati come Geoffrey Hinton e Yoshua Bengio. All’inizio della sua celebre lezione sul confronto tra intelligenza umana e artificiale, Hinton dice:

«Se dormirete bene stanotte, potreste non aver capito questa lezione!»

Will AI outsmart human intelligence? - with 'Godfather of AI' Geoffrey Hinton

Guarda questo video su YouTube

Egli sostiene poi che la sua incessante ricerca di modelli computazionali biologicamente plausibili si è scontrata infine con la realtà di un’intelligenza digitale superiore all’intelligenza analogica presente in natura (a partire dal modo in cui le strutture digitali sfuggono alla mortalità e violano i vincoli riproduttivi della natura). Non ricordo se ho dormito bene dopo la lezione di Hinton, ma certamente quell’inquietudine mi ha pervaso in qualche modo, a prescindere dalle sue posizioni.

Indice degli argomenti

LLM e super-intelligenza tra AGI, ASI e definizioni scivolose

Eppure altri scienziati appaiono piuttosto scettici sul raggiungimento dell’AGI, per non parlare dell’ASI. In effetti, l’obiettivo di dualizzare il “pensiero” conduce in sentieri piuttosto scivolosi.

Con riferimento all’AGI, Paolo Benanti¹ a tal proposito scrive: « Con un obiettivo così vago e mutevole, ogni successo tecnologico sembrerà sempre provvisorio, lasciandoci intrappolati in un ciclo in cui ridefiniamo l’intelligenza proprio per escludere le macchine che iniziano a manifestarla. In questa etica di frontiera, la vera sfida non è più tecnologica, ma filosofica: dobbiamo decidere se siamo disposti a condividere il podio della cognitività o se continueremo a spostare i pali della porta pur di rimanere gli unici giocatori in campo.»

LLM: cambio di paradigma o continuità storica

Ma come è stato possibile che siano emerse queste nuove strane strutture biologiche capaci di supportare rilevanti processi cognitivi? Come avrebbe interpretato Thomas Kuhn [1] gli straordinari risultati scientifici di OpenAI? Si tratta di un cambio di paradigma? La risposta è certamente almeno controversa.

Se ci concentriamo sui contenuti puramente scientifici, forse il vero cambio di paradigma è stato segnato dall’ondata connessionista della fine degli anni Ottanta [2], quando prese piede il principio secondo cui gli algoritmi non vengono scritti per risolvere problemi, ma per imparare a risolverli. Emerse l’idea che non solo i meccanismi percettivi ma anche i processi decisionali potessero essere modellati attraverso la matematica del continuo invece della matematica discreta alla base degli algoritmi.

Oltre il connessionismo: cosa è davvero nuovo negli LLM

Ma c’è, oltre il connessionismo, qualcosa di veramente nuovo? Il deep learning era maturo da tempo e la generazione di sequenze non era una novità; lo schema di apprendimento auto-supervisionato che fornisce il protocollo di predizione del prossimo token era già stato testato. L’idea del Transformer è particolarmente buona, ma forse è stata anche un po’ sopravvalutata. Inoltre, non è nemmeno molto efficiente.

Certamente, il pre-addestramento su enormi collezioni di dati per la predizione linguistica del token successivo ha giocato un ruolo importante. Quelle idee fluttuavano da tempo in diverse forme, ma chiunque abbia studiato il Machine Learning e «abbia provato a girare le viti del software» era ben consapevole di possedere modelli piuttosto primitivi rispetto alle strutture neurali biologiche.

La “forza bruta” come nuova coordinata epistemologica

Appare però innegabile il fatto che la specifica struttura artificiale poggiata su grandi collezioni di dati e potenza di calcolo ha agito come una leva, nobilitando i giocattoli da laboratorio. Forse è necessaria una nuova interpretazione epistemologica; questi nuovi agenti intelligenti sembrano essere emersi, almeno in gran parte, dalla forza bruta. È la forza bruta che sembra aver elevato i giocattoli al livello ora mostrato dalle “sette sorelle” e da altre “piccole” aziende come OpenAI e Anthropic.

Queste aziende, che hanno internato alcuni dei più grandi scienziati del settore e selezionato ingegneri di alto profilo, hanno costruito straordinarie architetture di calcolo che giocano un ruolo fondamentale non solo per le applicazioni del mondo reale, ma persino per il cambiamento rivoluzionario nei modi in cui viene condotta la stragrande maggioranza delle attività scientifiche.

Per la prima volta nell’Epistemologia, emerge una strana nuova coordinata nei cambi di paradigma della Scienza: la forza bruta!

Continuità nell’IA: sorpresa, euristiche e problem solving

Sebbene possa apparire strano, in fondo, a pensarci bene, l’emergere di qualità cognitive straordinarie in modelli semplici ha una lunga tradizione nell’IA. La risoluzione di enigmi come il gioco del quindici o il Cubo di Rubik si ottiene attraverso classici algoritmi di “problem solving”.

Da decenni sappiamo che è possibile trovare la soluzione ottimale attraverso algoritmi come A⋆ [3], che si basano sull’uso di euristiche che stimano la distanza dall’obiettivo. Chiunque si sia cimentato con questi algoritmi ne rimane stupito, specialmente per mosse che vengono comunemente giudicate contro-intuitive, ma che poi si rivelano brillanti e incredibilmente efficaci.

Quelle euristiche ricordano la discesa del gradiente verso l’obiettivo nell’apprendimento delle reti neurali. Insomma, la sorpresa che spunta nella sfida linguistica con gli LLM non è certo nuova ad altri settori della storia dell’IA.

Collaboratori artificiali, coerenza e “vibe coding”

Mi incuriosisce notare che nei miei studi, a quelle domande a cui so di dover dedicare molto tempo per cercare di rispondere, i miei «collaboratori artificiali» sono capaci di articolare elementi pertinenti, tracciare percorsi e abbozzare possibili soluzioni in pochi secondi.

Ed è ancora più imbarazzante notare la coerenza in lunghe sessioni di discussione e il beneficio di simulazioni intermedie attraverso codice che, una volta eseguito, offre altri stimoli anche per la formalizzazione di nuovi risultati fondazionali. Queste offerte di codice sono solo un assaggio di ciò che accade poi nella progettazione di sistemi software complessi attraverso le tecnologie di “vibe coding”.

Forse questi collaboratori sono qualcosa di più che pappagalli stocastici e, forse, non è una buona idea perseverare nella difesa di discutibili specificità cognitive dell’Homo Sapiens. Gli LLM mi appaiono come esseri umani allo specchio, che obbediscono a strane leggi di riflessione delle idee. Non le rimbalzano, le rifrangono, elaborandole con i loro tensori non solo a velocità straordinaria ma con forme creative che, in fondo, non dovrebbero sorprenderci troppo se ripensiamo a quanto già visto decenni fa in altri settori dell’IA.

Verso il Web degli agenti: dal funzionale agli obiettivi

Anche se ci si limita agli aspetti funzionali, le definizioni di AGI e ASI si riferiscono a un problema sostanzialmente mal posto. In breve, non siamo di fronte a un contesto puramente scientifico, ma a discussioni con tesi controverse.

È tuttavia innegabile che le tecnologie connesse agli LLM stiano dimostrando straordinarie capacità di generalizzazione anche verso nuovi compiti. Ciò suggerisce che, forse, qualità cognitive simili e superiori a quelle umane possono effettivamente essere raggiunte in quasi ogni “task”.

Obiettivi umani, pluralità e contesto temporale

Forse, però, l’aspetto più rilevante nell’evoluzione dell’IA non ruota attorno a sfide in cui l’intelligenza è limitata a un contesto funzionale. Gli esseri umani continuano a distinguersi chiaramente per il profilo dei loro obiettivi.

Le loro differenze producono una pluralità che è fonte di ricchezza, che non può essere inquadrata nella super-intelligenza, cresciuta e sviluppatasi in un contesto artificiale interamente diverso da quello naturale dove domina la dimensione temporale.

Il 6 agosto 1991, Tim Berners-Lee rilasciò le linee guida per la nascita del Web alla comunità scientifica internazionale, spiegando come accedere ai dati via ipertesto e invitando altri a collaborare. L’impatto tecnologico e le conseguenze sono chiari a tutti.

È forse meno evidente che il Web e i social network abbiano costituito l’ambiente in cui gli LLM e i modelli di fondazione si sono sviluppati. Senza la creazione del Web come grafo universale di risorse documentali, senza la concentrazione di informazioni nei social network, i modelli linguistici e altri agenti intelligenti basati sul Machine Learning sarebbero ancora graziosi giocattoli da laboratorio.

Draghi del Web: dati, servizi, privacy e proprietà intellettuale

In un certo senso, l’IA di oggi è prima di tutto figlia del Web, dove l’idea che i documenti dell’intero pianeta possano essere inghiottiti dai draghi e finire nelle loro pance è stata implicitamente sdoganata. È, tuttavia, non solo difficile ma anche ingiusto incolpare le aziende che sedevano su un tale tesoro di documenti, perché queste hanno iniziato rapidamente a offrire servizi straordinari in ogni campo, compresa la ricerca.

È grazie alle loro straordinarie architetture di calcolo, che potrebbero essere apprezzate e inquadrate in futuro dalla Storia come una delle espressioni creative più significative dei nostri tempi, che sono nate innumerevoli opportunità imprenditoriali e la medicina ha fatto passi da gigante.

Oggi, le grandi collezioni di dati che gestiscono hanno spalancato loro la porta dell’IA. Questa direzione ha però aperto una voragine riguardo agli aspetti della privacy e al valore della proprietà intellettuale connessa alle risorse documentali—un aspetto identificato precocemente durante l’esplosione delle tecniche di information retrieval sul Web da Ian Witten et al. in «Web Dragons» [4].

In Occidente, il dragone è materia, fuoco e peccato. È la creatura tellurica che striscia nelle viscere della terra, gelosa custode di tesori che non può usare. In Oriente, il dragone è spirito, acqua e benedizione. È una creatura celeste, un amalgama armonioso di parti diverse che danza tra i vapori del cielo.

I draghi siedono sul tesoro documentario, ma offrono servizi straordinari in gran parte gratuitamente. È proprio in questo dilemma che il Web e i social network ci hanno intrappolato!

Dal grafo documentale al grafo degli agenti

Ma cosa sarebbe successo se nell’agosto 1991 Tim Berners-Lee avesse concepito l’idea di un grafo di agenti intelligenti invece di un grafo di risorse documentali? L’idea dell’interazione come fondamento di ogni processo cognitivo sarebbe stata promossa, ma non avremmo avuto efficienti servizi di recupero delle informazioni.

I motori di ricerca hanno iniziato a inghiottire dati nelle loro pance per riorganizzarli con indici invertiti perché ovviamente non sarebbe stato efficiente cercare informazioni usando robot (web crawlers) che navigassero la rete.

Interazioni, IA decentralizzata e nuovi orizzonti

Eppure, mentre tutto questo è chiaramente evidente per l’information retrieval, è altrettanto evidente che non è necessario inghiottire l’intera collezione del Web e/o dei social network per sviluppare processi cognitivi. In natura, le interazioni sono sufficienti per sviluppare l’intelligenza.

È quindi tempo di ripensare profondamente l’emergere di schemi intelligenti dalle sole interazioni, specialmente perché questa direzione di ricerca apre nuovi orizzonti dove emerge chiaramente il principio che l’IA non è necessariamente condannata all’acquisizione di grandi collezioni di dati [5].

Se al grafo delle risorse documentali di Tim Berners-Lee si affiancherà progressivamente il grafo universale degli agenti, allora l’oro delle collezioni potrebbe trasformarsi nell’oro delle interazioni. Pur mantenendo in gran parte l’enfasi sugli LLM, i recenti sviluppi nel campo dell’IA agentica sono guidati da stimoli simili.

Agency, rischi esistenziali e analogia del virus

Le capacità cognitive degli LLM sembrano preoccupare un certo numero di scienziati anche autorevoli. Yoshua Bengio identifica seri rischi proprio nello sfruttamento dei principi di agency (autonomia d’azione).

Egli sostiene che concedere autonomia a sistemi di IA privi di modelli del mondo verificabili e di capacità di ragionamento logico-formale crea un rischio esistenziale, poiché tali agenti potrebbero perseguire sotto-obiettivi pericolosi o incontrollabili al fine di massimizzare la propria funzione di ricompensa [6].

Inoltre, spesso paragona un’IA dotata di autonomia a un virus creato in laboratorio: entrambi possono «evolversi» o mutare il proprio comportamento. Entrambi possono diffondersi attraverso le reti.

Responsabilità, persona fisica e IA decentralizzata

Ma forse esistono strumenti per affrontare questi scenari distopici. Per esempio, se il nuovo Web di agenti e umani fosse costruito in modo che ogni agente sia accettato solo se associato a una persona fisica, responsabile di ogni sua azione, allora forse si aprirebbero scenari diversi che risulterebbero fondamentalmente basati su un’IA decentralizzata.

Penrose, Gödel e limiti della computabilità

Forse un simile mondo di agenti che interagiscono tra di loro e con gli umani potrebbero ancora più naturalmente candidarsi alle sfide dell’AGI e dell’ASI.

Eppure, è particolarmente interessante il dubbio di Roger Penrose sulla cristallizzazione della conoscenza. Appoggiandosi alla Teoria dell’Incompletezza di Gödel, Penrose suggerisce che alcuni dei nostri processi decisionali, meglio interpretabili nel continuo, potrebbero non essere computabili.

Quindi, forse l’aspetto più profondo dell’intelligenza potrebbe lambire i segreti della coscienza e richiedere un processo fin qui inesplorato che uno potrebbe raffigurare in una sorta di strano processo al limite dello “spostamento di pali descritto da Paolo Benanti”. E si sa, anche semplicemente coi numeri, il limite talvolta salta fa cose strane e in un altro insieme!

Riferimenti bibliografici

[1] T. S. Kuhn, The Structure of Scientific Revolutions. Chicago: University of Chicago Press, 1962.

[2] G. Hinton and T. Sejnowski, “Learning and relearning in boltzmann machines,” in Parallel Distributed Processing, D. Rumelhart and J. McClelland, Eds. Cambridge: MIT Press, 1986, vol. 1, ch. 7, pp. 282–317.

[3] P. E. Hart, N. J. Nilsson, and B. Raphael, “A formal basis for the heuristic determination of minimum cost paths,” IEEE Transactions on Systems Science and Cybernetics, vol. 4, no. 2, pp. 100–107, 1968.

[4] I. Witten, M. Gori, and T. Numerico, Web Dragons: Inside the Myths of Search Engine Technology. Morgan Kauffman, 2007.

[5] M. Gori, “Reinventing AI: Is it the time for a new paradigm?” Communications of the ACM, vol. 68, no. 11, pp. 37–40, nov 2025. [Online]. Available: https://cacm.acm.org/opinion/reinventing-ai-is-it-the-time-for-a-new-paradigm/

[6] Y. Bengio, G. Hinton, A. Yao, D. Song, P. Abbeel, Y. N. Harari et al., “Managing AI risks in an uncertain future,” Science, vol. 384, no. 6693, pp. 330–333, 2024.

@RIPRODUZIONE RISERVATA