intelligenza artificiale

Alla ricerca dell’AGI: come misurare l’AI del futuro



Indirizzo copiato

Dai puzzle di François Chollet al test di Turing, dai mondi virtuali di DeepMind ai nuovi benchmark multimodali: la ricerca di un benchmark per valutare l’Intelligenza Artificiale Generale continua, ma solleva più domande che risposte

Pubblicato il 17 ott 2025

Maurizio Carmignani

Founder & CEO – Management Consultant, Trainer & Startup Advisor



AGI benchmark intelligenza artificiale generale valutazione dei modelli di IA

Definire e misurare l’AGI – l’intelligenza artificiale generale, quella in grado di essere davvero in grado di rivoluzionare il mondo con le sue capacità non limitate – resta una delle sfide più controverse del nostro tempo.

I ricercatori oscillano tra test teorici come l’ARC, simulazioni complesse e prove di vita reale, ma la nozione stessa di intelligenza rimane ambigua. Nel frattempo, le macchine stupiscono per capacità inedite e al tempo stesso cadono in errori banali, alimentando il dibattito, l’AGI è già tra noi o non arriverà mai?

Sam Altman on AGI, GPT-5, and what’s next — the OpenAI Podcast Ep. 1

Cos’è l’AGI, intelligenza artificiale generale. Diverse definizioni

Intanto c’è un problema alla base. Gli esperti danno definizioni diverse, che hanno in comune solo una certa “universalità” delle funzioni artificiali, per un impatto davvero determinante e totale sulle nostre società, economia e vite.

Fonte della definizioneDefinizione di AGIChe vuol dire
OpenAI (Sam Altman)“Highly autonomous systems that outperform humans at most economically valuable work.”Sistemi autonomi superiori all’uomo nella maggior parte dei lavori economicamente rilevanti; obiettivo dichiarato della missione di OpenAI.
Goertzel & Pennachin (2007)“A system capable of understanding, learning, and applying knowledge across a wide range of domains at a human level.”Capacità di apprendimento e trasferimento di conoscenza generalizzato; intelligenza flessibile simile a quella umana.
DeepMind (2022)“An architecture capable of performing any intellectual task that a human being can do, with equal or greater proficiency.”Replica funzionale di tutte abilità cognitive umane.
Gary Marcus (2019)“A system with domain-general intelligence — the ability to represent abstract knowledge, reason about it, and apply it flexibly to new contexts.”Approccio cognitivo: ragionamento astratto e adattamento; enfasi sulla comprensione, non solo sull’output.
Nick Bostrom / John Searle (filosofi-scienziati cognitivi)“A form of artificial mind with self-awareness and intentionality, not merely symbolic manipulation.”Coscienza e significato come requisiti; distinzione tra simulazione e vera mente.
Empirical benchmark approach (LeCun, Anthropic, Numenta)“A system that matches or surpasses the average human on a wide set of cognitive, perceptual, linguistic and motor tests.”Definizione misurabile basata su benchmark confrontati con l’essere umano medio; oggettivabile sperimentalmente.
Economic perspective (Goldman Sachs, 2023)“AI systems capable of automating any economically valuable human activity at competitive cost.”Definizione funzionale e pragmatica, centrata sull’impatto economico e produttivo.
OpenAI–Microsoft financial clause “AGI is achieved when OpenAI’s systems generate at least 100 billion dollars in profit.”
Definizione interna e contrattuale, utile per scopi legali; non riflette criteri cognitivi o tecnici.

Benchmark per l’AGI: dal test di Turing ai limiti dei modelli linguistici

Riconosceremo quindi l’Intelligenza Artificiale Generale quando la vedremo? La domanda, che richiama le riflessioni di Alan Turing negli anni ’50, attraversa ancora oggi il dibattito scientifico e sociale sull’AI. Il suo gioco dell’imitazione ha rappresentato per decenni il traguardo simbolico: se una macchina riusciva a passare per umana in una conversazione scritta, poteva dirsi intelligente.

Ma i tempi sono cambiati. GPT-4.5, ad esempio, è stato scambiato per un essere umano nel 73% dei casi in un test a tempo limitato, eppure i modelli linguistici più avanzati inciampano su compiti elementari, come contare le lettere di una parola o riconoscere correttamente una semplice relazione logica, risolvere un problema aritmetico di base o trarre un’inferenza causale semplice. Questa ambivalenza mette in luce il cuore del problema, l’AI sa impressionare in alcuni contesti, ma fallisce clamorosamente in altri, rivelando la distanza che ancora separa la competenza tecnica dall’intelligenza generale autentica.

L’ARC e la sfida dell’intelligenza fluida

Il progetto ARC nasce dalla convinzione di François Chollet che l’intelligenza non si misuri in base alla quantità di conoscenze accumulate, ma alla capacità di acquisirne di nuove e di ricombinarle in contesti sconosciuti.

Nel 2019 ha quindi ideato l’Abstraction and Reasoning Corpus (ARC), un insieme di puzzle visivi in cui bisogna inferire una regola osservando alcune coppie input-output di griglie colorate e poi applicarla a un nuovo caso. Si tratta di un test pensato per valutare l’intelligenza fluida, ovvero quella che permette di generalizzare oltre l’esperienza e di trasferire schemi da un dominio a un altro. Per un essere umano questi esercizi appaiono relativamente semplici, simili a compiti che un bambino delle elementari può affrontare con naturalezza: riconoscere simmetrie, contare oggetti, distinguere coesioni o pattern. Le AI invece hanno incontrato grandi difficoltà, mostrando quanto sia arduo replicare il buon senso di base. I modelli più recenti hanno migliorato le prestazioni, fino a raggiungere punteggi vicini all’88% in ambienti controllati, ma con costi computazionali enormi, stimati in decine di migliaia di dollari per singolo puzzle.

Per stimolare ulteriormente la ricerca, Chollet ha introdotto ARC-AGI-2 , una versione più complessa con regole multiple, passaggi di ragionamento concatenati e simboli da interpretare. È nata anche la ARC Prize Foundation, che ha messo in palio un milione di dollari per i team in grado di risolvere l’85% dei puzzle usando risorse computazionali limitate. Ad oggi, il punteggio medio umano si aggira attorno al 60%, mentre le migliori AI non superano il 16%. Questa distanza evidenzia tanto la difficoltà della sfida quanto il suo valore come cartina di tornasole dei progressi verso l’AGI.

General-Bench e i mondi virtuali

Ma l’ARC non è l’unico tentativo. General-Bench mette insieme cinque modalità di input—testo, immagini, video, audio e 3D—per testare capacità di ragionamento, creatività ed etica. L’idea è che una vera AGI dovrebbe saper integrare più forme di percezione e produzione, mostrando sinergia tra diversi canali e superando i limiti degli specialisti che eccellono solo in un dominio ristretto. Oggi nessun modello riesce ancora a gestire in modo coerente tutte queste modalità, ma l’approccio indica la direzione verso cui la ricerca si muove.

Google DeepMind ha sperimentato con mondi virtuali come Dreamer , in grado di affrontare oltre 150 compiti, dai giochi Atari a Minecraft. Questi ambienti simulati consentono di osservare come un algoritmo esplora, pianifica e interagisce con il contesto, avvicinandosi a dinamiche più generali rispetto a un singolo benchmark statico. Tuttavia, questi esperimenti mostrano progressi significativi ma anche limiti evidenti: controllare un videogioco è molto diverso dal gestire la complessità del mondo reale, dove intervengono incertezze, regole implicite e interazioni sociali non replicabili in laboratorio.

AGI, il dibattito sull’intelligenza e i valori

La questione dei valori solleva un nodo cruciale: non basta che un’AI dimostri abilità tecniche, occorre capire se è in grado di orientare le sue scelte in scenari etici e sociali complessi. I ricercatori discutono su come integrare nei benchmark situazioni che riproducano dilemmi morali, decisioni impreviste, interazioni sociali non lineari. Alcuni hanno proposto il Tong test, che introduce scenari sociali e morali, come un’AI che trova una banconota a terra o che incontra un bambino che piange. L’obiettivo è osservare non solo cosa l’AI sa fare, ma anche come interpreta i contesti, quale sistema di valori mette in campo e se è in grado di esplorare autonomamente nuovi obiettivi. In questa prospettiva, il concetto di “intelligenza generale” si lega inevitabilmente alla questione dell’allineamento con i valori umani e alla capacità di convivere con l’imprevedibilità del mondo reale.

Un tassello rilevante viene da uno studio multi-universitario, condotto come esperimento preregistrato: i ricercatori hanno cioè definito e depositato in anticipo ipotesi, variabili e metodi di analisi, per ridurre il rischio di interpretazioni arbitrarie e dare maggiore solidità ai risultati. Nel test, un LLM (Claude 3.5 Sonnet) è risultato più persuasivo di comunicatori umani incentivati, sia nello spingere i partecipanti verso risposte corrette sia nell’indurli a scegliere risposte sbagliate.

Questo dato suggerisce che i modelli non si limitano a “calcolare”, ma possiedono anche la capacità di influenzare: la persuasione—fino alla manipolazione—emerge come una competenza da misurare e governare. Per questo, nei benchmark sull’AGI andrebbero inclusi compiti che valutano non solo prestazioni cognitive, ma anche l’efficacia persuasiva, la trasparenza degli argomenti e la propensione all’inganno, insieme a metriche di resistenza a istruzioni nocive. Senza questi guardrail, performance brillanti in laboratorio rischiano di tradursi in impatti problematici quando i sistemi operano nel mondo reale.

Sotto il cofano delle AI

Gli esperti mettono in guardia anche sul funzionamento interno dei modelli. Jeff Clune ha mostrato come il deep learning spesso produca rappresentazioni caotiche e intrecciate, scorciatoie ingegnerizzate che simulano intelligenza ma rischiano di fallire in contesti diversi. In pratica, le reti neurali tendono a creare connessioni ad hoc che funzionano solo per i dati su cui sono state addestrate, senza costruire una comprensione generale delle regole sottostanti.

Questo significa che un modello può apparire brillante in un benchmark, ma rivelarsi fragile e inaffidabile in scenari imprevisti. Gli esseri umani, al contrario, cercano regolarità ampie ed eleganti, sviluppando concetti trasferibili da un contesto all’altro. Le AI, invece, possono applicare la regola sbagliata al momento sbagliato, con conseguenze concrete quando vengono utilizzate in ambienti reali o per decisioni sensibili.

AGI? Vita reale come benchmark

C’è chi sostiene che il vero test non possa che essere la vita reale. Geoffrey Hinton osserva che l’AI è già in grado di simulare pensiero e persuasione, ma probabilmente resterà lontana da compiti concreti come l’idraulica domestica ancora per un decennio. Melanie Mitchell ricorda che anche professioni apparentemente codificate, come quella del radiologo, contengono una lunga serie di attività implicite che l’AI non è in grado di replicare. È il “lato nascosto” del lavoro umano che mette in difficoltà le macchine.

Da questa prospettiva, i benchmark più sofisticati non bastano, possono catturare una parte del problema, ma non il quadro completo. Un robot che viva davvero nel mondo reale si troverebbe ad affrontare variabili infinite, errori percettivi, situazioni ambigue, contesti sociali difficili da interpretare. Anche semplici azioni quotidiane, come cucinare in una cucina non conosciuta o aggiustare un tubo che perde, diventano prove complesse che richiedono adattamento, intuito e una combinazione di abilità cognitive e motorie che le AI non possiedono ancora. Per questo diversi ricercatori sostengono che il vero metro dell’AGI non potrà che essere la capacità di affrontare compiti reali dall’inizio alla fine, non solo simulazioni o test astratti.

Conclusioni: l’AGI tra obiettivo e illusione

Il termine AGI continua a dividere, per alcuni è già realtà, per altri non arriverà mai. Forse la sua utilità è più simbolica che operativa: un’etichetta che sintetizza ambizioni, paure e traguardi della ricerca.

Parlare di AGI, ricordano i ricercatori, significa usare un concetto che va sempre accompagnato da un asterisco e da un benchmark. In questo senso, i test e le metriche non vanno considerati come la verità definitiva, ma come strumenti parziali che riflettono prospettive differenti e talvolta contraddittorie. L’AGI rimane così un obiettivo mobile, che si ridefinisce con il progresso tecnologico e con i valori che la società decide di attribuirgli.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati