agenti autonomi

AI Scientist ha superato la peer review. Per le imprese cambia tutto

Un sistema AI ha scritto paper scientifici, li ha sottoposti a revisione e uno è stato accettato. Si chiama AI Scientist, è stato sviluppato da Sakana AI e funziona incatenando agenti autonomi. Ecco cosa fa davvero, cosa non sa ancora fare e cosa cambia per le imprese

Pubblicato il 31 mar 2026

Fabio Lalli

ceo ICONICO | Innovation & Digital Transformation

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

In questi giorni è stato pubblicato su Nature uno dei primi lavori sottoposti a peer review che descrive in modo strutturato il funzionamento di AI Scientist, il sistema sviluppato da Sakana AI, una società di ricerca giapponese fondata da ex ricercatori di Google e focalizzata su modelli di intelligenza artificiale ispirati ai sistemi complessi e adattivi.

Non si tratta di un annuncio isolato, ma dell’evoluzione di un progetto già presentato nel 2024 sotto forma di preprint, che nel passaggio alla pubblicazione ha visto una revisione più prudente delle sue capacità dichiarate.

AI generativa nelle riviste scientifiche: come usarla in modo responsabile

Indice degli argomenti

Un’architettura multi-agente per automatizzare l’intera pipeline della ricerca

Il paper entra nel merito dell’architettura del sistema, che non è un singolo modello ma un insieme coordinato di agenti basati su modelli linguistici, progettati per coprire l’intera pipeline della ricerca: analisi della letteratura, generazione di ipotesi, progettazione degli esperimenti, scrittura ed esecuzione del codice e infine redazione del paper scientifico.

Il test reale: tre paper generati da AI sottoposti a ICLR, uno accettato

L’elemento che rende questo lavoro rilevante, però, non è tanto la descrizione tecnica, quanto il fatto che il sistema sia stato testato in un contesto reale di valutazione accademica. Il team ha infatti sottoposto tre articoli generati autonomamente a un workshop della conferenza ICLR (International Conference on Learning Representations, uno dei principali appuntamenti internazionali per la ricerca nel machine learning), dichiarando preventivamente che una parte dei contributi poteva essere prodotta da AI, e uno di questi è stato accettato dai revisori.

Risultati promettenti ma misurati: il sistema non raggiunge il livello umano

Allo stesso tempo, il paper mantiene una posizione misurata sul risultato: i lavori prodotti non sono comparabili con i migliori contributi umani e non introducono avanzamenti particolarmente originali. Il sistema dimostra di saper operare lungo il processo, ma non ancora di produrre vera novità scientifica.

Il segnale davvero rilevante: la peer review come banco di prova per gli agenti

La tentazione di leggere il caso AI Scientist come la prova che la ricerca possa essere automatizzata da cima a fondo è forte, ma rischia di far perdere la notizia più importante. Il segnale davvero rilevante della pubblicazione è un altro: un sistema agentico costruito da Sakana AI ha portato fino alla peer review tre manoscritti generati in autonomia, e uno ha superato la soglia media di accettazione in un workshop collegato a ICLR.

Non è il main track della conferenza, non è una prova di eccellenza scientifica comparabile ai migliori paper umani, ma è abbastanza per spostare il dibattito da una domanda teorica a una domanda operativa: che cosa succede quando un insieme di agenti riesce a cercare letteratura, formulare ipotesi, scrivere codice, eseguire esperimenti e produrre un documento valutabile da revisori umani?

Dal preprint al paper: come la peer review ridimensiona il linguaggio promozionale

La seconda informazione decisiva è ancora più istruttiva. Il paper peer-reviewed pubblicato su Nature aggiorna il preprint del 2024 e ne ridimensiona il linguaggio. L’enfasi iniziale sulla “scoperta scientifica completamente automatizzata e open-ended” lascia spazio a una formulazione più circoscritta, centrata sull’automazione end-to-end della ricerca in ambito AI. È un passaggio che il mercato dovrebbe osservare con attenzione: quando una tecnologia entra nel confronto con la peer review, spesso perde volume promozionale e guadagna definizione. Ed è proprio in quella definizione più stretta che emergono il valore reale e i limiti reali.

Come funziona davvero AI Scientist

AI Scientist non coincide con un singolo modello. È una pipeline agentica che usa modelli di base esistenti per svolgere una sequenza di compiti: generazione di idee, ricerca di letteratura, pianificazione sperimentale, scrittura ed esecuzione del codice, analisi dei risultati, stesura del manoscritto e revisione automatizzata. Nel paper Nature il sistema viene descritto come un’architettura in più fasi, con modalità template-based e template-free, e con una tree search che permette di esplorare varianti sperimentali più profonde quando aumenta il budget computazionale.

Qui si trova la prima lezione utile per le imprese. Il vantaggio competitivo non nasce dal modello linguistico preso in isolamento, ma dall’orchestrazione di modelli, strumenti, criteri di valutazione, memoria di lavoro, accesso alle fonti e regole di arresto. In altri termini, il caso AI Scientist non dimostra tanto la superiorità di un LLM, quanto la maturazione di un pattern architetturale: l’agente che non si limita a rispondere, ma pianifica, prova, corregge, documenta e si sottopone a verifica.

Perché questa storia riguarda anche le imprese

A prima vista il tema sembra confinato ai laboratori di machine learning. In realtà il caso ha un valore più ampio, perché rende visibile una classe di workflow che molte aziende stanno cercando di costruire in forma meno esplicita. Ogni volta che un’organizzazione chiede a un sistema AI di esplorare scenari, raccogliere evidenze, generare alternative, testare ipotesi e restituire un output strutturato, sta già muovendosi nella stessa direzione. Cambia il dominio, non la logica di fondo.

Per questo la domanda non è se domani un agente pubblicherà da solo il prossimo paper di frontiera. La domanda corretta è se le imprese sono pronte a usare agenti per accelerare ricerca e sviluppo, software engineering, market intelligence, analisi documentale, simulazione, qualità e supporto alle decisioni. La risposta tende a essere positiva solo quando l’azienda smette di pensare all’AI come interfaccia conversazionale e inizia a trattarla come infrastruttura operativa. Il caso Sakana AI mostra infatti che la produttività non dipende solo dalla qualità della risposta, ma dalla capacità di concatenare attività, verifiche e output in una catena coerente.

I limiti da tenere in considerazione

Proprio perché il caso è interessante, va letto senza concessioni al sensazionalismo. Gli stessi autori riconoscono che il livello raggiunto non coincide con quello dei migliori lavori umani accettati nello stesso contesto. Inoltre, la soglia superata riguarda un workshop, cioè un ambiente con una barra di ingresso inferiore rispetto alla conferenza principale. Anche questo non sminuisce il risultato, ma ne chiarisce il perimetro.

Il limite di dominio: l’automazione funziona meglio nel mondo computazionale

Il secondo limite è di dominio. La ricerca automatizzata funziona meglio dove il ciclo sperimentale è interamente computazionale, i dati sono disponibili, le metriche sono definite e l’iterazione costa relativamente poco. È molto più semplice automatizzare un filone di ricerca in machine learning che un percorso sperimentale in biologia, manifattura o scienza dei materiali dove il mondo fisico introduce tempi, costi, laboratori e vincoli non comprimibili in una sandbox software.

Il rischio della quantità senza qualità: produrre molto non equivale a innovare

Il terzo limite riguarda la novità. Produrre molto non equivale a produrre qualcosa che cambi il campo. La peer review può verificare una soglia minima di consistenza, non sempre una vera rottura concettuale. Non a caso, tra i rischi indicati dagli osservatori compare l’eventualità di inondare conferenze e riviste con lavori formalmente corretti ma di originalità modesta. Per le imprese, il parallelo è immediato: moltiplicare report, analisi o prototipi non genera valore se manca un criterio robusto per distinguere ciò che è nuovo da ciò che è solo plausibile.

Il costo degli agenti: budget, toolchain e operating model sostenibile

Il quarto limite è economico e organizzativo. Nel paper pubblicato su Nature emerge una correlazione chiara: la qualità aumenta con il miglioramento dei modelli e con il compute allocato per ogni paper. Anche questo è un messaggio molto aziendale. Gli agenti non sono magia a costo zero; sono sistemi che richiedono budget, toolchain, monitoraggio e metriche. L’adozione, quindi, non si gioca sulla demo, ma sul disegno di un operating model sostenibile.

Dalla sperimentazione alla governance

La lezione più importante per il management è probabilmente questa: il passaggio dagli assistenti agli agenti sposta il problema dalla produttività individuale alla governance del processo. Quando un sistema inizia a cercare fonti, scrivere codice, lanciare test e autovalutare il proprio output, la questione non è più solo “quanto ci fa risparmiare”, ma “con quali regole opera, con quali dati, con quale supervisione, con quali log di controllo e con quale soglia di affidabilità”.

In ambito enterprise questo significa almeno cinque cose. Serve una definizione chiara dei confini operativi degli agenti. Serve una valutazione continua della qualità, non episodica. Serve un human in the loop nei passaggi che implicano rischio reputazionale, legale o strategico. Serve tracciabilità delle fonti e delle decisioni. E serve una disciplina economica capace di legare costo computazionale, tempo ciclo e valore generato. Il caso AI Scientist è utile proprio perché costringe a vedere questi elementi tutti insieme.

Co-scientist, non sostituto: la nuova divisione del lavoro cognitivo

L’interpretazione più matura del caso arriva paradossalmente dagli stessi autori, che descrivono questi sistemi come co-scientist più che come sostituti dei ricercatori. È un punto che andrebbe esteso a tutto il knowledge work. Il compito dell’umano resta decisivo nel definire il problema giusto, valutare la rilevanza del risultato, riconoscere la vera novità, assumere responsabilità e collegare l’output a un obiettivo di business. Il compito dell’agente è comprimere i tempi di esplorazione, aumentare la superficie delle ipotesi testabili e ridurre il costo del ciclo prova-correzione-documentazione.

Per questo AI Scientist non annuncia la fine del ricercatore, ma l’inizio di una nuova divisione del lavoro cognitivo. Le organizzazioni che trarranno vantaggio da questa transizione non saranno quelle che chiederanno all’AI di “fare tutto”, ma quelle che sapranno progettare un rapporto efficace fra autonomia degli agenti, qualità dei controlli e responsabilità umana.

@RIPRODUZIONE RISERVATA