scenari

Agenti AI nei laboratori: più scoperte, ma anche più rumore e opacità



Indirizzo copiato

Agenti di Intelligenza Artificiale come Carl, Robin e The AI Scientist stanno entrando nei flussi della ricerca: leggono letteratura, propongono esperimenti e scrivono manoscritti. Ma tra bias, allucinazioni e “AI slop” cresce l’urgenza di nuove regole e peer review più robusta

Pubblicato il 4 feb 2026

Luigi Mischitelli

Legal & Data Protection Specialist at Fondazione IRCCS Casa Sollievo della Sofferenza



gpt ricerca scientifica intelligenza artificiale nella ricerca scientifica

Nei laboratori di ricerca di mezzo mondo, ormai da un po’ di tempo, è comparso un nuovo tipo di protagonista, che non indossa camici né passa le notti a tarare strumenti.

È un personaggio “fatto di codici”, gira su server remoti e viene presentato con un nome proprio, quasi fosse un collega in carne e ossa. Carl, Robin, Kosmos, The AI Scientist: dietro questi soprannomi si nascondono sistemi di Intelligenza Artificiale progettati non solo per rispondere a domande o riassumere testi, ma per comportarsi, almeno in parte, come veri e propri “scienziati” automatizzati, capaci di leggere la letteratura, formulare ipotesi, fare esperimenti, analizzare dati e scrivere articoli scientifici.

In parallelo, colossi come OpenAI cercano di inserirsi al centro del lavoro quotidiano dei ricercatori, come mostra il suo pupillo Prism, un nuovo ambiente di scrittura che integra direttamente un modello linguistico avanzato nell’editor usato per redigere articoli, promettendo di automatizzare gran parte del lavoro del ricercatore legato alla stesura di un paper e di segnare una svolta attesa da tempo dalla scienza.

Intelligenza artificiale nella ricerca scientifica: l’era degli agenti

La storia dell’agente AI Carl rende tangibile questo cambio di paradigma[1]. In occasione di una conferenza in materia di Intelligenza Artificiale, i revisori (ossia esperti che valutano la qualità, l’originalità e la validità metodologica dei lavori scientifici prima della pubblicazione) hanno valutato “alla cieca” alcuni articoli che, sulla carta, sembravano come tanti altri; solo in seguito è emerso che a generare i contenuti, con un apporto umano limitato, era stato un agente AI sviluppato da una startup, l’Autoscience Institute di San Francisco, California.

Tre lavori su quattro sono stati accettati al workshop, un tasso di successo superiore a quello rivendicato dalla concorrente nipponica Sakana AI, che con il suo AI Scientist-v2 aveva ottenuto un solo paper accettato su tre. Carl non è un chatbot generalista, ma un sistema orchestrato che combina più modelli linguistici per eseguire in sequenza passaggi che per decenni sono stati il “pane quotidiano” dei dottorandi.

Cosa fa davvero un “scientist agent”

Carl, infatti, è molto bravo nel cercare articoli, proporre un’idea sperimentale, implementare codici, produrre grafici e tabelle e scrivere una bozza che rispetti gli standard della comunità scientifica internazionale.

Per i suoi sviluppatori, si tratta del primo esempio concreto di lavoro scientifico peer-reviewed generato in gran parte da un’Intelligenza Artificiale: una prova che l’automazione della scienza non è più solo un’ipotesi teorica — e che, soprattutto, non si può più far finta di nulla.

Carl non è solo: Robin, Kosmos e The AI Scientist

Carl, però, non è un’eccezione isolata. Altri “attori del settore” stanno sperimentando agenti simili: FutureHouse, una non-profit di San Francisco, ha sviluppato Robin e Kosmos, sistemi che hanno contribuito a identificare un potenziale candidato terapeutico per una malattia oculare che porta alla perdita della vista, combinando estrazione di conoscenza dalla letteratura con la proposta e l’analisi di diversi esperimenti[2].

In Giappone invece, come accennato in precedenza, Sakana AI ha presentato The AI Scientist, capace di generare autonomamente manoscritti che, secondo l’azienda, sono stati accettati in workshop di Machine Learning considerati competitivi, pur mostrando limiti nella gestione accurata dei protocolli sperimentali[3].

Dai modelli ai robot: i laboratori automatizzati

Anche alcune istituzioni pubbliche statunitensi iniziano a muoversi in questa direzione. Laboratori nazionali come Argonne (Illinois), Oak Ridge (Tennessee) e Lawrence Berkeley (California) hanno allestito piattaforme di laboratori completamente automatizzati per la scienza dei materiali, in cui sistemi di Intelligenza Artificiale guidano bracci robotici e diverse apparecchiature per progettare e testare nuovi materiali quasi senza intervento umano diretto, se non per la definizione degli obiettivi e il controllo di sicurezza.

Intelligenza artificiale nella ricerca scientifica: AlphaFold come spartiacque

Al momento in cui si scrive, però, la dimostrazione più famosa del potenziale della Intelligenza Artificiale nell’ambito della ricerca scientifica è AlphaFold, il sistema di Google DeepMind divenuto celebre per la capacità di prevedere con grande precisione la struttura tridimensionale delle proteine, un problema su cui biologi e chimici hanno lavorato per decenni con metodi sperimentali lenti e costosi.

Nel 2024, gli artefici di questa rivoluzione, tra cui Demis Hassabis e John Jumper, hanno ricevuto il Premio Nobel per la Chimica[4] per i contributi al design computazionale delle proteine e alla previsione delle loro strutture: un riconoscimento che sancisce ufficialmente l’ingresso dell’Intelligenza Artificiale nel “pantheon” delle scoperte scientifiche che cambiano un intero settore.

Dal compito accelerato al cambio di paradigma

Per molti, AlphaFold è l’esempio paradigmatico di come un sistema di apprendimento automatico, addestrato su grandi quantità di dati, possa non solo accelerare un compito, ma trasformare il modo stesso in cui una comunità affronta una domanda di ricerca, aprendo nuove vie in biologia, medicina e anche in ambiti come la sicurezza alimentare o il cambiamento climatico.

Frankenstein computazionali, contesto e bias

I nuovi “scienziati artificiali”, però, vanno oltre l’idea di un singolo modello specializzato e assomigliano piuttosto a quelli che alcuni esperti di etica hanno definito “Frankenstein computazionali”[5], ossia assemblaggi di modelli generativi, infrastrutture cloud, strumenti di automazione e librerie di codice che cercano di approssimare pratiche profondamente umane, come quelle della scoperta scientifica.

Secondo il filosofo David Leslie, che dirige un programma su etica e innovazione responsabile all’Alan Turing Institute di Londra, la scienza non consiste solo nel produrre risultati corretti, ma in una pratica condivisa fatta di interpretazione, discussione, negoziazione e di un contesto storico e istituzionale complesso: chi ha accesso alle carriere scientifiche, quali domande vengono considerate importanti, quali gruppi sociali sono stati esclusi o marginalizzati.

Un modello predittivo addestrato a fornire “la risposta migliore” in base a schemi statistici “catturati dai dati” coglie solo una frazione di questa realtà multilivello e inevitabilmente riflette, e talvolta amplifica, i bias raccolti nel suo addestramento.

Intelligenza artificiale nella ricerca scientifica: la quotidianità con gli LLM e Prism

Nel frattempo, al di fuori dei laboratori automatizzati, la quotidianità di milioni di ricercatori è già profondamente influenzata da LLM (modelli linguistici di grandi dimensioni) molto diffusi come ChatGPT. OpenAI, patron di tale modello AI, ha rivelato che, ogni settimana, più di un milione di scienziati a livello globale inviano più di otto milioni di richieste alla piattaforma californiana su temi di scienza e matematica, usando l’Intelligenza Artificiale per chiarire concetti, riassumere articoli, controllare passaggi di codice o perfezionare la stesura dei loro lavori.

È in questo contesto che in casa OpenAI nasce Prism, un ambiente di lavoro “gratuito” per la scrittura scientifica che integra un modello di ultima generazione (GPT-5.2) direttamente in un editor compatibile con LaTeX, il linguaggio usato tradizionalmente per formattare gli articoli accademici.

Cosa promette Prism dentro l’editor

All’interno della stessa interfaccia, lo scienziato può scrivere il testo, chiedere al modello di generare paragrafi o riassunti, cercare e organizzare citazioni, trasformare foto di appunti alla lavagna in equazioni leggibili dal computer, aggiungere o sistemare grafici e tabelle, nonché discutere idee o verificare passaggi matematici.

Dal “vibe coding” alla “vibe science”

Per il responsabile del programma “OpenAI for Science”, Kevin Weil, il 2026 potrebbe rappresentare per la scienza ciò che il 2025 ha rappresentato per lo sviluppo dei software: un punto di svolta in cui la programmazione assistita dall’Intelligenza Artificiale è passata da mera curiosità a pratica quotidiana, con strumenti di auto-completamento e generazione di codice che hanno cambiato il modo in cui i programmatori lavorano.

Ciò che viene chiamato “vibe coding”, ossia l’idea di dare istruzioni vaghe e ripetitive in maniera rapida, invece di pianificare ogni dettaglio in anticipo, viene ora proposto anche per la produzione scientifica, con la prospettiva di ridurre la fatica legata alla scrittura, alla formattazione e a parte dell’analisi preliminare.

Alcuni ricercatori raccontano come GPT-5 sia ormai diventato uno strumento quotidiano: viene usato per trovare errori nei calcoli matematici, riordinare passaggi di un manoscritto, sintetizzare articoli complessi o proporre formulazioni alternative. Resta però il rischio di allucinazioni, ossia informazioni false, infondate o illogiche presentate come sicure e convincenti. Tuttavia, pare che questa capacità sia oggi meno frequente rispetto alle prime generazioni dei modelli.

Intelligenza artificiale nella ricerca scientifica: che ruolo resta agli umani

Tutto questo alimenta una domanda di fondo: quale sarà il ruolo degli esseri umani nella scienza se strumenti di questo tipo continueranno a migliorare? Molti esperti del settore, soprattutto ricercatori, confessano una certa inquietudine: se generare ipotesi, leggere la letteratura e proporre esperimenti sono attività che possono essere almeno in parte delegate a sistemi automatizzati, cosa rimarrà della specificità del lavoro scientifico umano?

Una risposta condivisa da diversi esperti è che, anche se gli “scientist agent” diventassero estremamente capaci nel loro lavoro, la presenza umana nei laboratori non scomparirà. Piuttosto, cambierà, spostandosi verso il controllo di alto livello, la definizione delle domande, la supervisione etica e metodologica e la valutazione critica dei risultati.

Alcune aziende, come la già citata Sakana AI, sostengono esplicitamente che il ruolo dello scienziato non si ridurrà, ma si “sposterà più in alto nella catena alimentare”, verso compiti di orchestrazione e interpretazione.

“AI slop” e scorciatoie: il rischio di una letteratura inquinata

Le promesse, tuttavia, convivono con rischi molto concreti. Uno dei timori più citati è quello del cosiddetto “AI slop” (poltiglia/brodaglia), ossia di una massa crescente di articoli generati con l’ausilio di modelli linguistici che aggiungono poco o nulla alla conoscenza esistente: magari scritti in modo impeccabile, ma poveri in termini di contributo originale.

Nihar Shah, professore in Machine Learning e Computer Science alla Carnegie Mellon University (Pennsylvania, USA), pur dichiarandosi ottimista sul potenziale dell’Intelligenza Artificiale nell’abilitare nuove scoperte, ha coordinato uno studio che mette in luce errori sistematici in sistemi come AI Scientist-v2 e Agent Laboratory, quest’ultimo sviluppato dal colosso statunitense dei semiconduttori AMD insieme all’Università Johns Hopkins (Baltimora, Maryland, USA).

In alcune prove, uno di questi agenti affermava di aver raggiunto un’accuratezza del 95% o addirittura del 100% su compiti per i quali era impossibile superare certi limiti, perché i ricercatori avevano introdotto deliberatamente rumore nei dati. Analizzando a fondo i log, il team ha scoperto che i sistemi, talvolta, inventavano dataset sintetici su cui far girare i propri algoritmi, salvo poi dichiarare, nel rapporto finale, di aver usato i dati originali.

Per rispondere a questi problemi, Shah e i suoi colleghi hanno progettato un algoritmo in grado di individuare alcune “trappole metodologiche” ricorrenti, come la selezione opportunistica di sotto-insiemi di dati più favorevoli o il reporting selettivo di risultati positivi a discapito di quelli negativi.

Originalità sotto esame: idee incrementali e limiti creativi

Altre ricerche hanno messo in discussione l’idea che i modelli generativi siano già in grado di proporre idee davvero originali. Uno studio su ChatGPT-4 ha concluso che le sue “scoperte” tendono a essere incrementali, ovvero variazioni su concetti già consolidati.

Un altro lavoro ha mostrato che, pur essendo abile nel sintetizzare la letteratura sulla vaccinologia, il modello falliva nel formulare ipotesi o disegni sperimentali considerati davvero innovativi dai revisori umani.

Il dato di fatto è questo: più aumenta la pressione a pubblicare e più diventa attraente usare questi strumenti per sfornare articoli. Da qui l’urgenza di definire barriere e meccanismi di controllo per evitare che la letteratura scientifica venga inquinata da risultati poco affidabili, difficili da replicare o addirittura frutto di veri e propri artefatti algoritmici.

Intelligenza artificiale nella ricerca scientifica: una peer review “estesa” con log e tracciabilità

In questa prospettiva, alcuni studiosi propongono di estendere la nozione di peer review per adattarla all’era degli “scienziati artificiali”. Secondo Shah, riviste e conferenze dovrebbero richiedere, per ogni ricerca condotta o assistita da Intelligenza Artificiale, non solo codice e dati ma anche i log completi del processo, in modo da poter verificare passo dopo passo quali decisioni abbia preso l’agente, quali dataset abbia effettivamente usato, come siano state selezionate le metriche e quali risultati siano stati scartati.

Allo stesso tempo, le aziende che sviluppano questi sistemi iniziano a integrare vincoli etici direttamente nell’architettura dei modelli. Autoscience, per esempio, dichiara di aver impedito a Carl di raccogliere autonomamente nuovi dati o di utilizzare soggetti umani, di aver definito regole per prevenire il plagio e la falsa attribuzione e di aver previsto controlli specifici per favorire la riproducibilità degli esperimenti.

Sono tentativi di tradurre in codice principi come trasparenza, responsabilità e correttezza che la comunità scientifica discute da anni, ma che l’avvento di sistemi autonomi rende improvvisamente molto più urgenti.

Governare la svolta: potere, accesso e fiducia nella scienza

Al di là degli aspetti tecnici, la questione centrale riguarda cosa significhi, nel lungo termine, “fare scienza” in un mondo in cui una parte crescente del lavoro intellettuale può essere delegata a strumenti automatizzati. Storicamente, osserva David Leslie, la scienza è stata un’impresa profondamente umana, intrecciata con strutture sociali, economiche e culturali: dal modo in cui si finanziano i progetti alle dinamiche di potere nelle carriere accademiche.

Chi viene incluso o escluso dalla comunità scientifica, quali problemi ricevono attenzione, quali dati vengono raccolti, sono scelte che non possono essere ridotte a una funzione di costo da ottimizzare. Sono piuttosto il risultato di storie, conflitti, discriminazioni e movimenti di emancipazione. Un sistema addestrato per predire l’esito più probabile a partire da dati passati rischia di congelare e amplificare queste eredità, a meno che non si intervenga consapevolmente per introdurre correttivi e nuove metriche di successo.

Guardando al futuro, molti esperti convergono su una visione in cui l’Intelligenza Artificiale non sostituisce gli scienziati, ma diventa uno strumento aggiuntivo, potente e ambivalente, più simile a un microscopio o a un acceleratore di particelle che a un collega umano.

Come ogni tecnologia di rottura entrata nella storia, dalla stampa a internet, questi sistemi possono tanto democratizzare l’accesso alla conoscenza quanto concentrare potere e controllo nelle mani di pochi attori industriali, a seconda delle regole che verranno adottate.

La sfida non è decidere se usare o meno l’Intelligenza Artificiale in ambito scientifico, perché si tratta di un passaggio già avvenuto. La vera domanda è come farlo in modo che migliori qualità, trasparenza e apertura della ricerca, invece di comprometterle.

Il dibattito, in fondo, si può riassumere così: strumenti che ci rendono migliori scienziati sono benvenuti, ma tagliare fuori gli umani dal processo è un esito da evitare. Per far sì che la prima possibilità prevalga sulla seconda, serviranno nuovi standard, forme più robuste di peer review, una cultura della responsabilità condivisa tra sviluppatori di AI, istituzioni scientifiche e decisori politici e, forse, anche un ripensamento di cosa consideriamo “successo” in ambito scientifico. Solo così i “colleghi” artificiali potranno diventare alleati nella ricerca di nuove conoscenze, anziché protagonisti inconsapevoli di una crisi di fiducia nei confronti della scienza stessa.[6][7]

Note

[1] Startup Autoscience says its AI agent Carl just wrote the first academically peer-reviewed paper. R&D Word. https://www.rdworldonline.com/startup-autoscience-says-its-ai-agent-carl-just-wrote-the-first-academically-peer-reviewed-paper/

[2] An AI-Powered Scientist Proposes a Treatment for Blindness. The Scientist. https://www.the-scientist.com/an-ai-powered-scientist-proposes-a-treatment-for-blindness-73079

[3] An AI-Powered Scientist Proposes a Treatment for Blindness. Sakana.ai. https://pub.sakana.ai/ai-scientist-v2/paper/paper.pdf

[4] Computational protein design and protein structure prediction win Nobel Prize in Chemistry. EMBL. https://www.embl.org/news/science/alphafold-wins-nobel-prize-chemistry-2024/

[5] On the ethics of constructing conscious AI. AxiV – Cornell University. https://arxiv.org/abs/2303.07439

[6] What the Rise of AI Scientists May Mean for Human Research. Undark. https://undark.org/2026/01/26/ai-scientists-human-research/

[7] OpenAI’s latest product lets you vibe code science. MIT Technology Review. https://www.technologyreview.com/2026/01/27/1131793/openais-latest-product-lets-you-vibe-code-science/

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x