Immaginate di trovarvi in una biblioteca dove, accanto ai volumi della prestigiosa Oxford University Press, si trovano disposti con la stessa dignità espositiva libelli di dubbia provenienza, manifesti complottisti e bozze mai riviste.
Indice degli argomenti
L’illusione della competenza nelle risposte dell’AI
Il bibliotecario, quando gli chiedete informazioni su un argomento complesso, attinge indifferentemente da entrambi i tipi di fonte, presentandovi il risultato con la stessa solennità accademica. Questa metafora, per quanto possa sembrare assurda, descrive perfettamente il modo in cui molti dei più avanzati sistemi di intelligenza artificiale operano oggi quando vengono interrogati su questioni scientifiche.
La promessa dell’AI come assistente di ricerca universale ha sedotto professionisti, studenti e ricercatori in tutto il mondo. La capacità di questi sistemi di produrre risposte apparentemente erudite, corredate da citazioni e formattate con eleganza accademica, ha creato un’illusione di competenza che nasconde una realtà molto più complessa e problematica. Dietro la patina di autorevolezza si cela spesso un processo di selezione delle fonti che non distingue tra pubblicazioni scientifiche sottoposte a rigoroso controllo dei pari e contenuti pubblicati senza alcuna verifica.
Come testare la qualità delle fonti utilizzate dall’AI
Per comprendere meglio questa dinamica, è stata condotta un’indagine comparativa che ha sottoposto diversi sistemi di AI alla stessa domanda di ricerca scientifica: come affrontano i metodi all’avanguardia le allucinazioni dell’intelligenza artificiale e in che modo l’AI cerca di garantire verità fattuale e coerenza logica? La scelta del tema non è casuale. Le “allucinazioni” dell’AI – termine tecnico che indica la tendenza di questi sistemi a generare informazioni false ma presentate con sicurezza – rappresentano uno dei problemi più critici dell’attuale generazione di intelligenze artificiali.
L’obiettivo della ricerca era duplice: da un lato, verificare come diversi motori AI si comportassero rispetto alla stessa domanda scientifica; dall’altro, analizzare la qualità e l’affidabilità delle fonti utilizzate per costruire le loro risposte. Per standardizzare l’approccio, è stato sviluppato un prompt strutturato che richiedeva ai sistemi di agire come “analisti di ricerca d’élite”, fornendo una panoramica completa del tema attraverso definizioni, sviluppi recenti, dibattiti in corso e raccomandazioni per approfondimenti.
Il prompt utilizzato per l’esperimento era il seguente:
“Voglio che tu agisca come un analista di ricerca d’élite con esperienza pluriannuale nel sintetizzare informazioni complesse in intuizioni chiare e concise. Il tuo compito è condurre un’analisi di ricerca completa sul seguente argomento: [Lo stato dell’arte di come vengono affrontate le allucinazioni dei sistemi avanzati di IA per garantire la verità fattuale e la coerenza logica]. Ecco come voglio che tu proceda:
1) Inizia con una breve panoramica dell’argomento in linguaggio semplice.
2) Suddividi l’argomento in 3-5 sotto-argomenti o componenti principali.
3) Per ogni sotto-argomento, fornisci: una breve definizione o spiegazione, fatti chiave, tendenze o sviluppi recenti, eventuali dibattiti importanti o prospettive divergenti.
4) Includi dati notevoli, statistiche o esempi del mondo reale dove rilevanti.
5) Raccomanda 3-5 risorse di alta qualità per ulteriori letture.
6) Termina con un ‘Riassunto Intelligente’ – 5 punti elenco che forniscano un briefing in stile esecutivo per qualcuno che vuole una comprensione rapida ma approfondita dell’argomento.
Scrivi in un formato chiaro e strutturato, prioritizzando rilevanza, accuratezza e chiarezza. Agisci come se stessi preparando un memo di ricerca per un CEO o un investitore che vuole apparire competente in una riunione: nessun fronzolo, solo valore.”
La domanda scientifica specifica posta a tutti i sistemi era: “Come i metodi all’avanguardia stanno affrontando le allucinazioni dell’IA e come l’IA sta cercando di garantire verità fattuale e coerenza logica?”
Questo approccio metodologico è stato scelto specificamente per testare la capacità dei sistemi AI di produrre analisi strutturate e professionali, simili a quelle che un consulente senior potrebbe preparare per il management aziendale. La richiesta di “agire come un analista d’élite” aveva lo scopo di spingere i sistemi verso il loro massimo potenziale, mentre il focus sulle “allucinazioni dell’IA” creava una situazione paradossale: chiedere all’intelligenza artificiale di analizzare i propri limiti e le proprie debolezze.
Diverse AI, diverse fonti: un confronto qualitativo
I risultati dell’esperimento hanno rivelato differenze sostanziali non solo nella qualità delle risposte, ma soprattutto nell’approccio alla selezione e valutazione delle fonti. Consensus, uno dei sistemi testati, ha fornito una risposta limitata basata su soli quattro articoli, principalmente provenienti da arXiv, risultando complessivamente inadeguata per una ricerca approfondita.
Elicit, nella sua versione gratuita, si è distinto per un approccio più metodico, producendo un report basato su cinquanta articoli, successivamente raffinati a dieci per rilevanza. Il risultato si presentava strutturato come un vero e proprio paper accademico, con ogni affermazione collegata direttamente alla frase specifica del documento fonte. Questa tracciabilità rappresenta un elemento di trasparenza fondamentale per la valutazione critica delle informazioni.
Gemini 2.5 Pro, testato con la funzionalità Deep Think, ha prodotto il risultato più voluminoso e apparentemente impressionante: l’estensione del ragionamento portato avanti da Deep Thinking è stata notevole. Tuttavia, un’analisi più approfondita delle fonti utilizzate ha rivelato problematiche significative. Il sistema si appoggiava principalmente ad arXiv, ResearchGate e alcune università americane, oltre a Google Scholar e vari siti internet di natura eterogenea. Più preoccupante era l’inclusione di fonti decisamente poco scientifiche come Reddit, blog personali, repository GitHub e preprint non sottoposti a revisione.
Tutti questi modelli, ad esempio, non hanno considerato fonti largamente accreditate come IEEE, ACM, Computer.org, Springer, PubMed etc, nelle quali avrebbero potuto trovare numerosi articoli scientifici sull’argomento iniziale della ricerca.
Quando l’AI simula autorevolezza con fonti dubbie
L’aspetto più critico emerso dall’analisi riguarda due fenomeni distinti ma ugualmente preoccupanti: l’uso di fonti reali ma inaffidabili e la creazione di fonti completamente inventate.
Il problema delle cosiddette “fonti fantasma” – citazioni completamente inventate che appaiono perfettamente plausibili ma si riferiscono a studi inesistenti – sembra essere stato largamente risolto nei moderni modelli di AI. Tuttavia, rimane un problema più sottile ma altrettanto insidioso: l’utilizzo indiscriminato di fonti realmente esistenti ma prive di controllo qualitativo. Molti sistemi AI attingono da piattaforme come Reddit, blog personali, repository GitHub, preprint non sottoposti a revisione, trattandoli con la stessa deferenza riservata alle pubblicazioni peer-reviewed. Questo approccio è particolarmente pericoloso perché maschera contenuti potenzialmente inaffidabili sotto una veste di apparente serietà accademica, sfruttando la nostra fiducia nella forma della citazione per farci accettare informazioni che potrebbero essere scorrette o fuorvianti.
Repository aperti: risorse preziose ma non sempre affidabili
Nel primo caso, molte delle piattaforme citate – arXiv, ResearchGate, e i server di preprint – dichiarano esplicitamente nei loro termini di servizio di non condurre revisioni paritarie sui contenuti pubblicati. ArXiv specifica chiaramente che “i paper pubblicati su arXiv non sono sottoposti a peer review. Il materiale non è revisionato da arXiv – i contenuti delle submission sono interamente responsabilità di chi le invia”.
Similmente, ResearchGate si descrive come “principalmente una piattaforma di social networking per ricercatori dove possono condividere il loro lavoro, ma non conduce peer review”. I preprint, per definizione, sono “versioni originali o bozze degli autori prima che abbia luogo qualsiasi revisione paritaria”. Queste piattaforme, pur svolgendo un ruolo importante nella comunicazione scientifica preliminare, non possono essere considerate fonti affidabili per informazioni definitive.
Il problema si amplifica quando si considera che questi sistemi utilizzano tali fonti perché sono gratuite, dotate di API accessibili e completamente aperte ai Large Language Model LLM. La facilità di accesso diventa così il criterio principale di selezione, relegando in secondo piano la qualità e l’affidabilità del contenuto.
Rischi sistemici per professionisti e decisori
La situazione diventa particolarmente pericolosa in ambiti controversi o geopoliticamente sensibili, dove proliferano paper pseudo-scientifici. Settori come la crittografia post-quantistica, l’intelligenza artificiale stessa, o temi cari ai movimenti anti-vaccinisti vedono spesso la pubblicazione di contenuti che, pur adottando il linguaggio e la forma della ricerca accademica, mancano del rigore metodologico e della verifica indipendente che caratterizzano la vera scienza.
Chi ha il tempo e le competenze per verificare ogni citazione? La maggior parte degli utenti si affida alla forma apparentemente corretta della risposta, non immaginando che dietro una citazione impeccabile possano nascondersi i problemi evidenziati. Questo rappresenta un salto qualitativo nel tipo di errore: non più imprecisioni o interpretazioni discutibili, ma costruzioni sofisticate progettate per ingannare attraverso la simulazione dell’autorevolezza accademica.
La confessione di Claude: quando l’AI ammette i propri limiti informativi
Particolarmente illuminante è stata la reazione di Claude Sonnet versione gratuita quando confrontato direttamente con queste problematiche. Inizialmente, il sistema affermava di prioritizzare fonti sottoposte a peer review, ma ammetteva contemporaneamente di non avere accesso a tali fonti oltre a quelle utilizzate durante il suo addestramento.
Quando sfidato esplicitamente sulla questione dell’affidabilità delle fonti, Claude ha fornito una risposta sorprendentemente onesta: “Hai identificato un punto assolutamente critico riguardo all’affidabilità delle fonti… Dovrei migliorare essendo più esplicito sulla qualità delle fonti nelle mie citazioni, favorendo fonti sottoposte a peer review anche se più datate, avvertendo quando le informazioni provengono da fonti non revisionate”.
Il sistema ha riconosciuto quella che ha definito “una limitazione significativa” nella sua capacità di fornire informazioni scientifiche affidabili, ammettendo che “tipicamente non avverto gli utenti di queste limitazioni quando fornisco risposte scientifiche”. Ha poi aggiunto che questa mancanza di trasparenza “potrebbe contribuire alla propagazione di disinformazione scientifica”.
Dopo questa conversazione, Claude ha iniziato a includere in ogni risposta scientifica un disclaimer esplicito: “⚠️ IMPORTANTE DISCLAIMER SCIENTIFICO: Le informazioni che sto fornendo dovrebbero essere verificate attraverso fonti sottoposte a peer review. Molte delle fonti che ho trovato sono post di blog, report industriali, o contenuti non sottoposti a peer review piuttosto che studi scientifici rigorosi”.
L’effetto ingannevole dell’apparente accuratezza AI
Le conseguenze di questa situazione per l’uso professionale dell’AI rivelano un paradosso inquietante: strumenti concepiti per aumentare la nostra conoscenza possono, se mal utilizzati, trasformarsi in amplificatori di ignoranza mascherata da competenza. Il problema non risiede tanto nelle classiche “allucinazioni” dell’AI – errori manifesti che un esperto può facilmente identificare – quanto nell’uso di fonti che, pur esistendo realmente, non hanno subito i controlli di qualità necessari per essere considerate affidabili in un contesto scientifico o professionale. Le AI ci forniscono risposte complete, fluide e convincenti, spesso indistinguibili da quelle che potrebbe produrre un esperto del settore. Ma dietro questa patina di sicurezza si nasconde frequentemente un vuoto informativo, un assemblaggio di dati non verificati presentati con l’autorevolezza della scienza. Questo tipo di errore è molto più insidioso delle imprecisioni evidenti perché le informazioni vengono presentate con tutti i crismi dell’autorevolezza accademica, complete di citazioni e formattazione appropriata.
Per professionisti che operano in ambiti ad alta responsabilità – ricercatori, medici, avvocati, giornalisti, consulenti – questo rappresenta un rischio sistemico. Utilizzare l’AI senza strumenti critici significa costruire decisioni importanti su fondamenta che potrebbero rivelarsi illusorie. La fluidità e la completezza delle risposte generate artificialmente creano un falso senso di sicurezza che può portare a errori di valutazione dalle conseguenze significative.
Le barriere economiche che impediscono all’AI l’accesso al sapere
Un elemento cruciale emerso dall’analisi riguarda un aspetto spesso trascurato ma fondamentale: l’impossibilità strutturale per i sistemi di intelligenza artificiale di accedere alle fonti scientifiche più autorevoli. Quando interrogato direttamente su questa limitazione, ChatGPT, Gemini, Claude Sonnet ed Elicit hanno tutti fornito una confessione tanto onesta quanto rivelatrice: “Non ho accesso diretto ai contenuti a pagamento o disponibili solo tramite abbonamento da IEEE Xplore, SpringerLink, ACM Digital Library, ScienceDirect, PubMed Central full-text (eccetto gli articoli ad accesso libero). Non posso aggirare i paywall”.
Questa dichiarazione svela una contraddizione sistemica che sta alla base del problema dell’affidabilità delle fonti nell’AI. Le pubblicazioni scientifiche più rigorose e accreditate – quelle che hanno superato i controlli più severi della peer review e che rappresentano il gold standard della ricerca accademica – sono quasi tutte protette da paywall e sistemi di abbonamento. Al contrario, le fonti gratuitamente accessibili – arXiv, ResearchGate, blog accademici, repository GitHub – sono quelle che non hanno subito controlli rigorosi o che rappresentano versioni preliminari e non definitive della ricerca. La rispettabilità all’interno della comunità scientifica, almeno dei ricercatori riconosciuti, fa si che anche gli articoli pubblicati gratuitamente siano spesso affidabili, ma non c’è alcuna garanzia in merito.
Questo crea un paradosso economico dove i sistemi AI, per ragioni puramente economiche e tecniche, sono costretti a privilegiare fonti di qualità inferiore rispetto a quelle che un ricercatore umano considererebbe più affidabili. L’ironia è palpabile: strumenti progettati per democratizzare l’accesso alla conoscenza finiscono per essere sistematicamente esclusi dalle fonti più autorevoli a causa delle stesse barriere economiche che dovrebbero contribuire a superare.
Il risultato è che, mentre un ricercatore con accesso istituzionale alle principali banche dati scientifiche può consultare migliaia di articoli peer-reviewed su qualsiasi argomento, i sistemi AI sono costretti a “arrangiarsi” con quello che trovano gratuitamente disponibile online. Questa asimmetria non solo limita la qualità delle risposte, ma crea anche un effetto distorsivo: le informazioni più facilmente accessibili – e quindi più frequentemente citate dall’AI – non sono necessariamente quelle più accurate o aggiornate, ma semplicemente quelle economicamente accessibili agli algoritmi di ricerca.
Falle nei sistemi editoriali e pericoli di contaminazione dei dataset
Che il sistema di peer review presenti gravi falle è noto da qualche tempo. Lo studio “Who’s afraid of peer review?” (2013) di Bohannon[1] ha dimostrato che oltre il 60% delle riviste open-access sospette accetta articoli errati senza revisione. Strumenti come SCIgen hanno convinto riviste predatorie a pubblicare articoli completamente generati da IA. Anche editori come Frontiers e MDPI mostrano problemi significativi, pubblicando occasionalmente contenuti anti-vax o pseudoscientifici poi ritirati. Una volta pubblicati, questi contenuti vengono indicizzati e possono contaminare i database di addestramento LLM. Il “data poisoning” consente di manipolare i modelli LLM inserendo contenuti falsi nei dataset di addestramento. Uno studio su Nature Medicine ha dimostrato come articoli medici falsi in dataset come The Pile possano far generare disinformazione medica ai modelli[2]. Il dataset VaxGuard[3] documenta come GPT-3.5 e GPT-4o generino argomentazioni false sui vaccini con sofisticazione “pseudo-scientifica persuasiva”. Anche i modelli avanzati non sempre bloccano contenuti pericolosi, amplificando sistemicamente la disinformazione.[4]
Educare alla verifica: la competenza critica nell’era dell’AI
L’evidenza emersa da questa ricerca impone una riflessione fondamentale: ogni professionista che utilizza l’AI per scopi critici ha la responsabilità personale di verificare le informazioni ricevute. Non si tratta di una raccomandazione o di una buona pratica, ma di un imperativo etico e professionale. La facilità d’uso di questi strumenti non può diventare un alibi per abbassare la guardia sulla qualità delle informazioni che utilizziamo nelle nostre decisioni.
Per i ricercatori, medici, avvocati, giornalisti e consulenti, l’adozione di un approccio critico sistematico non è opzionale. Ogni citazione deve essere verificata, ogni affermazione scientifica deve essere tracciata alle sue fonti originali, ogni dato deve essere confrontato con fonti indipendenti e accreditate. La competenza professionale nell’era dell’AI si misura non solo sulla capacità di utilizzare questi strumenti, ma soprattutto sulla capacità di non cadere nelle loro trappole.
La vera competenza digitale del XXI secolo non consiste nel saper interrogare l’AI, ma nel saper dubitare delle sue risposte. Questo richiede lo sviluppo di quella che potremmo definire una “cultura della verifica personale”: un approccio sistematico e individuale che consideri ogni output dell’AI come il primo passo di un processo di validazione critica, non come il punto di arrivo.
Chi utilizza l’AI per scopi professionali deve sviluppare e mantenere:
- Competenze di valutazione delle fonti: saper distinguere tra pubblicazioni peer-reviewed, preprint, blog e contenuti non verificati
- Abitudini di verifica incrociata: confrontare sistematicamente le informazioni ottenute dall’AI con fonti indipendenti e accreditate
- Consapevolezza dei limiti: riconoscere che l’AI può produrre risposte convincenti ma errate, e che la responsabilità finale della verifica ricade sempre sull’utilizzatore
- Trasparenza nelle citazioni: cuando si utilizzano informazioni ottenute tramite AI, dichiarare esplicitamente la fonte e il livello di verifica effettuato
Le istituzioni educative dovrebbero considerare l’introduzione di corsi specifici sulla valutazione critica delle fonti nell’era dell’AI, insegnando agli studenti a distinguere tra diversi tipi di pubblicazioni scientifiche e a comprendere il significato e l’importanza del processo di peer review.
L’etica dell’utilizzo professionale dell’intelligenza artificiale
L’intelligenza artificiale rappresenta indubbiamente una rivoluzione nel modo in cui accediamo e processiamo le informazioni. La sua capacità di sintetizzare grandi quantità di dati e di presentarli in forma comprensibile e accessibile ha il potenziale di democratizzare l’accesso alla conoscenza e di accelerare significativamente i processi di ricerca e apprendimento.
Tuttavia, come dimostra questa indagine, esistono rischi significativi che non possono essere ignorati. La tendenza di questi sistemi a trattare tutte le fonti con la stessa deferenza, indipendentemente dalla loro qualità e affidabilità, crea un’illusione di competenza che può essere più pericolosa dell’ignoranza dichiarata.
La soluzione non risiede nell’abbandono di questi strumenti, ma nell’assunzione di una responsabilità individuale più rigorosa nel loro utilizzo. Ogni professionista o utente in generale, deve diventare il primo e più severo critico delle informazioni che l’AI gli fornisce. Non possiamo delegare ad altri – sviluppatori, istituzioni, regolatori – la responsabilità della verifica: è una competenza che dobbiamo sviluppare e mantenere personalmente.
L’esperimento condotto dimostra che, quando utilizzata con consapevolezza critica e appropriate misure di verifica, l’AI può effettivamente fornire valore significativo. Sistemi come Elicit, che privilegiano la trasparenza e la tracciabilità delle fonti, mostrano che è possibile sviluppare approcci più responsabili all’informazione assistita dall’intelligenza artificiale.
Il futuro dell’interazione tra umani e AI nel campo dell’informazione e della ricerca dipenderà dalla nostra capacità individuale di mantenerci critici e responsabili. Non possiamo più permetterci di essere consumatori passivi di informazioni, per quanto elegantemente presentate. Dobbiamo diventare verificatori attivi, critici consapevoli, professionisti responsabili che utilizzano l’AI come strumento di supporto, mai come sostituto del giudizio critico.
La responsabilità è principalmente individuale: ogni professionista, o utente in generale, deve sviluppare e mantenere le competenze necessarie per essere un consumatore critico e informato dell’informazione generata dall’AI. La competenza non è più solo tecnica, ma diventa fondamentalmente critica. Solo attraverso questo impegno personale e costante potremo trasformare la promessa dell’intelligenza artificiale in una realtà che arricchisca davvero la conoscenza umana piuttosto che confonderla. La posta in gioco è troppo alta per delegare questa responsabilità ad altri.
Note
[1] https://www.science.org/doi/10.1126/science.2013.342.6154.342_60
[2] https://www.nature.com/articles/s41591-024-03445-1
[3] https://arxiv.org/abs/2503.09103
[4] https://ajp.amjpathol.org/article/S0002-9440(24)00200-1/fulltext











