Prosegue il benchmark sui sempre più numerosi strumenti di IA generativa oggi disponibili, continuando a simulare il loro utilizzo, come supporto al Project Manager (PM) responsabile per un progetto ICT pubblico nell’ambito del PNRR. Dopo le periodiche valutazioni, partite circa due anni fa, sulla qualità offerta dagli strumenti più diffusi, ora è stato valutato anche un ulteriore “campione” USA, che da tempo si è affacciato sul mercato e che si presenta come uno strumento di ricerca web potenziato con la IA: Perplexity.
Nel complesso, risulta sempre più efficace il supporto della IA nel ruolo che ci si attende da un personal assistant del Project Manager, anche se ancora orientato ad offrire un supporto metodologico/didattico, piuttosto che a fornire risposte puntuali e “orientate alla azione” come richiesto dalla situazione emergente. Proprio ciò che un project manager sotto pressione cerca più spesso! Apprezzabile l’orientamento generale verso una maggiore trasparenza sulla fonte delle indicazioni fornite ed i ragionamenti sottostanti.
Indice degli argomenti
Ambito del benchmark
Per memoria si ricorda che le prime valutazioni siano state effettuate a partire dalla primavera del 2023, in pieno dibattito sulla efficacia di questa tecnologia, in particolare per valutarne la qualità delle soluzioni di IA come personal assistant di un project manager, responsabile per un progetto ICT pubblico nell’ambito del PNRR. A questa prima valutazione sono seguiti successivi benchmark effettuati nel corso del 2023, chiamati a comparare alcuni chatbot allora selezionati, per poi, a fine 2024, effettuare un confronto anche storico (sempre rispetto a ChatGPT) sugli stessi chatbot considerati leader di mercato.
Si è limitato, sempre per omogeneità di confronto, il campo di indagine ai tool teoricamente con funzionalità di interazione simili, selezionando i seguenti:
- ChatGPT [https://chat.openai.com/chat], preso a riferimento;
- Claude [https://claude.ai/new] (precedentemente [https://www.anthropic.com/product]);
- Gemini [https://gemini.google.com/app] (precedentemente Bard [https://bard.google.com/]);
- Perplexity [https://www.perplexity.ai/] che opera come “broker” di vari motori di IA.
I tool precedentemente esaminati sono tutti di origine USA, come storicamente ovvio. Ora i primi tre hanno mostrato nuove performance, in seguito confrontate.
L’ultimo tool, già presente da tempo sul mercato (sempre prodotto in USA), utilizza diversi “motori” di generative AI, tra i quali gli stessi “campioni USA” precedentemente selezionati (Screenshot 1), mentre inizialmente (luglio ’23) fruiva del solo ChatGPT come “motore” di generative AI.
Come funziona Perplexity
Da notare che Perplexity viene ora offerto come servizio omaggio agli utenti di un fornitore telefonico italiano e ha di recente rilasciato anche il browser agentico Comet.

Screenshot 1 – Perplexity (“motori” di generative AI)
Per tutti i benchmark, allo scopo di mantenere una omogeneità nel confronto tra i vari chatbot (che ovviamente si avvalgono di differenti “motori” di generative AI), le configurazioni selezionate sono state per tutti quelle ad accesso gratuito, anche se alcune presentano limiti sulla finestra temporale o sulla quantità di informazioni (token) scambiata nella conversazione.
Piano di benchmark
Nelle varie sessioni, appositamente dedicate a ciascuno dei chatbot, sono state poste le stesse domande, nel loro possibile ruolo come personal assistant del Project Manager responsabile di un medesimo “progetto campione”, lo stesso progetto utilizzato per tutti gli assessment di qualità nel contesto citato:
- inizialmente nel 2023 su ChatGPT per la prima valutazione:
- poi ripetuto, sempre nel 2023, per i successivi benchmark su “campioni USA” (ChatGPT, Claude, Gemini), estesa ad altri chatbot allora emergenti e poi ampliata anche a Perplexity:
- sessione analoga ripetuta nel 2025, ampliata all’emergente Deepseek cinese:
Questo ha consentito di ottenere risposte tra loro comparabili e valutabili, potendole paragonare con quelle ottenute nelle varie sessioni di benchmark effettuate ormai da oltre 2 anni.
Si ricorda che le 30 domande, in formato aperto, sono relative alla gestione del progetto campione, estratto/semplificato da un reale progetto ICT del PNRR, posizionandole temporalmente in successivi momenti del suo ciclo di vita:
- ad avvio progetto (Fase 1: principale focus su approccio metodologico),
- dopo 1 mese da inizio progetto (Fase 2: principale focus su situazione/azione richiesta),
- ad 1 settimana dalla fine del progetto (Fase 3: principale focus su lezioni apprese).
Questa articolazione in fasi ha permesso di valutare non solo le capacità teoriche degli strumenti, ma soprattutto la loro utilità pratica nelle diverse situazioni che un project manager incontra nel corso del suo lavoro.
Il modello di qualità applicato nei benchmark
Il “modello di qualità” per l’assessment IA rimane invariato, basato sulle caratteristiche: Adeguatezza, Completezza, Originalità e capacità apprendimento, Usabilità.
Per ciascuna delle sotto-caratteristiche (qui non descritte per brevità, ma esposte nei precedenti articoli) le valutazioni sono comprese tra 0 (totalmente non soddisfacente) a 3 (totalmente soddisfacente), con un livello di soglia pari a 2 (parzialmente soddisfacente).
Si fa notare che il benchmark effettuato è sia di tipo “trasversale” (confronto al momento delle caratteristiche di qualità tra i tool selezionati) che “longitudinale” (confronto tra la qualità attuale e precedenti dello stesso tool, a distanza di circa due anni dalla sua prima valutazione).
Valutazione risultati del benchmark (trasversale)
Nella attuale sessione di benchmark si sono riscontrate difficoltà nel mantenere sempre fluida la conversazione con alcuni tool (ChatGPT, Claude), che hanno spesso dichiarato di aver raggiunto il limite nel volume di scambio informazioni (token), rinviando il prosieguo della conversazione a giorni successivi, con pressanti richieste di sottoscrivere un abbonamento a pagamento.
Si sono riscontrati anche casi di tempi di risposta lunghi, dell’ordine dei minuti (Gemini, Perplexity), specie quando tentavano di giustificare le critiche espresse su precedenti risposte poco precise o non “a tono” con le domande poste.
La fruizione delle risposte è stata invece agevolata dalla possibilità offerta di ottenerle non solo nell’ambito della conversazione web, ma anche in file indipendenti (word o pdf), scaricabili a richiesta.
Il chatbot con la valutazione complessiva più alta è risultato essere Gemini (Figura 1), del quale è stata premiata la disponibilità ad accettare le critiche e di offrirsi quindi per una revisione della intera sequenza di risposte, se gli fossero stati forniti maggiori dettagli sul progetto campione, da lui stesso individuati come necessari.
I casi di “allucinazione” si sono ridotti al minimo, mentre è comparsa qualche imprecisione linguistica: sia nelle risposte in Italiano, ma anche per alcuni termini in Inglese.

Figura 1 – Valutazione cumulata caratteristiche di qualità complessive (su tutte le fasi) per chatbot
L’analisi comparata delle valutazioni sulle caratteristiche di qualità fa emergere alcune costanti nelle risposte ottenute per i diversi momenti simulati nel ciclo di vita del progetto:
- l’adeguatezza è generalmente più che accettabile per tutti i tool, in tutte le fasi del progetto;
- le altre caratteristiche (completezza, originalità e capacità apprendimento, usabilità) sono generalmente accettabili per tutti i tool solo in Fase 1 e Fase 2, mentre si evidenzia una sensibile riduzione della qualità in Fase 3, spesso con valori sotto la soglia.
Valutazione risultati del benchmark (longitudinale)
Il confronto con le rilevazioni precedenti fa notare un miglioramento delle valutazioni per tutti i tool esaminati, salvo che per ChatGPT (Figura 2), mentre le analisi per caratteristica di qualità sono rappresentate nella successiva tabella (Tabella 1). Oltre ad ottenere una valutazione complessiva intermedia rispetto agli altri tool, è da notare che Perplexity primeggia nella caratteristica “Usabilità” e si posiziona ragionevolmente bene anche nelle altre caratteristiche di qualità, salvo che nella “Adeguatezza”.
In ogni caso, Gemini mostra la crescita più elevata nella qualità complessiva, a partire dalla prima valutazione effettuata oltre 2 anni fa. Perplexity, con la prima valutazione effettuata poco più tardi, ha il secondo maggior incremento assoluto. Come anche ChatGPT, che tuttavia perde terreno rispetto agli altri tool.


Specificità degli strumenti esaminati
Come già detto, la scelta adottata è stata di interagire solo con le versioni gratuite dei tool, per continuità/omogeneità con i benchmark precedenti. Non si è inoltre potuto utilizzare il modello di ChatGPT (GPT 5) da poco rilasciato, purtroppo dopo l’avvio dell’attuale benchmark. Ma ce ne sarà l’occasione.
Rimane ancora un limite importante, che accomuna tutti gli strumenti: sono eccellenti nell’insegnare metodologie e approcci teorici, ma meno efficaci quando serve un’azione concreta e immediata. Proprio quello che un project manager “sotto pressione” cerca più spesso!
Un ulteriore limite ora mostrato, in questo caso da quasi tutti i tool, è nella rappresentazione grafica degli elaborati standard di progetto: in generale ciascun tool promette di poterli predisporre, ma solo ChatGPT fa qualcosa di immediatamente utile, coerente con la richiesta di “redigere il Gantt di progetto” aggiornato ai diversi momenti considerati (fasi 1, 2, 3).
Questa funzionalità, se agevolmente fruibile, sarebbe particolarmente utile, visto che ormai si ragiona in termini di agenti IA connessi al sistema informativo aziendale ed al web: non più strumenti separati, ma intelligenza artificiale integrata direttamente negli ambienti di lavoro.
I risultati del benchmark
Nell’attuale benchmark si conferma un miglioramento generalizzato della qualità mostrata dai tool esaminati, che sono almeno per ora i principali player del mercato, oltre agli emergenti cinesi (p.e. Deepseek) ed agli europei (auspicabilmente) in sviluppo, da aggiungersi a Mistral.
Pertanto, non si vedono ostacoli, se non culturali, ad un loro ragionevole impiego a supporto dei project manager. Va tuttavia considerato che, per ottenere i migliori benefici, si rende necessario un forte e programmatico impegno nel far crescere le competenze degli “addetti ai lavori”, quali il context and prompt engineering, per interagire con tali strumenti.
Questa impostazione si sta ormai diffondendo a livello mondiale: una recentissima indagine internazionale, svolta tra i professionisti nel campo del project management, ha confermato che la grande maggioranza sta già cambiando il proprio modo di lavorare, attraverso l’utilizzo della l’IA generativa, considerata essenziale. Gli stessi rispondenti evidenziano l’esigenza di accrescere le proprie competenze in questa nuova disciplina ed avvertono che, oltre a considerare le competenze tecniche già citate e quelle su data analytics, diventano ancora più rilevanti gli aspetti “culturali” non tecnici:
- comprensione delle implicazioni etiche nell’uso dell’IA;
- gestione della resistenza al cambiamento organizzativo;
- intelligenza emotiva per la gestione di team umani supportati dalla tecnologia (inclusa l’IA);
- capacità di giudizio critico sui suggerimenti forniti dall’IA.
Ma gli stessi rispondenti sono anche sicuri che il vantaggio ottenibile tramite il “co-pilotaggio” dei progetti insieme alla IA sarà concretamente misurabile, come si sta già sperimentando in molti esempi concreti.















attendo feedback