intelligenza artificiale

GPT-4.5: il nuovo modello di OpenAI alla prova

OpenAI ha rilasciato GPT-4.5, migliorando l’elaborazione non supervisionata e riducendo le allucinazioni rispetto ai modelli precedenti. Il confronto con GPT-4o evidenzia un’esposizione più efficace e un tono più accogliente, ma ancora con limiti nella precisione delle informazioni

Pubblicato il 4 mar 2025

Aggiungi tra i preferiti su Google

Antonio Cisternino

Università di Pisa

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

OpenAI ha annunciato il nuovo modello di GPT battezzato come GPT-4.5, già disponibile ai sottoscrittori del livello pro di ChatGPT. Si tratta di una versione migliorata del modello GPT-4o e, come ha già fatto Anthropic con Claude Sonnet dalla versione 3.5 alla 3.7, si è mantenuto il numero quattro nel nome a sottolineare che si tratta di una versione migliorata ma in continuità con i modelli precedenti.

AI generativa: sei strade per lo sviluppo nel 2024

Ecco come la casa madre OpenAI introduce questa nuova versione: “Stiamo rilasciando un’anteprima di ricerca di GPT-4.5, il nostro modello di chat più grande e avanzato finora. GPT-4.5 rappresenta un passo avanti nell’ampliamento del pre-training e del post-training. Grazie alla scalabilità dell’apprendimento non supervisionato, GPT-4.5 migliora la sua capacità di riconoscere schemi, stabilire connessioni e generare intuizioni creative senza ragionamento.”

Si tratta quindi di un modello migliore che viene reso disponibile in anteprima e che promette una riduzione significativa delle allucinazioni rispetto ai modelli precedenti. OpenAI parla poi di un’interazione più naturale con una migliore capacità di seguire gli intenti dell’utente e un miglioramento generale della capacità di risolvere problemi.

Indice degli argomenti

Evoluzione dei modelli AI: caratterizzazione e personalità

È interessante osservare come ormai le descrizioni dei modelli stiano divenendo meno piatte e ovvie di prima. Nell’annuncio OpenAI sottolinea è “il modello di chat più grande” e, poco dopo “senza ragionamento”.

In effetti se osserviamo le descrizioni che vengono date per ciascun modello al momento della sua scelta vediamo che ormai si tende ad evidenziare il campo applicativo piuttosto che indicare solo se è più o meno sofisticato. È evidente che, anche se a partire da una stessa base, i modelli che sono rilasciati vengono caratterizzati per tipologie di uso specifiche e ciascuno porta con sé punti di forza e punti di debolezza.

Diviene sempre più difficile anche fare delle prove di questi modelli che spesso esibiscono comportamenti simili a parità di prompt. Dopo i primi anni di miglioramenti paragonabili a quando le schede grafiche passavano da 16 a 256 colori adesso anche per i modelli il miglioramento diventa meno evidente più analogo al supporto di diverse risoluzioni grafiche.

Anche il modo in cui i modelli vengono descritti è sempre più qualitativo, come se un addestramento portasse con sé un “carattere” del modello che lo spinge a rispondere in modo differente.

Se prendiamo, ad esempio, una domanda un po’ particolare come quella posta a GPT-4.5 e GPT-4o nelle seguenti figure è evidente come la sostanza sia presente in entrambe le risposte anche se GPT-4.5 effettivamente sembra più puntuale e con una migliore capacità espositiva.

Immagine che contiene testo, schermata, Carattere, designIl contenuto generato dall'IA potrebbe non essere corretto.

Immagine che contiene testo, schermata, CarattereIl contenuto generato dall'IA potrebbe non essere corretto.

Confronto tra GPT-4.5 e GPT-4o: approccio e tono comunicativo

Anche il tono e l’approccio che segue GPT-4.5 di fronte ad un prompt che mette in luce difficoltà di chi scrive sembra essere più caldo e rassicurante, senza quel tono un po’ da sapientino di GPT-4o che si evidenzia nelle seguenti figure.

Anche le indagini condotte da OpenAI per caratterizzare come noi umani percepiamo l’interazione con questi modelli confermano una preferenza per il nuovo modello.

GPT-4.5: riduzione delle allucinazioni e miglioramento della conoscenza

Una novità interessante di questo nuovo modello è l’apparente riduzione significativa delle allucinazioni, certo si tratta di una valutazione basata su benchmark che come ben sappiamo ha le sue limitazioni, ma sicuramente fornisce indizi sul comportamento del nuovo arrivato.

Il benchmark utilizzato da OpenAI si chiama SimpleQA (dove QA sta per Question Answering) e i risultati mostrano come sia in termini di accuratezza che di allucinazioni il nuovo modello faccia la parte del gigante, anche in confronto con modelli che ragionano come o1.

Sorprende vedere che comunque le allucinazioni non sono “scomparse” come alcuni pensano, e anzi nel migliore dei casi per OpenAI sono ancora nel 37% circa delle risposte di GPT-4.5 alle domande del benchmark. È interessante osservare a margine come o1, modello basato su GPT-4o, migliori le prestazioni grazie all’applicazione della tecnica del Chain of thought che ne migliora significativamente le risposte riportando allucinazioni il 15% in meno delle volte.

In effetti nel proprio articolo OpenAI commenta che nelle nuove tecniche di addestramento utilizzate si è lavorato per migliorare il ragionamento di base, e viene commentato che in futuro il ragionamento sarà sempre più all’interno del modello stesso piuttosto che con un’iterazione basata su di esso.

Caso studio: verifica delle allucinazioni con la parola “crozza”

Mentre cercavo di far allucinare i modelli mi è venuto di chiedere la genesi della parola siciliana “crozza”, ed ho scoperto con interesse che le risposte di GPT-4.5 e GPT-4o differivano sostanzialmente:

Mi sono reso conto però di non conoscere io la risposta e quindi ho cominciato a cercare, prima usando altre AI, Claude Sonnet 3.7 sembra condividere l’approccio di GPT-4.5:

Mentre Gemini Flash 2.0 sembra abbracciare entrambe le spiegazioni:

Ho pensato quindi di avvalermi dell’intelligenza artificiale che però usa la ricerca Web per rispondere in GPT, ma anche in questo caso la fonte è unica (il Camilleri index) ed è difficile valutare l’attendibilità.

Ho infine chiesto a GPT di fare una “Deep research” che ha prodotto un’analisi molto interessante che raccomando di leggere per curiosità.

In apparenza sono i modelli più recenti GPT-4.5 e Claude 3.7 ad avere la peggio, mostrando come sia difficile caratterizzare davvero quando un modello allucini.

Certo, il risultato dipende anche dal materiale usato per l’addestramento, e si tratta di un caso che non può essere eletto a tesi, ma ho trovato molto istruttivo seguire il processo di verifica quando non si sa la risposta ad una domanda. Come direbbe Alessandro Barbero bisogna chiedere “e tu come fai a saperlo?”, non potendo è bene in caso di dubbio far fare la ricerca delle fonti e non accontentarsi della risposta generata dal modello che comunque più di una volta su tre potrebbe allucinare.

Prospettive future dei modelli AI

GPT-4.5 sembra davvero essere una versione migliore di GPT-4o, ma l’impressione che si ha, almeno da questa anteprima, è che sia un’evoluzione e non una rivoluzione. Le risposte tendono ad essere più facili da leggere ed effettivamente il modello sembra adattarsi meglio a seguire gli intenti dell’utente. Il calo di allucinazioni, almeno in un benchmark, è sicuramente una buona notizia che però testimonia che c’è ancora tanto da fare a livello del modello. Per ora la contromisura migliore a nostra disposizione per le allucinazioni è quella di non affidarsi alla sola conoscenza del modello ma integrare con la ricerca sul Web in modo da poter poi verificare, per quanto possibile, l’origine delle informazioni.

@RIPRODUZIONE RISERVATA