intelligenza artificiale

GPT-4.5: il nuovo modello di OpenAI alla prova



Indirizzo copiato

OpenAI ha rilasciato GPT-4.5, migliorando l’elaborazione non supervisionata e riducendo le allucinazioni rispetto ai modelli precedenti. Il confronto con GPT-4o evidenzia un’esposizione più efficace e un tono più accogliente, ma ancora con limiti nella precisione delle informazioni

Pubblicato il 4 mar 2025

Antonio Cisternino

Università di Pisa



chatgpt privacy

OpenAI ha annunciato il nuovo modello di GPT battezzato come GPT-4.5, già disponibile ai sottoscrittori del livello pro di ChatGPT. Si tratta di una versione migliorata del modello GPT-4o e, come ha già fatto Anthropic con Claude Sonnet dalla versione 3.5 alla 3.7, si è mantenuto il numero quattro nel nome a sottolineare che si tratta di una versione migliorata ma in continuità con i modelli precedenti.

Ecco come la casa madre OpenAI introduce questa nuova versione: “Stiamo rilasciando un’anteprima di ricerca di GPT-4.5, il nostro modello di chat più grande e avanzato finora. GPT-4.5 rappresenta un passo avanti nell’ampliamento del pre-training e del post-training. Grazie alla scalabilità dell’apprendimento non supervisionato, GPT-4.5 migliora la sua capacità di riconoscere schemi, stabilire connessioni e generare intuizioni creative senza ragionamento.”

Si tratta quindi di un modello migliore che viene reso disponibile in anteprima e che promette una riduzione significativa delle allucinazioni rispetto ai modelli precedenti. OpenAI parla poi di un’interazione più naturale con una migliore capacità di seguire gli intenti dell’utente e un miglioramento generale della capacità di risolvere problemi.

Evoluzione dei modelli AI: caratterizzazione e personalità

È interessante osservare come ormai le descrizioni dei modelli stiano divenendo meno piatte e ovvie di prima. Nell’annuncio OpenAI sottolinea è “il modello di chat più grande” e, poco dopo “senza ragionamento”.

In effetti se osserviamo le descrizioni che vengono date per ciascun modello al momento della sua scelta vediamo che ormai si tende ad evidenziare il campo applicativo piuttosto che indicare solo se è più o meno sofisticato. È evidente che, anche se a partire da una stessa base, i modelli che sono rilasciati vengono caratterizzati per tipologie di uso specifiche e ciascuno porta con sé punti di forza e punti di debolezza.

Diviene sempre più difficile anche fare delle prove di questi modelli che spesso esibiscono comportamenti simili a parità di prompt. Dopo i primi anni di miglioramenti paragonabili a quando le schede grafiche passavano da 16 a 256 colori adesso anche per i modelli il miglioramento diventa meno evidente più analogo al supporto di diverse risoluzioni grafiche.

Anche il modo in cui i modelli vengono descritti è sempre più qualitativo, come se un addestramento portasse con sé un “carattere” del modello che lo spinge a rispondere in modo differente.

Se prendiamo, ad esempio, una domanda un po’ particolare come quella posta a GPT-4.5 e GPT-4o nelle seguenti figure è evidente come la sostanza sia presente in entrambe le risposte anche se GPT-4.5 effettivamente sembra più puntuale e con una migliore capacità espositiva.

Immagine che contiene testo, schermata, Carattere, designIl contenuto generato dall'IA potrebbe non essere corretto.
Immagine che contiene testo, schermata, CarattereIl contenuto generato dall'IA potrebbe non essere corretto.

Confronto tra GPT-4.5 e GPT-4o: approccio e tono comunicativo

Anche il tono e l’approccio che segue GPT-4.5 di fronte ad un prompt che mette in luce difficoltà di chi scrive sembra essere più caldo e rassicurante, senza quel tono un po’ da sapientino di GPT-4o che si evidenzia nelle seguenti figure.

Immagine che contiene testo, schermata, CarattereIl contenuto generato dall'IA potrebbe non essere corretto.

Anche le indagini condotte da OpenAI per caratterizzare come noi umani percepiamo l’interazione con questi modelli confermano una preferenza per il nuovo modello.

GPT-4.5: riduzione delle allucinazioni e miglioramento della conoscenza

Una novità interessante di questo nuovo modello è l’apparente riduzione significativa delle allucinazioni, certo si tratta di una valutazione basata su benchmark che come ben sappiamo ha le sue limitazioni, ma sicuramente fornisce indizi sul comportamento del nuovo arrivato.

Il benchmark utilizzato da OpenAI si chiama SimpleQA (dove QA sta per Question Answering) e i risultati mostrano come sia in termini di accuratezza che di allucinazioni il nuovo modello faccia la parte del gigante, anche in confronto con modelli che ragionano come o1.

Sorprende vedere che comunque le allucinazioni non sono “scomparse” come alcuni pensano, e anzi nel migliore dei casi per OpenAI sono ancora nel 37% circa delle risposte di GPT-4.5 alle domande del benchmark. È interessante osservare a margine come o1, modello basato su GPT-4o, migliori le prestazioni grazie all’applicazione della tecnica del Chain of thought che ne migliora significativamente le risposte riportando allucinazioni il 15% in meno delle volte.

In effetti nel proprio articolo OpenAI commenta che nelle nuove tecniche di addestramento utilizzate si è lavorato per migliorare il ragionamento di base, e viene commentato che in futuro il ragionamento sarà sempre più all’interno del modello stesso piuttosto che con un’iterazione basata su di esso.

Caso studio: verifica delle allucinazioni con la parola “crozza”

Mentre cercavo di far allucinare i modelli mi è venuto di chiedere la genesi della parola siciliana “crozza”, ed ho scoperto con interesse che le risposte di GPT-4.5 e GPT-4o differivano sostanzialmente:

Immagine che contiene testo, schermata, CarattereIl contenuto generato dall'IA potrebbe non essere corretto.
Immagine che contiene testo, schermata, CarattereIl contenuto generato dall'IA potrebbe non essere corretto.

Mi sono reso conto però di non conoscere io la risposta e quindi ho cominciato a cercare, prima usando altre AI, Claude Sonnet 3.7 sembra condividere l’approccio di GPT-4.5:

Mentre Gemini Flash 2.0 sembra abbracciare entrambe le spiegazioni:

Immagine che contiene testo, schermata, CarattereIl contenuto generato dall'IA potrebbe non essere corretto.

Ho pensato quindi di avvalermi dell’intelligenza artificiale che però usa la ricerca Web per rispondere in GPT, ma anche in questo caso la fonte è unica (il Camilleri index) ed è difficile valutare l’attendibilità.

Immagine che contiene testo, schermata, CarattereIl contenuto generato dall'IA potrebbe non essere corretto.

Ho infine chiesto a GPT di fare una “Deep research” che ha prodotto un’analisi molto interessante che raccomando di leggere per curiosità.

In apparenza sono i modelli più recenti GPT-4.5 e Claude 3.7 ad avere la peggio, mostrando come sia difficile caratterizzare davvero quando un modello allucini.

Certo, il risultato dipende anche dal materiale usato per l’addestramento, e si tratta di un caso che non può essere eletto a tesi, ma ho trovato molto istruttivo seguire il processo di verifica quando non si sa la risposta ad una domanda. Come direbbe Alessandro Barbero bisogna chiedere “e tu come fai a saperlo?”, non potendo è bene in caso di dubbio far fare la ricerca delle fonti e non accontentarsi della risposta generata dal modello che comunque più di una volta su tre potrebbe allucinare.

Prospettive future dei modelli AI

GPT-4.5 sembra davvero essere una versione migliore di GPT-4o, ma l’impressione che si ha, almeno da questa anteprima, è che sia un’evoluzione e non una rivoluzione. Le risposte tendono ad essere più facili da leggere ed effettivamente il modello sembra adattarsi meglio a seguire gli intenti dell’utente. Il calo di allucinazioni, almeno in un benchmark, è sicuramente una buona notizia che però testimonia che c’è ancora tanto da fare a livello del modello. Per ora la contromisura migliore a nostra disposizione per le allucinazioni è quella di non affidarsi alla sola conoscenza del modello ma integrare con la ricerca sul Web in modo da poter poi verificare, per quanto possibile, l’origine delle informazioni.

EU Stories - La coesione innova l'Italia

Tutti
Video & Podcast
Analisi
Social
Iniziative
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 4