la prova

Gpt 5.1, cosa convince e cosa no del nuovo modello



Indirizzo copiato

GPT 5.1 arriva come aggiornamento “minore” di ChatGPT 5, ma introduce cambiamenti concreti: nuovi nomi per i modelli, una gestione più robusta delle istruzioni, personalità configurabili e un diverso equilibrio tra velocità, costi e qualità, soprattutto quando viene usato via API nelle applicazioni

Pubblicato il 17 nov 2025

Antonio Cisternino

Università di Pisa



gpt 5.1

Come è prassi già da tempo nei sistemi operativi, sembra che anche nel mondo dell’intelligenza artificiale a un rilascio di un nuovo modello segua dopo breve tempo un aggiornamento che consolida i cambiamenti introdotti. Ecco che, poco dopo il rilascio di ChatGPT-5, OpenAI ha annunciato la disponibilità di ChatGPT 5.1.

Come ogni annuncio, non basta dire “c’è una nuova versione per te!”: è necessario indicare nuove funzioni, unitamente ai naturali miglioramenti.

GPT 5.1 tra continuità e novità nel modello

Le novità di GPT 5.1 riguardano innanzitutto la ridenominazione dei modelli. I due modelli con e senza ragionamento sono stati ribattezzati rispettivamente Thinking e Instant, a cui si aggiunge il preesistente GPT-5 Pro, che è il modello più capace.

Secondo OpenAI, il modello Instant espone il modello veloce che adesso offre un tono più caldo, oltre a essere più “smart” e più incline a seguire le istruzioni che riceve. Il modello Thinking, in accordo agli autori, produce output più comprensibili ed è più veloce a rispondere a quesiti semplici rispetto ai predecessori, anche se è più “tenace” nel ragionare su questioni complesse, impiegando più tempo (e risorse) del predecessore.

In effetti, quando ho provato a porre questioni che implicano una qualche difficoltà, l’impressione è quella di ricevere meno “lezioncine” e risposte più rispettose rispetto al modello precedente. Anche sui casi semplici il comportamento appare più diretto: il modello sembra meno portato a dilungarsi in spiegazioni superflue e più concentrato sull’obiettivo del prompt.

Personalità e istruzioni globali del nuovo modello

La personalità è un aspetto chiave del rilascio: oltre ai modelli migliorati, OpenAI ha annunciato la possibilità di definire la personalità nelle impostazioni. Si possono anche impostare istruzioni globali, che in qualche modo consentono di personalizzare ulteriormente il comportamento nelle varie chat, rendendo l’interazione più coerente con le preferenze dell’utente.

Sempre meno deterministica

Sicuramente farà piacere a molti degli 800 milioni di utenti settimanali che usano il servizio, ma una AI sempre meno deterministica non può non destare preoccupazioni. Il fatto che le risposte possano variare non solo in tono ma anche in contenuto, come notato da Ethan Mollick, apre scenari in cui la stessa domanda può produrre risultati diversi a seconda della personalità scelta, con possibili conseguenze sulla fiducia e sulla ripetibilità dei comportamenti del modello.

Da un punto di vista comunicativo è decisamente interessante il passaggio da annunci con contenuti molto tecnici e miglioramenti centrati sul modello ad annunci che si focalizzano sulla user experience, continuando a sottolineare l’attenzione che il colosso dell’AI pone non solo agli aspetti propri dell’AI, ma anche a come questa funzione si traduca in una interazione migliore tra uomo e macchina.

Costi e prestazioni di GPT 5.1 sui prompt

Il nuovo modello mostra un’accelerazione nel rispondere a prompt che richiedono pochi token e un rallentamento per quelli più complessi. Questo altererà sicuramente la struttura dei costi (e scommetto che la maggior parte dei prompt rientrerà nel primo caso), portando a meno token generati e di conseguenza a un minor uso di risorse nel caso di risposte “semplici”.

Per le risposte più complesse sembra avere senso spendere più risorse nella speranza di ottenere risposte più complete, che di conseguenza non saranno riproposte con variazioni al modello in successivi prompt.

Se succede una volta ogni due, il nuovo modello porta evidentemente a un risparmio complessivo di costo, anche se per la singola risposta si può aspettare fino al 71% in più di tempo. L’idea implicita è che sia meglio pagare un po’ di più (in tempo e risorse) una risposta buona, piuttosto che doverla riformulare più volte.

L’impatto di GPT 5.1 sulle applicazioni

L’impatto sulle applicazioni è tutt’altro che marginale. Se l’aggiornamento del modello in una conversazione tra uomo e macchina può portare a un miglioramento a basso impatto (una persona si adatta naturalmente a un cambio di interlocutore), non si può dire lo stesso per quanto riguarda il mondo applicativo. Il cambio di modello può comportare cambiamenti significativi nelle risposte prodotte, e un software potrebbe cambiare in modo sostanziale il proprio comportamento al cambio di modello.

Se messe a confronto, le risposte di GPT 5.1 rispetto a quelle di GPT 5 quando usati via API sono significativamente diverse, sia nel contenuto sia nella forma, come si può osservare nel seguente esempio. L’aggiornamento del modello in un’applicazione richiede quindi un testing specifico prima di procedere, anche se le funzioni del nuovo modello possono portare vantaggi significativi nel suo impiego.

Nel mondo applicativo, infatti, l’abilità di seguire le istruzioni ha più valore che in una conversazione, e in questo senso il miglioramento potrebbe spingere a effettuare l’aggiornamento. Le tecniche di testing dovranno quindi naturalmente evolvere per assicurare il corretto funzionamento di un software al cambio di modello, e potrebbero non essere sufficienti i casi che si usano oggi per fare i test, poiché un modello può cambiare comportamento in modo non uniforme rispetto ai prompt che riceve.

Al complicarsi dei prompt applicativi diviene quindi essenziale sviluppare metodologie di validazione adeguate per assicurare il suo corretto funzionamento all’aggiornamento. Non si tratta più soltanto di verificare che “la risposta sembri giusta”, ma di garantire che il modello si comporti in modo stabile su scenari d’uso realistici e critici per il business.

Un esempio concreto arriva dall’esperienza diretta: i prompt hanno cambiato significativamente il funzionamento delle Sibyllae che ho sviluppato con il framework Oraculum. GPT-3.5 implementava correttamente le istruzioni di rispondere nella lingua in cui un utente pone la domanda (nonostante il prompt usato ospitasse molto testo italiano), GPT-4 non seguiva l’istruzione, e GPT-5 ha ricominciato a funzionare correttamente a parità di prompt.

È quindi essenziale tenere presente questo aspetto prima di procedere ad aggiornamenti, anche se in fondo si tratta di una “minor release” del modello, perché gli effetti sul comportamento reale dei sistemi possono essere tutt’altro che minori.

Un bilancio critico sul nuovo rilascio

Conclusioni provvisorie: l’impressione che dà il nuovo modello 5.1 è quella di rappresentare un miglioramento non solo nel tono delle risposte, ma anche nella qualità. Le risposte sono meno schematiche (meno basate su elenchi puntati) e più concentrate sul rispondere al prompt.

Questo cambiamento è però tale da richiedere una certa attenzione nel suo impiego in produzione mediante API. La possibilità di personalizzare il comportamento sembra interessante, ma l’attuale implementazione è un po’ semplicistica: non voglio un comportamento sarcastico o nerd sempre, vorrei poterlo decidere a livello di singola chat, e non come impostazione globale rigida.

Preoccupa un po’ che il cambio di personalità corrisponda anche a risposte differenti. Alla fine sarebbe opportuno che l’AI restituisca sostanzialmente lo stesso contenuto, magari espresso con toni diversi; altrimenti si rischia di perdere quel poco controllo che ci resta nella nostra interazione con le intelligenze artificiali. La sfida, per chi sviluppa e per chi integra questi modelli, sarà proprio trovare un equilibrio tra ricchezza espressiva, coerenza dei contenuti e prevedibilità del comportamento.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati