Dopo aver annunciato e aver rilasciato una versione di anteprima del nuovo modello GPT-4.5 OpenAI ha un po’ sorpreso tutti annunciando la disponibilità di un modello chiamato GPT-4.1 e disponibile solo mediante l’uso delle API di OpenAI e non usando ChatGPT.
La scelta di usare una versione inferiore effettivamente può confondere ma in fondo 4.5 è ancora in anteprima e si potrebbe pensare che 4.1 sia un passo intermedio verso il suo rilascio definitivo, ma in ogni caso colpisce il rilascio dedicato agli sviluppatori e non all’utenza del popolare assistente intelligente.
Contestualmente OpenAI ha anche annunciato la disponibilità del progetto open source Codex CLI dedicato agli sviluppatori di codice, uno strumento a linea di comando che consente di interagire con l’AI per analizzare e modificare codebase consentendo a un agente AI di manipolare il filesystem del codice per leggere i sorgenti e, se opportuno, modificarli utilizzando l’esecuzione di script di shell. Cerchiamo di capire queste innovazioni dedicate allo sviluppo di applicazioni che facciano uso di AI sia nello sviluppo che nella produzione.
Indice degli argomenti
GPT-4.1: più potenza e contesto ampliato per i nuovi strumenti AI
Il nuovo modello è concepito per essere più efficace nel contesto dell’integrazione di sistemi software, lo si capisce subito guardando alle principali caratteristiche:
- Finestra di contesto da un milione di token: con questo OpenAI si mette al passo con Google Gemini che supportava grandi contesti già da tempo, superando il limite di 128 mila token dei modelli precedenti
- Miglioramenti nei compiti di coding: il nuovo modello genera codice migliore e lo analizza meglio di tutti gli altri modelli con un punteggio di 54,6% sul benchmark SWE-bench. Anche in questo caso la pressione di Anthropic Sonnet 3.7 sembra farsi sentire.

- Maggiore accuratezza nel seguire le istruzioni: GPT-4.1 è più bravo a seguire istruzioni, questo lo rende meno bravo ad indovinare il desiderio che sta dietro ad un prompt ma lo rende decisamente più prevedibile nei comportamenti, una caratteristica essenziale quando a consultarlo è un programma e non un essere umano
- Comprensione di contesti lunghi: disporre di un grande contesto non è garanzia di utilità, chiunque abbia usato questi modelli sa che quante più informazioni sono presenti nel contesto tanto più è probabile che il modello si confonda e perda concentrazione nel rispondere
- Conoscenza aggiornata: i dati usati per l’addestramento sono aggiornati fino a giugno 2024, un aspetto importante per un modello che viene usato da programmi senza l’ausilio di accesso a fonti dati esterne come motori di ricerca
- Efficienza e costi ridotti: il nuovo modello, distribuito in tre varianti costa almeno il 20% in meno rispetto a GPT 4o, riducendo ulteriormente il costo di integrazione nelle applicazioni

Vantaggi dei nuovi strumenti AI per benchmark e analisi
GPT-4.1 è disponibile nel modello completo e in due versioni ridotte, GPT-4.1-mini e GPT-4.1-nano. Il modello è superiore a GPT-4o in numerosi benchmark tra i quali sicuramente spicca nell’analisi di immagini, con le versioni più economiche che si comportano bene, e in particolare il modello mini che si comporta quasi al pari del modello completo ad una frazione del costo.

Complessivamente GPT-4.1 è un modello chiaramente orientato allo sviluppo e da prestazioni superiori a quelle di GPT-4o a costi inferiori. Il modello effettivamente sembra seguire più accuratamente le istruzioni anche in scenari di produzione.
Codex CLI: analisi avanzata delle codebase con i nuovi strumenti AI
OpenAI ha anche rilasciato Codex CLI, un progetto open source basato su Node.js che consente di analizzare codebase GIT mediante la riga di comando. Lo strumento ha la capacità di invocare comandi di shell che usa per analizzare il codice e, se abilitato, anche a modificare il contenuto dei file. Lo strumento richiede un ambiente Unix e quindi funziona sia su Linux, che su Mac e su Windows usando il Linux subsystem su Windows.
Una volta avviato nella directory radice di un progetto (in questo caso il sistema Open Source Eligere) si ha a disposizione un prompt di AI.

Si possono fare richieste anche di altissimo livello come, ad esempio, chiedere considerazioni sullo stile di scrittura del codice:

Gli output sono assolutamente sorprendenti e offrono interessanti applicazioni per l’analisi e la manutenzioni di basi di codice usando l’AI.


Potenzialità e rischi dei nuovi strumenti ai per sviluppatori
Anche ponendo domande decisamente complesse, come ad esempio come fanno a comunicare in modo sicuro due sistemi indipendenti si ottengono risposte molto chiare e puntuali (e corrette almeno per quanto riguarda i test fatti).


Resta aperto il problema che il modello esegue comandi di shell e in linea di principio potrebbe in modo più o meno volontario alterare la configurazione del sistema senza essere rilevato. Si tratta di un tema sempre più caldo con gli agenti che sempre più spesso hanno accesso ad azioni su servizi software (come avviene anche con i tool di OpenAI e l’interfaccia MCP promossa da Anthropic).
Se si decide di avvalersi anche della capacità di modificare il codice rimane poi aperto il problema di come si fa a verificare che il codice generato sia conforme alle specifiche. Sicuramente è utile per la documentazione e anche per la generazione di codice accessorio come ad esempio i test di unità.
Conclusioni
Questi nuovi rilasci di OpenAI sono chiaramente rivolti al mondo dello sviluppo, e sono in parte in competizione con gli strumenti di GitHub che ormai sono inclusi in Visual Studio Code e i vari strumenti promossi da concorrenti come Anthropic. Si tratta di strumenti sicuramente molto validi e sono rimasto colpito dalla capacità di analizzare non un solo file ma l’intero progetto, allo stesso tempo penso che questa accelerazione nell’integrazione dell’AI nelle tecnologie di sviluppo pone evidenti rischi che l’AI inserisca elementi di vulnerabilità nei sistemi. Non posso non pensare alla celebre scena di Morpheus che informa Neo dell’avvento dell’AI e chiedermi se la vivrò.