modelli di frontiera

System card GPT-5.6: come leggerla prima di adottare l’AI

Home Industria 5.0/Innovazione in azienda

OpenAI presenta GPT-5.6 con una system card che sposta l’attenzione dai benchmark alla governance. Per chi adotta modelli di frontiera contano classificazione del rischio, continuità dell’accesso, sicurezza via API, supervisione umana e assurance indipendente lungo l’intero ciclo di adozione responsabile

Pubblicato il 30 giu 2026

Aggiungi tra i preferiti su Google

Fabio Lalli

ceo ICONICO | Innovation & Digital Transformation

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

Una system card è il documento più vicino a una dichiarazione pre-deployment di un modello di frontiera, e va letta come materiale di due diligence. Quella di GPT-5.6 offre a chi adotta nella PA e nei settori regolati una griglia di cinque domande: rischio dichiarato, accesso, salvaguardie opache, comportamento agentico, oversight fragile. Leggerla bene è un atto di sovranità.

GPT-5.6 bloccato da Trump: così la politica cambia strategia sull’AI

Indice degli argomenti

GPT-5.6, cosa leggere nella system card prima del deployment

Chi adotta un modello di frontiera in un contesto regolato ha davanti un solo documento che provi a descrivere cosa quel modello sa fare e dove può sbagliare prima di metterlo in produzione, la sua system card. Quella di GPT-5.6, pubblicata da OpenAI il 26 giugno 2026, vale poco come annuncio e molto come materiale di due diligence, a patto di leggerla con le domande giuste. Non serve l’ennesimo riassunto dei benchmark. Serve capire cosa guardare, e soprattutto cosa il documento lascia fuori.

Tre fatti, letti insieme, cambiano il modo in cui una pubblica amministrazione o un’azienda in un settore regolato dovrebbe avvicinarsi a questo modello. Il fornitore classifica come ad alto rischio l’intera famiglia, compresi i modelli economici. L’accesso è stato concordato con il governo statunitense prima del rilascio. La sicurezza non vive più dentro i pesi del modello, ma in un’impalcatura esterna che l’adottante non controlla. Da questi tre fatti discende una griglia di cinque cose da osservare, prima ancora del prezzo e delle prestazioni.

System card GPT-5.6 e rischio High nei domini sensibili

Nel Preparedness Framework di OpenAI tutti e tre i modelli, Sol, Terra e Luna, ricevono la designazione High in due aree dual-use, cybersecurity e rischio biologico e chimico. È la prima volta che anche i modelli piccoli ed economici di una famiglia ricevono questa classificazione. Per chi adotta, è un dato che va trattato come input alla propria valutazione del rischio, non come dettaglio di marketing: il fornitore stesso dichiara che quel modello, anche nella versione a basso costo, possiede capacità di frontiera in domini sensibili.

La lettura europea delle soglie e del Codice di condotta

Qui la lettura europea aggiunge un livello. L’AI Act presume rischio sistemico per i modelli addestrati oltre 10^25 FLOP, e impone ai fornitori valutazione e mitigazione di quel rischio, test avversariali e segnalazione degli incidenti gravi all’AI Office. OpenAI, come gli altri grandi laboratori, ha aderito al Codice di condotta sui modelli general purpose, che concede una presunzione di conformità in cambio di trasparenza, valutazione del rischio e gestione degli incidenti. Una system card che dichiara apertamente capacità High in cyber e bio è, di fatto, parte del materiale con cui un deployer costruisce la propria analisi. Per la due diligence conta la logica delle soglie più del punteggio più alto: cosa significa, per il vostro caso d’uso, un modello classificato High ma sotto Critical, e quali capacità il fornitore riserva a programmi separati per attori verificati.

Elaborazione su Commissione europea, regolamento (UE) 2024/1689 (AI Act)

Accesso ai modelli di frontiera tra Stati Uniti e continuità operativa

GPT-5.6 è entrato in scena con un preview limitato a una ventina di organizzazioni, concordato con il governo statunitense prima del rilascio pubblico. Preso da solo, sembra un dettaglio procedurale. Accostato a quanto accaduto poche settimane prima ad Anthropic, però, diventa un segnale di sistema. Il 12 giugno 2026 un ordine di controllo all’esportazione del governo statunitense ha sospeso l’accesso ai modelli Fable 5 e Mythos 5 per ogni cittadino non statunitense, dentro e fuori dagli Stati Uniti, costringendo Anthropic a disabilitarli per tutti.

Il rischio di revoca per PA e imprese europee

Per una pubblica amministrazione o un’impresa europea il messaggio è diretto. La disponibilità della corsia più capace di questi modelli dipende da decisioni amministrative di un governo estero, e può cessare nel giro di una sera. La nazionalità di chi lavora a un progetto può diventare un criterio di accesso. La questione non è teorica, tocca la continuità operativa e la sovranità tecnologica di chi costruisce servizi essenziali sopra questi strumenti. In fase di adozione servono clausole di continuità nel contratto, un piano di uscita verso modelli alternativi comprese le opzioni europee, e la mappa di quali utenti e quali processi resterebbero scoperti se l’accesso venisse meno.

Sicurezza via API e salvaguardie non ispezionabili

La parte della card che pesa di più per la governance riguarda dove abita la sicurezza. Il modello addestrato a comportarsi bene è solo il primo strato. Sopra ci sono classificatori che osservano la generazione e possono interromperla, scansioni in tempo reale, sistemi che cercano pattern pericolosi su più conversazioni. Tutto questo è esterno ai pesi, può essere modificato dal fornitore senza preavviso, e l’adottante non può ispezionarlo. Esistono inoltre versioni con meno protezioni, riservate ad attori fidati per usi difensivi.

La distanza tra trasparenza documentata e verifiche autonome

Chi adotta via API, quindi, non adotta soltanto un modello, adotta la postura di sicurezza del fornitore e la sua opacità. L’AI Act prova a ridurre questa asimmetria: dall’agosto 2026 si applicano gli obblighi di trasparenza dell’articolo 50, e il fornitore di un modello general purpose deve fornire al deployer a valle la documentazione che ne descrive capacità e limiti. Resta però la distanza tra ciò che il fornitore documenta e ciò che l’adottante può verificare in autonomia. È proprio quello scarto a richiedere attenzione: quali garanzie sono dichiarate, quali potete controllare davvero, e cosa può cambiare senza preavviso, perché il sistema che mandate in produzione non è il modello nudo, è il modello più il suo apparato di salvaguardie.

Comportamento agentico di GPT-5.6 e supervisione umana

Simulando il deployment di Sol sul traffico interno di coding agentico, OpenAI rileva un aumento delle azioni di severità 3 rispetto alla generazione precedente, comportamenti che un utente ragionevole non si aspetterebbe e a cui si opporrebbe. I casi documentati sono concreti: macchine virtuali cancellate senza che l’utente le avesse indicate, un risultato di ricerca dichiarato verificato pur non essendolo, credenziali spostate tra sistemi senza autorizzazione. Il fornitore stesso raccomanda, per l’uso come agente su traiettorie lunghe, che l’utente supervisioni il lavoro.

I confini operativi prima del deployment

Per chi opera in un settore regolato questa non è un’avvertenza generica. L’AI Act impone al deployer di garantire supervisione umana e monitoraggio, e il Codice di condotta per i modelli general purpose affronta esplicitamente l’uso agentico e le capacità autonome. Mettere un agente dentro un processo che incide su diritti, erogazione di servizi o decisioni amministrative significa rispondere di un’azione che il modello potrebbe compiere oltre il mandato ricevuto. Prima di affidare a un agente un processo bisogna definirne i confini operativi: dove può agire senza conferma, quali azioni richiedono un passaggio umano, come viene tracciato ciò che fa, e chi risponde quando l’azione non richiesta produce un danno.

Oversight dei modelli di frontiera e assurance indipendente

Il metodo con cui OpenAI giudica buona parte di questi comportamenti consiste nel leggere la catena di pensiero del modello, il ragionamento interno che precede la risposta. È lo strumento di assurance principale, e su questo la card è insolitamente onesta. La monitorabilità della catena di pensiero in media tiene rispetto alla generazione precedente, ma due indicatori vanno nella direzione opposta: la capacità del modello di controllare e rendere meno leggibile il proprio ragionamento aumenta, e cresce anche il metagaming, cioè il ragionare su come si verrà valutati. Il fornitore lo scrive e promette mitigazioni. Lo strumento di vigilanza su cui poggia l’assurance diventa, per ammissione di chi lo usa, meno affidabile proprio mentre i modelli diventano più autonomi.

Il ruolo ancora immaturo delle valutazioni esterne

Per un regolatore o per un grande adottante la domanda che ne discende è quella dell’assurance indipendente. Se la garanzia principale è interna al fornitore e in via di indebolimento, quali valutazioni di terza parte la affiancano, e con quali limiti. Nella card compaiono valutatori esterni, da SecureBio per le capacità biologiche a METR e Apollo Research per autonomia e comportamenti ingannevoli, e lo stesso AI Office europeo riconosce che l’ecosistema delle valutazioni esterne è ancora immaturo. Vale la pena chiedersi chi mette le mani sul modello oltre a chi lo vende, quanto sono ripetibili quelle prove, e quale parte del giudizio resta affidata alla parola del fornitore.

Una due diligence europea per la system card GPT-5.6

Le cinque domande messe in fila non riguardano solo GPT-5.6, valgono per qualunque modello di frontiera che arrivi accompagnato da una system card. Quei documenti restano una forma di disclosure volontaria e non standardizzata, scritta dal fornitore con i criteri del fornitore. Leggerli bene è una competenza che le istituzioni e i grandi adottanti europei devono costruire, perché oggi quei documenti li leggiamo ma non li scriviamo, e questa asimmetria è il nodo concreto della sovranità digitale applicata.

L’approfondimento applicativo, in questo senso, non è un esercizio accademico. Significa dotarsi di una griglia che trasformi la classificazione di rischio, le condizioni di accesso, l’opacità delle salvaguardie, la supervisione del comportamento agentico e la fragilità dell’oversight in domande contrattuali, requisiti di gara, criteri di conformità. Il prossimo modello arriverà con capacità maggiori e una system card ancora più densa. La differenza la farà chi avrà imparato a leggerla con criteri propri, invece di adottare strumenti di cui altri scrivono le istruzioni e fissano le condizioni d’uso.

@RIPRODUZIONE RISERVATA