scenari

L’intelligenza artificiale oltre ChatGPT: i quattro salti decisivi

L’intelligenza artificiale sta cambiando più rapidamente di quanto riusciamo a normalizzarla. Il 2025 segna una svolta perché convergono quattro salti distinti che trasformano costi, architetture, inferenza e ruolo operativo dei modelli, aprendo una nuova fase distribuita e persistente

Pubblicato il 18 mar 2026

Sokol Kolgjini

Consulente atsec information security srl

Intelligenza Artificiale nella PA linee guida agid — Foto: Shutterstock

Chiedi allʼAI Nextwork360

Riassumi questo articolo

Approfondisci con altre fonti

Quando ChatGPT è stato rilasciato, nel novembre 2022, la sua capacità di conversare in modo intelligente sembrava magia ma già due anni dopo nessuno si stupisce più. Anzi, ci infastidiamo quando una risposta non è abbastanza precisa, quando il modello “allucina” le informazioni (ovvero le informazioni sembrano corrette e plausibili, ma in realtà sono false o inventate di sana pianta) o quando non capisce esattamente cosa vogliamo. Quello che ieri era straordinario oggi è già dato per scontato.

Capacità emergenti LLM: il salto di qualità dell’IA per la PA

Questa velocità di normalizzazione non è un dettaglio ma la chiave per capire cosa sta succedendo all’intelligenza artificiale (AI). Tradizionalmente, l’evoluzione di una tecnologia può essere vista come una curva a S: una fase iniziale lenta, in cui il progresso è sperimentale, una fase centrale di crescita rapida, in cui l’adozione accelera e infine una fase di saturazione, in cui i miglioramenti diventano marginali e l’innovazione si stabilizza.

L’IA non segue questo schema, la sua evoluzione non si esaurisce in una singola curva, ma assume la forma di una sequenza di curve a S ravvicinate e parzialmente sovrapposte: mentre una tecnologia raggiunge la saturazione, un nuovo salto architetturale o funzionale ne innesca immediatamente un’altra.

Per capire cosa è cambiato nel 2025, dobbiamo prima capire come siamo arrivati qui.

Indice degli argomenti

Come l’intelligenza artificiale è passata da oligopolio a piattaforma diffusa

Quando i large language models (LLM), reti neurali capaci di rispondere a input linguistici complessi, nel 2023 hanno iniziato ad affermarsi, erano sistemi estremamente centralizzati. Non per una scelta ideologica, ma per pura necessità economica: addestrare un modello di frontiera costava centinaia di milioni di dollari e solo OpenAI, Google, Anthropic e Meta potevano permetterselo, portando a una concentrazione oligopolistica di fatto.

Questo vincolo economico ha plasmato anche l’architettura stessa dell’IA. Se spendi così tanto, non puoi permetterti di costruire un modello specializzato per un singolo compito ma devi creare un sistema “general purpose“, capace di fare tutto. Scrivere codice, riassumere documenti, rispondere a domande di medicina, tradurre lingue, generare immagini descritte a parole. Ogni dollaro investito deve essere ammortizzato sul bacino di utilizzo più vasto possibile.

Ed è proprio qui che il 2025 segna una rottura, non per l’emersione di un singolo cambiamento dominante, ma per la convergenza di quattro salti distinti, ciascuno dei quali agisce su un livello diverso della tecnologia dell’IA. Presi singolarmente, potrebbero apparire incrementali ma osservati nel loro insieme, delineano una riconfigurazione profonda dell’ecosistema.

Perché l’intelligenza artificiale riduce il costo di addestramento

Nel gennaio 2025, DeepSeek, una IA di origine cinese, ha cambiato radicalmente le carte in tavola. Fino a quel momento si riteneva che addestrare modelli con prestazioni comparabili a ChatGPT-4 richiedesse investimenti compresi tra i tre e i cinque miliardi di dollari ma il competitor cinese ha invece dimostrato che era possibile ottenere risultati simili con un investimento drasticamente inferiore, nell’ordine di sei milioni di dollari.

Il successo è dipeso da una combinazione di strategie ingegneristiche mirate all’ottimizzazione algoritmica, capace di ridurre il numero di parametri effettivamente necessari senza degradare le prestazioni, e all’utilizzo di hardware alternativo e distribuito, imposto dall’impossibilità di accedere alle GPU americane, e architetture progettate per sfruttare in modo aggressivo le risorse disponibili, massimizzando l’efficienza del calcolo. In questo modo, DeepSeek ha raggiunto livelli di scalabilità ed efficacia comparabili a quelli dei grandi modelli occidentali ma con un costo economico e computazionale inferiore di diversi ordini di grandezza.

La conseguenza diretta di questo abbattimento dei costi è stata la proliferazione dei modelli bespoke. Il termine, mutuato dall’inglese, indica qualcosa di costruito su misura, ovvero modelli progettati fin dall’origine per un dominio specifico, addestrati su dati proprietari e ottimizzati per contesti operativi ben definiti. Prima di questo punto di svolta, l’addestramento si era basato quasi esclusivamente su dati pubblici raccolti su Internet, non perché fossero ideali, ma perché rappresentavano l’unica opzione economicamente sostenibile su larga scala. Tuttavia, questi dataset costituiscono solo una frazione del patrimonio informativo complessivo; i dati custoditi all’interno delle organizzazioni, documenti interni, log operativi, procedure e comunicazioni, superano di diversi ordini di grandezza quelli pubblicamente accessibili. È qui che l’effetto DeepSeek diventa strutturale, rendendo sostenibile l’addestramento mirato, trasformando i dati proprietari da risorsa latente a leva centrale di valore.

In ambito sanitario, per esempio, i modelli diagnostici addestrati su immagini cliniche e cartelle mediche proprietarie migliorano l’accuratezza e la tempestività delle diagnosi, permettendo l’individuazione precoce di condizioni patologiche.

I nuovi rischi distribuiti nell’ecosistema dei modelli

L’altra faccia della medaglia è che a una maggiore produzione di modelli corrisponde inevitabilmente un aumento dei punti di ingresso e di uscita dell’informazione. Ogni modello bespoke diventa un vero e proprio “endpoint cognitivo”: riceve input, elabora conoscenza e genera output potenzialmente azionabili. La superficie d’attacco, di conseguenza, non cresce in modo lineare, ma combinatorio.

A complicare ulteriormente il quadro interviene una proprietà strutturale dei modelli di intelligenza artificiale: l’imprevedibilità. A differenza del software tradizionale, un modello generativo non implementa una funzione deterministica in quanto a parità di input può produrre output differenti, influenzati dal contesto, dallo stato interno e dalla distribuzione appresa durante l’addestramento. Questa caratteristica, che costituisce la fonte della loro potenza espressiva, diventa al tempo stesso una fonte primaria di rischio poiché in ambienti critici non è accettabile che un sistema possa “allucinare” informazioni, aggirare vincoli semantici o rivelare dati proprietari in modo non intenzionale.

In questo contesto il passaggio all’algorithmic red teaming diventa inevitabile. Il red teaming tradizionale, basato su team umani che individuano vulnerabilità attraverso test mirati, passa ad una validazione continua di migliaia di modelli, soggetti a riaddestramenti e aggiornamenti frequenti, richiedendo strumenti dello stesso ordine di complessità dei sistemi da proteggere. Per questo l’unica soluzione praticabile è l’impiego di altri modelli per stressare, attaccare e validare costantemente i sistemi in produzione. In questo modo il controllo diventa integrato e continuo nel ciclo di vita del modello stesso e non più una fase separata.

In questo senso, l’effetto DeepSeek non rappresenta soltanto una democratizzazione dell’addestramento ma segna il momento in cui l’IA è passata da servizio centralizzato a capacità distribuita. Ma democratizzare l’addestramento significa anche democratizzare il problema: se addestrare costa poco, cosa succede quando migliaia di modelli devono lavorare continuamente?

Quando l’intelligenza artificiale sposta il problema sull’inferenza

Con il primo salto che ha abbattuto i costi di addestramento, l’inferenza diventa il problema dominante. Quando usi ChatGPT per scrivere un’email, stai facendo quella che tecnicamente si chiama “inferenza“: il modello prende il tuo input, elabora miliardi di calcoli matematici in sequenza e produce una risposta. In altre parole, è il “momento dell’azione” del modello, quando le conoscenze accumulate durante il training vengono trasformate in risposte concrete.

Per rendere l’idea, pensa a un medico che ha passato anni a studiare anatomia, patologie e procedure cliniche: l’addestramento è tutto ciò che ha imparato durante gli studi e la specializzazione, mentre l’inferenza è il momento in cui quel medico visita un paziente, esamina i sintomi e formula una diagnosi applicando in tempo reale tutto quello che ha appreso. Il medico mette in pratica il sapere accumulato per produrre un risultato concreto: la diagnosi e il piano terapeutico.

Sin dall’inizio, l’inferenza è stata un vero limite operativo, perché anche i modelli più potenti erano vincolati dai costi e dalle capacità dei data center, occupando GPU ad alte prestazioni progettate per i data center, consumando quantità enormi di energia e generando latenza. Questo comporta due problemi principali:

Dove nasce il collo di bottiglia operativo

Quando migliaia di utenti o applicazioni vogliono interagire contemporaneamente con lo stesso modello, la capacità del data center diventa il limite: se si richiedono informazioni nello stesso momento, la rete rallenta, le risposte arrivano in ritardo e l’esperienza utente peggiora drasticamente.

Perché aumentano costi e dipendenza dal cloud

Ogni inferenza richiede risorse computazionali reali. Anche se addestrare il modello è diventato economico (grazie all’effetto DeepSeek), usarlo continua a richiedere calcolo intenso. Le aziende rimangono vincolate a infrastrutture centralizzate e costose, perché non possono permettersi di eseguire tutti i task localmente favorendo la dipendenza dai fornitori di cloud hyperscale.

Immagina un ospedale che usa un modello diagnostico bespoke. Ogni volta che un medico carica una TAC, il modello deve analizzarla e se 50 medici lo fanno contemporaneamente, il sistema si blocca perché tutti stanno cercando di usare la stessa GPU nello stesso momento. Il problema non è più quanto costa addestrare il modello, ma quanto costa farlo lavorare sempre per tutti.

Come cambia l’intelligenza artificiale con la compressione dei modelli

Abbiamo visto il problema: l’inferenza costa troppo e non scala. La soluzione apparente sarebbe comprare più GPU, espandere i data center, aumentare la capacità, ma c’è un’alternativa più radicale, rendere i modelli così efficienti da non aver più bisogno di tutta quella potenza, ed è esattamente quello che è successo nel 2025.

La compressione dei modelli è un insieme di tecniche che riducono il numero di parametri e i calcoli necessari senza degradare le prestazioni. In altre parole i modelli diventano più piccoli e leggeri pur conservando le stesse capacità, permettendo l’esecuzione di reti neurali complesse su hardware più economico come server locali, aprendo così la strada a un’IA veramente pervasiva, sempre disponibile, integrata nei sistemi e pronta a interagire ovunque sia necessario.

La compressione dei modelli esisteva già da anni in ambito accademico ma è in questa fase che diventa indispensabile per due fattori convergenti: da un lato i modelli diventano talmente grandi e complessi da rendere qualsiasi ottimizzazione non più opzionale, dall’altro l’effetto DeepSeek abbassa drasticamente i costi di addestramento facendo emergere il vero collo di bottiglia che non è più addestrare ma far funzionare tutti questi modelli contemporaneamente.

Perché l’inferenza si sposta fuori dal cloud

Quando i modelli diventano abbastanza piccoli da girare su hardware più economico succede qualcosa di fondamentale: l’inferenza smette di essere centralizzata. Invece di inviare tutte le richieste a un data center remoto di Google o OpenAI, ogni ospedale può eseguire il proprio modello diagnostico su un server locale senza che i dati escano mai dalla propria infrastruttura.

Questo abbatte la latenza perché non c’è più il tempo di andata e ritorno verso il cloud, riduce i costi perché non paghi più per ogni singola chiamata API e soprattutto risolve problemi di privacy e compliance perché i dati sensibili non devono mai lasciare il perimetro aziendale.

Come l’inferenza diventa continua

Con il crollo del costo di ogni singola inferenza quest’ultima smette di essere un evento sporadico ma diventa un processo continuo. I modelli non rispondono più solo a domande esplicite di un utente umano ma iniziano a girare in background, monitorando flussi di dati, reagendo a eventi in tempo reale e dialogando con altri modelli senza intervento umano. L’inferenza non è più semplicemente “rispondi a una query” ma diventa “resta attivo, processa continuamente, mantieni il contesto, agisci quando necessario”.

Pensa a un sistema di monitoraggio cardiaco in un ospedale: invece di analizzare i dati del paziente solo quando un medico fa una richiesta esplicita, il modello osserva costantemente i parametri vitali e se rileva un’anomalia, come un’aritmia che potrebbe precedere un arresto cardiaco, genera un alert immediato senza aspettare che qualcuno chieda “come sta il paziente?”, rimanendo sempre vigile.

In che modo i modelli iniziano a ragionare

L’inferenza diventa anche iterativa e riflessiva. Invece di generare un output in una singola passata di calcolo, il modello può generare tre risposte diverse alla stessa domanda, valutare internamente quale sia più accurata, verificare la coerenza logica di ciascuna e correggere eventuali errori prima di mostrare il risultato finale.

Questo approccio, chiamato tecnicamente test-time compute, funziona perché il modello usa tempo di calcolo aggiuntivo al momento dell’inferenza per migliorare la qualità della risposta. Prima era impossibile su larga scala perché se ogni inferenza costa dollari e richiede GPU dedicate non puoi permetterti di far girare il modello tre volte per ogni risposta.

Perché l’intelligenza artificiale smette di essere solo conversazione

Ma c’è un quarto salto, forse il più radicale, che non riguarda più il costo, l’infrastruttura o l’efficienza, bensì il ruolo stesso dei modelli. I sistemi di IA stanno smettendo di essere strumenti passivi che rispondono a domande e stanno diventando orchestratori di azioni, capaci di perseguire obiettivi articolati attraverso sequenze di operazioni coordinate.

Per capire questo salto dobbiamo prima riconoscere come abbiamo sempre usato l’intelligenza artificiale fino a oggi. Il modello tradizionale è quello conversazionale in cui tu fai una domanda, il modello ti risponde e poi si ferma ad aspettare che tu gli dica cosa fare dopo.

Con i nuovi sistemi agentivi invece l’input non è più una richiesta ma un obiettivo completo e questa differenza apparentemente sottile cambia radicalmente la natura dell’interazione. Quando dici “organizza una serata per sabato” non stai più chiedendo informazioni ma stai delegando un compito che richiede una sequenza di azioni coordinate nel tempo. Il sistema non si limita a suggerirti opzioni ma può attivamente ricercare ristoranti nella tua zona, verificare quali hanno disponibilità per sabato sera, consultare il tuo calendario per assicurarsi che tu sia libero e considerare le tue preferenze implicite basate sulle conversazioni precedenti.

La differenza fondamentale è che tu non devi più orchestrare ogni singolo passaggio ma definisci solo il risultato desiderato mentre il sistema decompone autonomamente l’obiettivo in sotto-task più piccoli, esegue ciascuno di essi in sequenza e gestisce gli errori che incontra lungo il percorso. Se un ristorante non ha tavoli disponibili il sistema non si ferma ad aspettare che tu gli dica “ok, prova con un altro” ma procede automaticamente a verificare l’alternativa successiva mantenendo il contesto di tutto ciò che ha già fatto.

Questo è possibile perché convergono le tre capacità che abbiamo già visto: i modelli sono abbastanza compressi da girare localmente, mantengono uno stato attivo nel tempo attraverso l’inferenza continua e usano il ragionamento iterativo del test-time compute per valutare scenari, scartare opzioni e correggere errori prima di agire.

Però è fondamentale essere chiari su cosa questi sistemi possono e non possono fare oggi, a marzo 2026. Nella realtà attuale questi sistemi non operano liberamente ma agiscono esclusivamente tramite tool esplicitamente autorizzati, API predefinite e ambienti controllati che stabiliscono confini precisi su cosa possono e non possono fare.

Le direzioni future dell’intelligenza artificiale tra operatori e reti autonome

Se oggi gli operatori lavorano all’interno di confini ben definiti, la direzione verso cui si sta andando è quella di sistemi che non solo eseguono compiti ma che si coordinano tra loro in modo autonomo, creando una rete di intelligenze artificiali che dialogano, negoziano e collaborano senza bisogno di intermediazione umana continua. È qui che l’effetto operatore smetterà di essere semplicemente un miglioramento dell’interazione uomo-macchina ma una riconfigurazione strutturale di come i sistemi digitali comunicano tra loro.

Far comunicare due sistemi informatici richiede progettare un’integrazione specifica dove un ingegnere doveva definire il formato esatto dei dati che un sistema invia all’altro, scrivere il codice che traduce l’output del primo nell’input del secondo, gestire tutti i possibili errori che possono verificarsi durante lo scambio e documentare l’intera procedura perché altri possano mantenerla nel tempo.
Con gli operatori questo modello verrebbe scardinato perché la comunicazione non avviene più attraverso protocolli strutturati e predefiniti ma attraverso il linguaggio naturale, esattamente come gli esseri umani si coordinano tra loro.

Sembra quasi magico e sarà effettivamente un salto enorme in termini di flessibilità, ma c’è un problema fondamentale che ne impedisce l’implementazione su larga scala e che va compreso bene. Ogni messaggio scambiato tra operatori richiede multiple inferenze su entrambi i lati della conversazione perché entrambi stanno letteralmente “pensando” a cosa dire e come dirlo, analizzando il contesto, valutando opzioni alternative e verificando la coerenza logica di ciascuna risposta prima ancora di generarla.

Sembra quasi magico e sarà effettivamente un salto enorme in termini di flessibilità ma il problema, ed è ciò che ne impedisce l’implementazione su larga scala, è che ogni messaggio scambiato richiederebbe multiple inferenze su entrambi i lati della conversazione in quanto entrambi gli operatori stanno letteralmente “pensando” a cosa dire e come dirlo. E siccome gli operatori usano test-time compute per migliorare la qualità delle loro risposte non rispondono nemmeno immediatamente ma elaborano prima di agire, valutando internamente scenari alternativi, scartando opzioni che non funzionano e ricominciando da capo se necessario.

Ora si immagini di moltiplicare questo per migliaia di operatori che lavorano in parallelo, dialogando continuamente tra loro per coordinarsi su compiti complessi. Il carico infrastrutturale diventa così massiccio che non sarebbero più gli esseri umani a generare la maggior parte del traffico computazionale ma gli operatori stessi che lavorano ininterrottamente.

Questo significa che prima di arrivare a questo futuro serve risolvere un problema architetturale fondamentale che non può essere aggirato semplicemente comprando più GPU, perché il problema non è solo economico ma strutturale. Serve ripensare radicalmente come gli operatori comunicano tra loro, decidendo quali informazioni devono davvero scambiarsi in linguaggio naturale, che è flessibile ma costoso, e quali possono invece essere passate in formati più efficienti simili alle interfacce tradizionali. Serve capire quando un operatore deve davvero mantenere contesto completo di settimane di interazioni precedenti e quando può invece dimenticare informazioni non più rilevanti per liberare risorse computazionali.

Siamo ancora all’inizio di questa transizione e le soluzioni definitive non sono ancora emerse, ma la direzione è chiara e inevitabile. L’intelligenza artificiale sta passando da strumento che risponde a domande quando interpellato a infrastruttura cognitiva persistente che gestisce operazioni complesse in autonomia, e questo passaggio richiederà non solo modelli più efficienti ma un ripensamento completo di come costruiamo i sistemi digitali.

@RIPRODUZIONE RISERVATA