harness ai

Il vero valore dell’AI non è più nel modello, ma nel sistema che lo guida

Il valore dell’intelligenza artificiale si sta spostando dai modelli frontier ai sistemi che li orchestrano. Dati, benchmark e casi aziendali mostrano perché l’harness AI diventa decisivo nei task lunghi, nei costi per token e nelle strategie d’investimento

Pubblicato il 24 giu 2026

Aggiungi tra i preferiti su Google

Paolino Madotto

manager esperto di innovazione, blogger e autore del podcast Radio Innovazione

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

Per anni la narrativa dominante nel settore dell’intelligenza artificiale è stata lineare: modello più grande, più parametri, più capacità. OpenAI, Anthropic, Google, Meta hanno costruito architetture sempre più vaste, bruciando capitali in infrastrutture di calcolo senza precedenti.

AI, l’errore di puntare tutto sui modelli e poco sulla qualità dei dati

Indice degli argomenti

Quando il modello più grande non basta più

I comunicati stampa dei laboratori sembravano gare di potenza: GPT-4 superava GPT-3.5, Claude Opus superava Sonnet, Gemini Ultra superava Pro, in una rincorsa che ha fatto del concetto di frontier model una sorta di arena tecnologica permanente.

Eppure, mentre la stampa specializzata continuava a misurare i modelli su benchmark sintetici, qualcosa di significativo si muoveva ai margini. Un numero crescente di organizzazioni — dai laboratori che producono i modelli alle aziende che li consumano — ha iniziato a rendersi conto di un fenomeno che oggi è diventato difficile da ignorare: il modello non è più il fattore che determina il successo di un’applicazione reale. Non per mancanza di capacità, ma per eccesso di altre variabili che il modello, da solo, non può controllare.

Questa è la tesi che proveremo a verificare — e a complicare — usando dati pubblici del biennio 2025-2026, e chiedendoci cosa significhi per le imprese che oggi devono decidere dove allocare i propri investimenti in AI. La risposta, come vedremo, è meno netta di quanto suggeriscano certi titoli, ma più netta di quanto la comunità tecnica abbia finora ammesso. E se la tesi è vera, come crediamo, le implicazioni non si fermano all’ingegneria del software: toccano l’economia stessa di un intero settore, e forse di tutta l’industria tecnologica.

Il paradosso del benchmark

Cominciamo da un dato che dovrebbe far riflettere. Secondo lo AI Index 2026 di Stanford HAI, i quattro principali laboratori di AI — Anthropic, xAI, Google e OpenAI — sono separati in Chatbot Arena, il sistema di valutazione umana più diffuso al mondo, da appena 22 punti Elo. Una differenza statisticamente percepibile ma, per l’utente medio, del tutto impercettibile. Sei dei primi dieci modelli in classifica sono chiusi, proprietari; il gap tra il miglior modello closed e il miglior modello open è del 3,3%, in leggero aumento rispetto allo 0,5% del 2024, ma comunque minima.

Significa, in pratica, che quando un’azienda sceglie tra Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro o un modello open di frontiera come DeepSeek R1 o Kimi K2, su un compito standard la differenza è spesso dentro il margine di errore del benchmark stesso. E se si guarda ai benchmark professionali, lo scarto tra i primi quindici modelli è di circa 3 punti percentuali per ciascun test.

Sul piano delle capacità generali, i modelli frontier si stanno davvero avvicinando a una sostanziale equivalenza. Non identici, ma intercambiabili per la maggior parte dei task standard. È una conclusione che, fino a due anni fa, sarebbe stata eretica.

Eppure, proprio in questi mesi, le stesse aziende che producono modelli stanno facendo scelte strategiche che raccontano una storia molto diversa da quella della corsa al modello più intelligente. Anthropic ha 3-6 mesi di vantaggio sul proprio harness, ovvero l’infrastruttura di orchestrazione e controllo attorno al modello. OpenAI ha rilasciato, nel febbraio 2026, un documento programmatico che per la prima volta mette al centro non più la prossima release di GPT, ma l’ingegneria del sistema che fa funzionare Codex. DeepSeek, modello-centrica per definizione, ha pubblicato due posizioni aperte: Harness Product Manager e Harness Engineer, con la missione esplicita di “raggiungere Claude Code sul suo terreno”. Quando una società nota per l’innovazione sui pesi del modello smette di competere sui pesi e inizia a competere sul sistema, è il segnale che qualcosa è cambiato.

Che cosa è cambiato, dunque? E perché succede proprio adesso?

Cos’è l’harness, e perché per i task lunghi è decisivo

Il termine harness, in inglese, significa “imbracatura”, “bardatura”, “set di cinghie” — l’insieme di strumenti che permette a un cavallo di trainare un carro. La metafora è calzante, e ormai standard nel settore. L’equazione condivisa da LangChain, Anthropic, OpenAI, Martin Fowler e dalla survey di CMU/Yale/Amazon del 2026 è:

CONCETTO CHIAVE

Agent = Model + Harness

Il modello è il motore: decide cosa è possibile fare. L’harness è il veicolo: decide cosa viene stabilmente consegnato in produzione. I due non sono sostituibili, ma possono compensarsi solo in parte.

In concreto, l’harness è l’insieme di tutti quei componenti che stanno intorno al modello: il modo in cui il contesto viene recuperato, selezionato, presentato; gli strumenti che il modello può invocare e in che forma; le procedure di verifica e validazione dei risultati; la gestione della memoria tra un’azione e l’altra; i vincoli che impediscono al sistema di andare in loop, di produrre output pericolosi, di fingere di aver finito quando non ha finito. È, in altri termini, l’ingegneria del sistema.

Perché questo è importante soprattutto per i task lunghi? La risposta sta in un dato numerico spesso citato ma raramente metabolizzato. Supponiamo che un componente del sistema — che sia un singolo strumento, un singolo passaggio di ragionamento, una singola decisione — funzioni con un’accuratezza del 95%. Su venti passaggi concatenati, l’accuratezza end-to-end crolla a 0,95²⁰ = 36%. È il cosiddetto decadimento esponenziale: in un workflow agentico complesso, non importa quanto sia bravo ciascun componente isolato, è il prodotto dei successi a determinare il risultato finale.

Un modello con accuratezza del 95% per step, inserito in un harness che ne riduce il tasso di errore di un solo punto percentuale, produce un sistema end-to-end significativamente più affidabile di un modello con il 99% di accuratezza per step ma inserito in un harness fragile. E poiché oggi le applicazioni a cui le imprese destinano i budget AI sono quasi sempre multi-step — analisi di documenti legali, gestione di workflow finanziari, supporto alla ricerca scientifica, agent di customer service complessi, automazione di processi IT — il punto dove si vince o si perde non è il singolo step. È la catena.

I numeri che documentano la svolta

Vediamo i dati, senza giri di parole. Sono quattro esperimenti cruciali, tutti pubblicati nel 2025-2026, che misurano l’impatto del cambio di harness a parità di modello.

Primo: lo studio K-Dense Analyst[1], pubblicato su arXiv nell’agosto 2025. Un gruppo di ricercatori ha preso Gemini 2.5 Pro, uno dei modelli più capaci del momento, e lo ha messo alla prova su BixBench, un benchmark di analisi bioinformatica. Il modello da solo, usato in modo diretto, ha raggiunto il 18,3% di accuratezza. Lo stesso identico modello, inserito in un’architettura multi-agente con un harness che orchestra strumenti, contesto, memoria e verifica, ha raggiunto il 29,2%. +10,9 punti percentuali, ovvero un incremento relativo del 60%, senza cambiare una virgola nei pesi del modello.

Secondo: il caso LangChain su Terminal Bench 2.0 [2], documentato da Rick Hightower su LinkedIn nel 2026. LangChain ha preso un modello frontier, ne ha riscritto interamente l’harness — prompt di sistema, middleware di contesto, hook di self-verification — senza toccare il modello. Risultato: il punteggio è passato dal 52,8% al 66,5%, e il ranking globale da posizione oltre la trentesima alla top five. È un salto che nessun aggiornamento incrementale del modello, nello stesso periodo, è riuscito a produrre.

Terzo: l’esperimento Claude Code su 15 task di qualità, documentato nel repository [3]. Stesso modello, due condizioni: invocazione diretta (qualità media 49,5 su 100) e invocazione attraverso l’harness Claude Code (79,3). +30 punti, con un andamento che è esso stesso istruttivo: la differenza è minima sui task banali (+23,8), cresce sugli intermedi (+29,6), esplode sui task esperti (+36,2). Più il compito è difficile, più l’harness conta.

Quarto: il caso Vercel. L’azienda ha deliberatamente rimosso l’80% degli strumenti che il proprio agent aveva a disposizione. Il risultato, controintuitivamente, è stato un miglioramento dell’accuratezza. Perché? Perché in un sistema probabilistico, ogni strumento aggiunto è un grado di libertà in più, e dunque una fonte potenziale di errore. Ridurre gli strumenti significa ridurre il rumore decisionale. È la conferma che, per i task lunghi, più non è meglio: meglio è meglio.

Come termine di paragone, consideriamo la differenza che si ottiene cambiando modello a parità di harness. Lo stesso Stanford AI Index 2026 ci dice che tra i primi quindici modelli su benchmark professionali, lo scarto è in media di 3 punti percentuali. È un ordine di grandezza diverso. Il cambio di harness, per i task agentici, produce delta da 5 a 10 volte superiori al cambio di modello.

Il caso estremo: OpenAI Codex e i 3 ingegneri che hanno scritto un milione di righe

Il caso forse più emblematico è quello documentato da OpenAI nel febbraio 2026 [4]. Un team di tre ingegneri ha condotto un esperimento radicale: in cinque mesi, costruire un’applicazione interna complessa — oltre un milione di righe di codice, millecinquecento pull request, centinaia di utenti reali — senza scrivere manualmente una sola riga di codice. Tutto: logica di business, test, configurazioni CI, documentazione, è stato generato da Codex, il modello di OpenAI, sotto la guida degli ingegneri che però non hanno mai toccato il codice. Il loro lavoro è consistito nel progettare l’ambiente: definire i vincoli, organizzare le informazioni, stabilire le procedure di verifica.

Cioè, hanno progettato un harness. E in quel harness, un modello che pure non è il più capace in assoluto sul mercato, ha prodotto più valore di un team tradizionale di decine di sviluppatori umani. La differenza tra Codex che scrive un milione di righe utili e un modello frontier generico che ne scriverebbe diecimila inutili non sta nel modello. Sta interamente nell’ingegneria del sistema che lo mette in condizione di lavorare.

Una nota non marginale: nello stesso periodo, le Weekly Active Users di Codex sono passate da 1,6 milioni a oltre 4 milioni. Una crescita che gli analisti del settore attribuiscono non a un improvviso salto di capacità del modello sottostante, ma alla qualità del prodotto — cioè, ancora una volta, dell’harness.

Perché un modello da 30 miliardi di parametri basta per la maggior parte dei casi

A questo punto la domanda operativa diventa: se l’harness conta così tanto, e se i modelli frontier sono quasi intercambiabili su compiti standard, che senso ha spendere dieci, venti volte di più per un modello di frontiera quando un open-weight da 30 miliardi di parametri, ben “harnessato”, può coprire il 90% dei casi d’uso reali?

È esattamente l’argomento che nel 2026 sta diventando senso comune tra gli ingegneri che costruiscono applicazioni, anche se nel marketing di molte aziende vendor la narrativa resta quella del “modello più grande è sempre meglio”. Alcuni dati aiutano a capire perché.

Su un test indipendente condotto da Ian Paterson[5] su 15 LLM frontier applicati a 38 task reali di coding, 14 modelli su 15 hanno superato l’85% di accuratezza, e la qualità del codice prodotto è stata descritta come “quasi identica” tra i modelli. La differenza principale tra i modelli, a quel livello, non era la qualità dell’output: era il costo per task. Nel Coding Agent Index di Jarek Wasowski [6], sistemi diversi — modelli diversi, harness diversi — mostravano costi per task compresi tra 0,07 dollari e 2,26 dollari, con un fattore 32×, a parità di qualità del codice prodotto.

Significa che, per task standard, il discriminante reale non è più quale modello usare ma quale sistema stiamo costruendo attorno al modello. E un sistema del genere, se ben progettato, può usare un modello da 30B, da 70B, o persino da 8B — con costi e latenza drasticamente inferiori — e produrre risultati business-equivalenti a un modello frontier dieci volte più costoso.

Il dato che cambia la prospettiva: 60 volte meno parametri, quasi la stessa performance

Ma c’è un dato, emerso nei primi mesi del 2026, che dà una dimensione ancora più precisa a quanto stiamo descrivendo. Se facciamo un confronto su LLMStats [7] tra Claude Opus 4.6 e Qwen3,6-27b e Qwen3.6-35b-A3B ci accorgiamo che le distanze sono tremendamente accorciate, MMMU-Pro 77.3% Opus 4.6 vs 75.8% del Qwen, GPQA 91,3% Opus 4.6 vs 87.8% Qwen3.6-27b. Opus 4.6 dovrebbe avere intorno ai 1600b (il dato non è comunicato da Antrophic, il dato è una stima in base a ricerche effettuate su internet), mentre Qwen3.6 27b.

Stesso benchmark. Sessanta volte meno parametri attivi. Una differenza di appena 1,5 punti percentuali su MMMU-Pro. È un dato che, se letto con attenzione, smonta definitivamente l’equazione “più parametri = più capacità”. Non è vero. È vero, invece, che un modello progettato con architetture efficienti — mixture-of-experts, routing dinamico, compressione selettiva — può eguagliare un colosso da 200 miliardi di parametri con una frazione infima del costo computazionale.

E il costo computazionale, in un mondo dove le imprese pagano per token, si traduce direttamente in costo economico. Se un modello da 3B produce il 98% del valore di uno da 200B, a un centesimo del prezzo, la scelta non è più tecnica: è strategica. E la strategia, ancora una volta, non passa dal modello. Passa dal sistema che lo utilizza.

Questo dato, insieme alla tabella dei prezzi API che abbiamo visto nel capitolo precedente, disegna uno scenario che i vendor di modelli frontier non hanno interesse a rendere evidente: la commoditizzazione del modello non è una previsione. È un fatto. E i fatti, nel mercato, hanno conseguenze.

La mappa delle decisioni

Naturalmente, la conclusione “un 30B basta sempre” sarebbe una semplificazione eccessiva. Esistono task — ragionamento scientifico profondo, problemi di ricerca di frontiera, sintesi giuridiche su casistica complessa, meccanismi di reazione, modelli di linguaggio di nicchia — dove il modello fa ancora la differenza in modo non recuperabile dall’harness. Su quei task, un modello di frontiera resta una scelta ragionevole. Ma è importante capire che quei task sono una minoranza rispetto al volume di applicazioni che le imprese effettivamente implementano oggi.

Proviamo a mappare il territorio in modo più rigoroso, incrociando tipo di task e lunghezza del workflow:

Tipo di task	Cambio modello	Cambio harness	Vince
Singolo, breve, specializzato	+20-30pp	+5pp	Modello (4-5×)
Lungo, multi-step, agentico	+5pp	+20-50pp	Harness (5-10×)
Con dati reali da collegare (DB, API, file system)	+2pp	+40pp+	Harness (20×)
Standard d’ufficio / business / dev	±5pp	+30pp+	Harness (6×)

La maggior parte delle applicazioni a cui oggi si pensa — chat aziendali, agenti di customer service, sistemi di analisi documentale, agenti di supporto allo sviluppo software, sistemi di compliance e audit — ricade nelle ultime tre righe della tabella. Sono applicazioni multi-step, vincolate a dati reali, che devono essere consegnate con affidabilità in produzione. È esattamente lì che l’harness conta 5-20 volte più del modello.

La verità dei numeri: quanto costa davvero un token

Se l’harness è il fattore decisivo per la qualità, il costo per token è il fattore decisivo per la sostenibilità economica. E qui la realtà dei prezzi API al giugno 2026 racconta una storia che pochi vendor hanno interesse a rendere evidente: la forbice tra modelli frontier statunitensi e modelli efficienti — cinesi, open-weight, o semplicemente ben progettati — è abissale, e sta crescendo.

Prendiamo i dati aggiornati al 10 giugno 2026. Claude Opus 4.7, il modello di punta di Anthropic, costa 5 dollari per milione di token in input e 25 dollari per milione in output. GPT-5.5 di OpenAI, il suo diretto concorrente, si posiziona a 5/30. Gemini 3.1 Pro di Google, più aggressivo sui prezzi, è a 2/12. Sono cifre che, per un’azienda che processa milioni di conversazioni al giorno, si traducono in fatture mensili da sei o sette cifre.

Ora confrontiamo con l’altra parte del mondo. DeepSeek V4-Flash, modello cinese con 1 milione di token di contesto, costa 0,14 dollari per milione in input e 0,28 in output. Qwen3.6-Plus di Alibaba, con prestazioni competitive su benchmark di coding e ragionamento, è a 0,33-2,00 in input e 1,95-6,00 in output. Xiaomi MiMo-V2.5-Pro, un modello cinese emergente, costa 0,44 in input e 0,87 in output. La differenza non è di un fattore 2 o 3. È di un fattore 10, 20, a volte 50.

E se guardiamo ai modelli open-weight, la forbice si allarga ancora. Llama 4 Scout, un modello da 109 miliardi di parametri ospitato su Fireworks AI, costa 0,10 dollari in input e 0,25 in output. Mistral Small, a 12 miliardi di parametri, è a 0,10/0,30. Gemini 3.5 Flash di Google, un modello proprietario ma posizionato come entry-level, è a 0,15/0,60. Questi modelli, sui task standard che rappresentano l’80% del volume d’uso reale — drafting di email, summarization, lookup di informazioni, brainstorming — producono output qualitativamente equivalenti a un Opus 4.7 o a un GPT-5.5.

La tabella che segue riassume la fotografia completa, incrociando vendor USA, vendor cinesi e modelli open-weight, con i prezzi per milione di token in input e output:

Modello	Provider	Input / 1M	Output / 1M	Qualità Arena	Rapporto costo vs Opus 4.7
Claude Opus 4.7	Anthropic (USA)	$5,00	$25,00	95	1× (base)
GPT-5.5	OpenAI (USA)	$5,00	$30,00	100	1,1×
Gemini 3.1 Pro	Google (USA)	$2,00	$12,00	95	0,5×
Claude Sonnet 4.6	Anthropic (USA)	$3,00	$15,00	86	0,6×
GPT-5.4	OpenAI (USA)	$2,50	$15,00	94	0,6×
Gemini 3.5 Flash	Google (USA)	$0,15	$0,60	92	0,03×
DeepSeek V4-Flash	DeepSeek (Cina)	$0,14	$0,28	86	0,01×
DeepSeek V4-Pro	DeepSeek (Cina)	$0,44	$0,87	88	0,04×
Qwen3.6-Plus	Alibaba (Cina)	$0,33-$2,00	$1,95-$6,00	83	0,08×
Qwen3.6-Max-Preview	Alibaba (Cina)	$1,04	$6,24	86	0,25×
Llama 4 Scout	Meta / Fireworks	$0,10	$0,25	85	0,01×
Mistral Small	Mistral	$0,10	$0,30	83	0,01×
Xiaomi MiMo-V2.5-Pro	Xiaomi (Cina)	$0,44	$0,87	89	0,04×

I numeri parlano da soli. Un’impresa che oggi spende 100.000 dollari al mese in API Claude Opus 4.7 per task standard — summarization, drafting, lookup — potrebbe ottenere lo stesso risultato qualitativo con Gemini 3.5 Flash spendendo 3.000 dollari, o con DeepSeek V4-Flash spendendo 1.000 dollari. La differenza di 97.000 dollari al mese non è un risparmio marginale: è un risparmio strutturale, che ridisegna il business case dell’intero programma AI.

E c’è un ulteriore strato di analisi che pochi considerano. I modelli cinesi e open-weight non sono solo più economici: sono anche più prevedibili nei prezzi. Anthropic, nel marzo 2026, ha introdotto throttling di sessione durante le ore di punta, riducendo i limiti per il 7% degli utenti Pro. OpenAI ha aumentato i prezzi delle API del 30-50% nel primo semestre 2026, citando “unit economics sostenibili”. I vendor americani stanno, in altri termini, trasferendo il costo della loro corsa all’infrastruttura direttamente sulle fatture dei clienti. I modelli cinesi e open, privi di questo debito di infrastruttura, mantengono prezzi stabili e competitivi.

La domanda che ogni CFO dovrebbe porsi, oggi, non è “quale modello è più intelligente?” ma “quale modello, per il mio use case specifico, produce il miglior rapporto qualità-costo?”. E la risposta, per l’80% dei task aziendali, non è un modello frontier da 400 miliardi di parametri. È un modello da 30-70 miliardi, ben harnessato, che costa un centesimo e produce il novanta per cento del valore.

Il terremoto nascosto: quando la token economy smette di reggere

Se la tesi fin qui esposta è solida — e i dati la rendono difficile da confutare — allora dobbiamo seguirla fino in fondo, anche dove la conclusione diventa scomoda. Perché se un modello da 30 miliardi di parametri, ben harnessato, è sufficiente per il 90% dei task business, allora l’intero edificio economico su cui si regge l’industria AI frontier comincia a scricchiolare. E non parlo di una crisi lontana: parlo di una crisi che è già iniziata, e che nel 2026-2027 potrebbe diventare il terremoto finanziario più sottovalutato del settore tecnologico.

Cominciamo dal lato della domanda. OpenAI ha chiuso il 2025 con circa 20 miliardi di dollari di annual recurring revenue, un triplo rispetto all’anno precedente. Anthropic ha superato i 9 miliardi di run rate a gennaio 2026. Cifre impressionanti, finché non le si confronta con i costi. OpenAI, secondo le stime di The Information, brucerà 115 miliardi di dollari entro il 2029. La sua margine operativo non-GAAP nel primo trimestre 2026 è stata negativa del 122%. Anthropic ha aumentato i prezzi delle API del 30-50% nel primo semestre 2026, citando esplicitamente la necessità di raggiungere “unit economics sostenibili”. Entrambe le aziende stanno perdendo soldi su ogni token inferito, e lo sanno.

Perché? Perché il loro business model è costruito su un presupposto che i dati del 2026 stanno smontando: che i clienti enterprise, una volta abituati alla qualità dei modelli frontier, non potranno mai tornare indietro, e accetteranno qualsiasi prezzo. Ma se un’azienda scopre che il 90% dei suoi task può essere gestito da un modello che costa un centesimo, il lock-in psicologico svanisce. E con esso, svanisce la premessa stessa del modello di business.

Il problema non è solo di OpenAI e Anthropic. È di tutta la catena del valore. I cinque maggiori hyperscaler — Microsoft, Alphabet, Amazon, Meta e Oracle — hanno collettivamente impegnato tra 660 e 690 miliardi di dollari in capex per il 2026, quasi raddoppiando i livelli del 2025. Goldman Sachs stima che l’investimento cumulativo in infrastruttura AI tra il 2026 e il 2031 arriverà a 7,6 trilioni di dollari. Microsoft da solo ha un backlog Azure di 80 miliardi di dollari non evaso, dovuto principalmente a mancanza di potenza elettrica, non a mancanza di domanda.

E qui arriva il punto critico. Se la domanda reale per modelli frontier da 400 miliardi di parametri si contrae — perché le imprese scoprono che modelli più piccoli e più economici fanno lo stesso lavoro — allora chi ha investito centinaia di miliardi in data center e GPU si trova con un’immensa capacità produttiva sottoutilizzata. Non è una crisi di liquidità: è una crisi di struttura patrimoniale. Un data center da un gigawatt, costruito per addestrare modelli da trilioni di parametri, non può essere riconvertito a buon mercato in un magazzino di server per modelli da 30 miliardi. Le GPU NVIDIA Blackwell, acquistate a prezzo pieno per il training di modelli frontier, diventano asset obsoleti se il mercato si sposta verso l’inference di modelli piccoli che girano su hardware consumer o su chip custom.

NVIDIA, a sua volta, è esposta a questo rischio in modo non trascurabile. La società ha costruito il proprio valore di mercato — che nel 2026 supera i 3 trilioni di dollari — sull’assunto che la domanda di GPU per AI crescerà esponenzialmente per sempre. Ma se i modelli piccoli, efficienti e ben harnessati soddisfano il 90% della domanda, la crescita esponenziale diventa crescita lineare, o addirittura stagnazione. E NVIDIA non è l’unica: AMD, con la sua piattaforma MI400, e i fornitori di memoria HBM, e i produttori di substrati avanzati, e i costruttori di data center, sono tutti sulla stessa barca.

Il rischio di asset stranded — asset abbandonati perché diventati economicamente non convenienti — è reale e già riconosciuto dagli analisti. Lo studio di Goldman Sachs del maggio 2026 identifica esplicitamente la “useful life of silicon” come la variabile più influente nel determinare la scala dell’investimento cumulativo: se le GPU diventano obsolete in 3 anni invece che in 6, l’intero modello di ritorno dell’investimento crolla. E se il mercato si sposta verso modelli che non richiedono GPU da 72 unità per rack, ma girano su hardware consumer o su chip custom progettati per l’inference, la vita utile delle GPU attuali si accorcia drammaticamente.

Ma c’è un altro elemento, forse ancora più preoccupante. I vendor americani stanno reagendo a questa pressione non innovando sui prezzi, ma aumentandoli. Anthropic ha introdotto throttling di sessione. OpenAI ha aumentato i prezzi API. Microsoft, Google e Amazon stanno spingendo i clienti verso tier premium che usano i modelli più costosi per default. È il playbook dell’iPhone applicato all’AI: vendere ansia di status, non capacità. Ma con una differenza cruciale: con l’iPhone, il cliente paga una volta ogni due anni. Con l’AI, paga per token, per task, ogni giorno, per sempre — e la fattura arriva silenziosamente a fine trimestre, senza warning e senza breakdown.

Questa asimmetria economica è brutale. Un’organizzazione di 5.000 persone, dove ogni dipendente usa l’AI venti volte al giorno per task standard, può spendere otto cifre all’anno in API frontier, quando la stessa organizzazione, con un harness ben progettato e un modello mid-tier, spenderebbe una frazione infima. La differenza non è nel modello: è nella consapevolezza del sistema. E i vendor hanno ogni interesse a mantenere i clienti inconsapevoli.

Cosa significa tutto questo per l’investitore, per il policy maker, per il manager? Significa che stiamo assistendo a una potenziale bolla di capitale che potrebbe esplodere con conseguenze sistemiche. Non è una profezia apocalittica: è un’analisi di scenario basata su dati pubblici. Se la domanda per modelli frontier si contrae del 30-40% nei prossimi 18 mesi — e i dati suggeriscono che questa contrazione è non solo possibile, ma probabile — allora i 7,6 trilioni di dollari di capex pianificati diventano un debito mostruoso che peserà sui bilanci di Microsoft, Google, Amazon, Oracle e Meta per anni.

E non è un problema solo americano. La Cina, con Alibaba che ha impegnato 380 miliardi di yuan in tre anni per AI e cloud, e ByteDance che punta a 160 miliardi di yuan di capex nel 2026, sta replicando lo stesso modello. La differenza è che i vendor cinesi — DeepSeek, Qwen, Xiaomi — hanno prezzi API che sono frazioni dei competitor americani, e modelli open-weight che non richiedono licenze costose. Se la guerra dei prezzi diventa una guerra di sopravvivenza, chi ha costi strutturali più bassi ha un vantaggio competitivo non marginale.

La conclusione che emerge da questa analisi è che la commoditizzazione del modello non è solo un fenomeno tecnologico: è un fenomeno economico che sta ridisegnando l’intero settore. E come ogni transizione industriale, chi la capisce per primo ha un vantaggio enorme. Chi la nega, o la sottovaluta, rischia di trovarsi con asset depreciati, debiti insostenibili e un business model che non regge più.

Il rovescio della medaglia: i limiti dell’argomento

Sarebbe disonesto non riconoscere i punti in cui la tesi della commoditizzazione del modello vacilla, o si applica solo parzialmente.

Primo: i benchmark sintetici non catturano la produzione. Lo studio CLEAR di Kili Technology ha mostrato che i sistemi agentici in produzione reale ottengono in media il 37% in meno rispetto a quanto promesso dai benchmark di laboratorio. Significa che le valutazioni di laboratorio, sulle quali si misura la convergenza dei modelli, sono esse stesse artefatti. Se i benchmark sono fragili, l’argomento della commoditizzazione basata su di essi è doppiamente fragile.

Secondo: esiste un terzo collo di bottiglia che né modello né harness possono risolvere. Ash Gopinath, co-founder di K-Dense AI — azienda che costruisce harness — ha dichiarato in un post LinkedIn che il vero collo di bottiglia, nella sua esperienza, è la data velocity: la velocità con cui nuovi dati sperimentali diventano disponibili. “These systems excel at analysis, reasoning, and hypothesis generation, but the true bottleneck lies in data velocity.” Anche un sistema perfetto, modello frontier + harness impeccabile, resta fermo se i dati che dovrebbe analizzare non arrivano.

Terzo: la commoditizzazione non è uniformemente distribuita. Su domini specialistici, un modello come Claude Opus 4.7 o GPT-5.5 mantiene vantaggi non recuperabili con un 30B, neppure con un harness sofisticato. Quando serve ragionamento profondo su conoscenza di nicchia, il modello fa ancora la differenza. L’argomento della commoditizzazione è vero in media, ma non in ogni cella della matrice.

Quarto: la narrativa del vendor. C’è un conflitto d’interessi strutturale: l’articolo di K-Dense che ha lanciato questa tesi arriva da un’azienda che vende harness. Analogamente, Anthropic, OpenAI, DeepSeek hanno tutti un interesse commerciale a spostare l’attenzione dai pesi del modello al sistema. La tesi può essere vera, ma va pesata sapendo chi la sostiene e perché.

Implicazioni operative: come dovrebbero cambiare le decisioni d’acquisto

Detto tutto questo, la tesi ha una sua solidità empirica, e chi prende decisioni d’investimento in AI farebbe bene a tenerne conto. Ecco quattro implicazioni operative che emergono dai dati.

1. Smettiamo di scegliere il modello come se fosse l’unica variabile. La prima domanda da porsi non è “quale modello” ma “quale problema stiamo risolvendo e quale architettura di sistema serve”. Per la maggior parte dei task agentici, un modello da 30-70B ben istruito e ben harnessato farà un lavoro equivalente a un modello frontier, a una frazione del costo.

2. Investiamo in ingegneria del workflow, non in licenze API più care. Il ROI di un’azienda che spende il 20% in più per un modello di frontiera ma il 70% in più in design del sistema sarà quasi sempre superiore. È una ristrutturazione del budget AI che molte organizzazioni non hanno ancora preso in considerazione.

3. Misuriamo sull’output reale, non sui benchmark. Se è vero che il laboratorio sovrastima le prestazioni del 37%, l’unica metrica che conta è il risultato di business, misurato sul campo, su dati reali, su workflow completi. Le valutazioni comparative vanno fatte in produzione, non su MMLU o HumanEval.

4. Prepariamoci a un nuovo professionista: l’harness engineer. OpenAI, DeepSeek, Anthropic stanno assumendo persone con questo profilo. È probabile che, nei prossimi due anni, diventi una delle figure più richieste nel settore. Le organizzazioni che se ne accorgono per tempo avranno un vantaggio competitivo non trascurabile.

Conclusione: una transizione silenziosa ma profonda

Quanto emerge dai dati del biennio 2025-2026 non è una moda passeggera, né un’operazione di marketing. È una transizione strutturale, per certi versi silenziosa, ma profonda. Per anni il valore nel settore dell’AI si è concentrato nei pesi dei modelli. Oggi, per la maggior parte delle applicazioni reali — che sono multi-step, vincolate a dati reali, e devono essere consegnate in modo affidabile — il valore si sta spostando nel sistema che quei pesi orchestra, verifica, e protegge dal caos decisionale.

Questo non significa che i modelli non contino. I modelli contano, e continueranno a contare. Ma il loro vantaggio relativo, su task standard, si è ridotto a una forbice così stretta da rendere la scelta del modello una variabile di ottimizzazione, non di strategia. La strategia, oggi, si gioca altrove.

C’è un rischio, naturalmente, che va segnalato. Se la comunità tecnica sposta troppa attenzione sull’harness, finisce per assuefarsi all’idea che il modello sia una commodity trascurabile sempre. Non lo è. Ci sono task — quelli che definiscono la frontiera della ricerca, quelli che richiedono ragionamento profondo, quelli che aprono nuove capacità — dove il modello resta l’attore principale. L’errore sarebbe opporre harness e modello come se fossero in competizione. Non sono in competizione. Sono complementari, e il valore massimo si ottiene quando entrambi sono progettati insieme, in funzione del problema da risolvere anche se non è più al centro il modello.

È una conclusione che ha implicazioni operative non da poco. Per le imprese: smettiamo di chiederci solo quale modello comprare, e iniziamo a chiederci quale sistema costruire. Per i laboratori: continuiamo a investire in capacità frontier, ma senza dimenticare che il 90% del valore si gioca dove il modello incontra il mondo. Per i policy maker: ricordiamo che la sovranità tecnologica non si misura più solo in teraflop, ma anche in capacità ingegneristiche di sistema.

Ma c’è un’implicazione ancora più vasta, che emerge dai nuovi capitoli di questa analisi. Per gli investitori: la corsa ai data center e alle GPU potrebbe essere la più grande scommessa azzardata della storia tecnologica. I 7,6 trilioni di dollari di capex pianificati si reggono su un presupposto — che la domanda per modelli frontier crescerà esponenzialmente — che i dati del 2026 stanno mettendo in discussione. Chi investe in infrastruttura senza verificare la domanda reale rischia di costruire cattedrali nel deserto.

Per i policy maker, inoltre, la lezione è duplice. Da un lato, la sovranità tecnologica richiede capacità di costruire sistemi, non solo di acquistare modelli. Dall’altro, la dipendenza da infrastrutture di calcolo estere — GPU NVIDIA, cloud AWS, data center americani — è un rischio geopolitico che non si risolve con più teraflop, ma con più ingegneria del sistema e con strategie di diversificazione del vendor.

Ma c’è una dimensione di questa transizione che merita di essere sottolineata con forza, perché contraddice una delle narrazioni più insidiosi — e più diffuse — del nostro tempo. Per anni, la retorica dominante sull’intelligenza artificiale ha dipinto uno scenario apocalittico: le macchine sostituiranno gli umani, il know-how individuale diventerà inutile, la professionalità sarà sopraffatta dalla capacità dei modelli di generare risposte corrette senza comprendere. È una narrazione che vende ansia, vende abbonamenti, vende corsi di “prompt engineering per sopravvivere”. Ma i dati che abbiamo esaminato raccontano una storia molto diversa, e molto più rassicurante per chi crede nel valore della persona.

L’harness, in tutte le sue declinazioni — il prompt engineering, il design del workflow, la verifica dei risultati, la gestione della memoria, la selezione degli strumenti — non è un’attività che può essere delegata a un modello. È un’attività artigianale, che richiede comprensione del dominio, esperienza pratica, capacità di giudizio. Non basta chiedere a Claude Code di “creare qualcosa”: bisogna saper chiedere, guidare, governare. Bisogna sapere quali sono gli elementi di harness da equilibrare per ottenere risultati migliori. Bisogna comprendere il problema prima di delegarlo, e comprendere la risposta prima di accettarla.

Questo è il paradosso più bello di tutta questa transizione: l’AI agentica, lungi dal rendere superflua la persona, la rende più indispensabile che mai. Il modello è una commodity, ma il sistema che lo governa è un’opera d’ingegneria artigianale. E chi studia, chi pratica, chi costruisce know-how nel tempo — non chi paga più token — è chi ottiene risultati superiori. È la rivincita della professionalità sulla retorica della sostituzione. È la conferma che la tecnologia, per quanto potente, non sostituisce il giudizio umano: lo amplifica, ma solo se chi la usa sa come amplificarla.

È una transizione che, come tutte le transizioni industriali, sarà visibile solo col senno di poi. Ma a leggerla oggi, con i dati disponibili, una cosa appare già chiara: il modello non è più il collo di bottiglia. E, soprattutto, non lo è da un po’. La domanda che resta aperta — e che definirà il prossimo decennio — non è “quale modello vincerà?”, ma “chi capirà per primo che il valore è altrove, e agirà di conseguenza?”. E la risposta, sorprendentemente, non è nei data center di Microsoft o nei laboratori di OpenAI. È nelle mani, nelle menti e nel know-how di chi oggi costruisce sistemi intelligenti attorno a modelli che, da soli, non bastano mai.

Note e riferimenti

1. Stanford HAI, AI Index 2026 — Technical Performance, marzo 2026. Dati Arena Elo: Anthropic 1503, xAI 1495, Google 1494, OpenAI 1481, Alibaba 1449, DeepSeek 1424. Open vs closed model gap = 3,3% (era 0,5% nell’agosto 2024). https://hai.stanford.edu/assets/files/ai_index_report_2026.pdf

2. Ryan Lopopolo, Harness engineering: leveraging Codex in an agent-first world, OpenAI, febbraio 2026. L’articolo descrive l’esperimento di 3 ingegneri, 5 mesi, 1 milione di righe di codice, 0 righe scritte manualmente. https://openai.com/it-IT/index/harness-engineering/

3. 36Kr Why is Harness the next battleground for AI?, 26 maggio 2026. Riporta la notizia delle assunzioni DeepSeek per Harness PM e Harness Engineer. https://m.36kr.com/p/3826111674949891

4. Li O., Agarwal V., Zhou S., Gopinath A., Kassis T., K-Dense Analyst: Towards Fully Automated Scientific Analysis, arXiv:2508.07043, agosto 2025. Risultato chiave: Gemini 2.5 Pro diretto = 18,3%, con harness K-Dense = 29,2% su BixBench. https://arxiv.org/abs/2508.07043

5. Rick Hightower, LangChain’s Harness Engineering: From Top 30 to Top 5 on Terminal Bench, LinkedIn Pulse, 2026. Riporta il caso LangChain Terminal Bench 2.0: 52,8% → 66,5% con refactoring del solo harness. https://www.linkedin.com/pulse/langchains-harness-engineering-from-top-30-5-terminal-rick-hightower-3xymc/

6. revfactory, Claude Code Harness — A/B Experiment Results, GitHub, 2026. Risultato Claude Code su 15 task: qualità 49,5 → 79,3, con delta crescente al crescere della difficoltà (Basic +23,8, Advanced +29,6, Expert +36,2). https://github.com/revfactory/claude-code-harness

7. Ian Paterson, I Tested 15 LLMs on 38 Real Coding Tasks. Here’s My Routing Table, 2026. 14 di 15 modelli sopra 85% di accuratezza. Costo per task nel Coding Agent Index: $0,07 – $2,26, fattore 32×. https://ianlpaterson.com/blog/llm-benchmark-2026-38-actual-tasks-15-models-for-2-29/

8. Jarek Wasowski, Coding Agent Index 2026: Benchmarking Full Agent Stacks (Model + Harness), Medium, 2026. Sistemi diversi mostrano costi per task da $0,07 a $2,26 a parità di qualità del codice prodotto. https://medium.com/@wasowski.jarek/coding-agent-index-2026-benchmarking-full-agent-stacks-model-harness-4183305e4b90

9. Kili Technology et al., Beyond Accuracy: A Multi-Dimensional Framework for Evaluating Enterprise Agentic AI Systems (CLEAR), arXiv:2511.14136v1, 2026. 37% gap tra lab benchmark e deployment reale; 50× variazione di costo a parità di accuratezza. https://arxiv.org/html/2511.14136v1

10. Qwen Team, Alibaba, Qwen3.6-35B-A3B: SWE-bench Verified benchmark results, maggio 2026. Risultato: 73,4% vs Claude Opus 4.6 75,0% con 60× meno parametri attivi (3B vs ~200B+). https://dev.to/czmilo/qwen36-35b-a3b-complete-review-alibabas-open-source-coding-model-that-beats-frontier-giants-4382

11. CostGoat / CloudZero, LLM API Pricing Comparison, giugno 2026. Dati prezzi API aggiornati al 10/06/2026 per 298+ modelli. DeepSeek V4-Flash: $0,14/$0,28 per 1M token; Claude Opus 4.7: $5,00/$25,00; Gemini 3.5 Flash: $0,15/$0,60. https://costgoat.com/compare/llm-api

12. Goldman Sachs, Tracking Trillions: The Assumptions Shaping the Scale of the AI Build-Out, maggio 2026. Stima $7,6 trilioni di capex cumulativo 2026-2031; $765 miliardi annuali nel 2026. Futurum Group, AI Capex 2026: The $690B Infrastructure Sprint, febbraio 2026. Capex hyperscaler 2026: $660-690 miliardi. https://www.goldmansachs.com/insights/articles/tracking-trillions-the-assumptions-shaping-scale-of-the-ai-build-out

13. Age of Product, Token Economics in 2026: No More Cheap Claude, maggio 2026. Anthropic throttling del 7% utenti Pro; aumenti prezzi API 30-50%; GPU Blackwell +48% in 2 mesi. OpenAI Developer Community, OpenAI Needs a Compute Token Economy, giugno 2026. Margine operativo non-GAAP Q1 2026: -122%. https://age-of-product.com/token-economics-2026/

14. Timothy Kassis, The Model Is No Longer the Bottleneck, K-Dense AI Blog, giugno 2026. https://www.k-dense.ai/blog/the-model-is-no-longer-the-bottleneck Articolo pubblicato il 10 giugno 2026 · Riferimenti bibliografici verificabili a

[1] Li O., Agarwal V., Zhou S., Gopinath A., Kassis T., K-Dense Analyst: Towards Fully Automated Scientific Analysis, arXiv:2508.07043, agosto 2025. Risultato chiave: Gemini 2.5 Pro diretto = 18,3%, con harness K-Dense = 29,2% su BixBench. https://arxiv.org/abs/2508.07043

[2] Rick Hightower, LangChain’s Harness Engineering: From Top 30 to Top 5 on Terminal Bench, LinkedIn Pulse, 2026. Riporta il caso LangChain Terminal Bench 2.0: 52,8% → 66,5% con refactoring del solo harness https://www.linkedin.com/pulse/langchains-harness-engineering-from-top-30-5-terminal-rick-hightower-3xymc/

[3] revfactory, Claude Code Harness — A/B Experiment Results, GitHub, 2026. Risultato Claude Code su 15 task: qualità 49,5 → 79,3, con delta crescente al crescere della difficoltà (Basic +23,8, Advanced +29,6, Expert +36,2). https://github.com/revfactory/claude-code-harness

[4] Ryan Lopopolo, Harness engineering: leveraging Codex in an agent-first world, OpenAI, febbraio 2026. L’articolo descrive l’esperimento di 3 ingegneri, 5 mesi, 1 milione di righe di codice, 0 righe scritte manualmente. https://openai.com/it-IT/index/harness-engineering/

[5] Ian Paterson, I Tested 15 LLMs on 38 Real Coding Tasks. Here’s My Routing Table, 2026. 14 di 15 modelli sopra 85% di accuratezza. Costo per task nel Coding Agent Index: $0,07 – $2,26, fattore 32×. https://ianlpaterson.com/blog/llm-benchmark-2026-38-actual-tasks-15-models-for-2-29/

[6] Jarek Wasowski, Coding Agent Index 2026: Benchmarking Full Agent Stacks (Model + Harness), Medium, 2026. Sistemi diversi mostrano costi per task da $0,07 a $2,26 a parità di qualità del codice prodotto. https://medium.com/@wasowski.jarek/coding-agent-index-2026-benchmarking-full-agent-stacks-model-harness-4183305e4b90

[7] https://llm-stats.com/models/compare/claude-opus-4-6-vs-qwen3.6-27b-vs-qwen3.6-35b-a3b

@RIPRODUZIONE RISERVATA