Il token è la nuova unità di costo dell’intelligenza artificiale, e in poche settimane ha smesso di essere un dettaglio tecnico per diventare una voce di bilancio che nessun CFO sapeva prevedere. Royal Bank of Canada segnala +500% di consumo in sei mesi, alcune aziende esauriscono il budget annuale in tre. Ecco cosa cambia nell’adozione, nella pianificazione e nel controllo della spesa AI.
Dave McKay, CEO di Royal Bank of Canada, lo ha detto durante una earnings call di maggio: il consumo di token della banca è cresciuto del 500% in sei mesi. Non è un caso isolato. Circa trecento aziende hanno affrontato il tema dei costi AI nelle trimestrali di aprile e maggio, contro le 93 di un anno prima. Uber ha bruciato l’intero budget AI 2026 in quattro mesi. Una società, secondo quanto riportato da Axios, ha speso 500 milioni di dollari in un solo mese perché nessuno aveva impostato limiti d’uso.
Il tema arriva anche dal Wall Street Journal, che nelle scorse settimane ha raccontato come le aziende abbiano iniziato a tracciare l’uso dei token dei propri dipendenti, un comportamento fino a poco tempo fa impensabile per uno strumento venduto come produttività a consumo libero. Il dato che colpisce di più viene da una survey KPMG citata dal WSJ: solo il 26% delle aziende dichiara di avere una visione completa dei propri costi AI, il 50% ne ha una parziale, il 22% scopre la spesa quando arriva la fattura.
Indice degli argomenti
Perché la spesa token AI è uscita dal modello a sussidio
Per due anni l’accesso ai modelli linguistici è stato, di fatto, un sussidio. Prezzi bassi, competizione feroce tra i laboratori, piani a consumo che nessuno guardava davvero perché l’ordine di grandezza sembrava trascurabile rispetto al valore percepito. Quella fase si sta chiudendo, e la ragione riguarda la struttura del consumo, non la tecnologia in sé.
L’AI agentica ha cambiato la meccanica del consumo. Un chatbot risponde a una domanda e chiude la conversazione. Un agente ripete più passaggi in sequenza per completare un compito, e a ogni nuovo passaggio deve reinviare l’intera conversazione precedente come contesto. Se l’agente è alla decima fase di un task, prima rilegge le prime nove. Un assistente di supporto clienti con una base di conoscenza di 20.000 token, richiamata a ogni richiesta su mille interazioni al giorno, consuma circa 20 milioni di token quotidiani solo per rileggere gli stessi documenti.
Goldman Sachs, in una nota del 5 maggio, ha proiettato una crescita di 24 volte nel consumo di token tra il 2026 e il 2030, fino a 120 quadrilioni al mese. Google ha reso pubblico un altro dato utile a capire la velocità del fenomeno: da 480 trilioni di token processati a maggio 2025 a 3,2 quadrilioni a maggio 2026, sette volte in dodici mesi.

Fonte: elaborazione su proiezione Goldman Sachs (5 maggio 2026) e dati Google I/O sul volume mensile di token processati
I costi di input e output non sono simmetrici. L’input, quello che l’azienda invia al modello, costa meno perché viene letto in un solo passaggio. L’output, quello che il modello genera, costa da due a cinque volte di più, perché ogni parola viene prodotta in sequenza, una alla volta. Un’organizzazione che non distingue le due voci nella propria contabilità interna sta già guardando il problema con lo strumento sbagliato.
La spesa token AI come questione di governance
Per molte aziende il primo mese di bolletta alta si è liquidato come un’eccezione. Il secondo, quando la spesa non è tornata sotto controllo da sola, ha imposto la domanda vera. Justice Kwak, a capo della strategia agentic AI di Accenture, lo ha descritto in una riunione interna riportata da 404 Media: l’AI sta diventando materiale per la struttura di costo, la spesa è imprevedibile, e leadership finanziaria, operativa e tecnologica continuano a chiedersi se il valore generato giustifichi quanto viene speso.
Il caso Accenture è istruttivo perché mostra il rischio opposto a quello del blocco totale: dipendenti che usano token per convertire PDF in slide, adozione incentivata con classifiche interne, e un consumo che cresce senza produrre valore proporzionale. Alcune aziende, tra cui Meta, hanno costruito leaderboard per premiare l’uso intensivo dell’AI, salvo poi accorgersi che il volume di utilizzo non è correlato al valore prodotto. Christopher Penn lo ha sintetizzato con chiarezza in un pezzo dedicato al budget token: se un’organizzazione propone l’adozione AI come metrica di successo, l’uso dei token è l’indicatore peggiore possibile.
Il solo monitoraggio non basta a risolverlo. Sapere quanto sta spendendo ogni dipendente non riduce la spesa, perché agire su quel dato significherebbe un micromanagement quotidiano che nessun responsabile può sostenere nel tempo.
C’è poi un fronte che finora è rimasto ai margini del dibattito ma che sta per entrare nei bilanci pubblici. Diversi studi legali americani segnalano che, per le società quotate, la spesa in token può ricadere negli obblighi di disclosure previsti dalla SEC nella Management’s Discussion and Analysis dei report trimestrali e annuali. Se un’azienda traccia internamente il consumo di token o la spesa AI per dipendente come indicatore di gestione, quella metrica può configurarsi come KPI rilevante per gli investitori, con conseguente obbligo di analisi periodo su periodo. La spesa token, insomma, sta per smettere di essere un dettaglio operativo e diventare un dato che finance, legal e board devono presidiare insieme.
Come le aziende controllano i costi dei token AI
Le risposte che funzionano condividono una logica comune: trattare l’AI come una risorsa finita e strategica, non come un’utility a consumo illimitato. Deloitte lo formula così: servono gli stessi rigori applicati storicamente a energia e capitale allocato, perché il token è diventato la nuova valuta operativa dell’AI aziendale.
Concretamente, gli approcci osservati si muovono su tre direttrici.

Fonte: elaborazione Fabio Lalli su Deloitte, KPMG/WSJ, Computerworld
Attribuire il costo a ogni richiesta
La prima è l’attribuzione del costo per singola richiesta, il cosiddetto request-level cost attribution, che permette di sapere quale workflow, quale team, quale caso d’uso genera la spesa, invece di ricevere una fattura aggregata a fine mese senza possibilità di scomporla. È la stessa logica del chargeback che le aziende hanno già applicato al cloud computing negli anni scorsi, adattata a un’unità di misura più granulare e più volatile.
Instradare le richieste e ridurre i token inutili
La seconda direttrice è architetturale, e riguarda dove e come viene instradata ogni singola richiesta. Network Automation firm NetBrain, per esempio, usa il calcolo tradizionale per mappare la struttura di una rete e invia al modello linguistico solo le informazioni chiave necessarie al ragionamento, evitando di consumare token per compiti che non richiedono un modello generativo. Lo racconta Computerworld in un’inchiesta sulle strategie aziendali di riduzione dei costi. ManpowerGroup ha lavorato sull’efficienza dei prompt del proprio strumento interno di analisi del mercato del lavoro, portando da dieci a quattro il numero medio di domande di approfondimento necessarie per ottenere una risposta utile. Prompt caching e batch API, dove disponibili, riducono i costi rispettivamente fino al 90% e circa al 50%, a patto che l’architettura sia progettata per sfruttarli.
Unire tecnologia, finance e strategia
La terza direttrice è organizzativa, ed è probabilmente la più difficile da costruire perché richiede di allineare competenze che tradizionalmente non parlano tra loro. Le aziende che stanno gestendo meglio la transizione hanno unito leadership tecnica, finanziaria e strategica in un unico tavolo decisionale, invece di lasciare che IT gestisca l’infrastruttura e finance scopra i costi a consuntivo. Seun Salami, CFO di TIAA Nuveen, lo ha detto in modo diretto rivolgendosi ai tecnologi in un approfondimento Deloitte per CFO: fate amicizia con il vostro CFO, perché per ottenere l’approvazione di investimenti tecnologici trasformativi bisogna capire non solo come l’azienda genera ricavo, ma anche dove sono i rischi e la reale differenziazione competitiva.
Pianificare la spesa token AI prima che arrivi la fattura
L’effetto più profondo di questa fase non è la riduzione della spesa AI, è la fine dei modelli di previsione ereditati dal mondo pre-token. I CFO sono abituati a gestire la spesa tecnologica con leve familiari: licenze, organico, capacità infrastrutturale, piani di ammortamento. L’AI non si comporta secondo nessuna di queste logiche, perché il costo è guidato dal consumo, non lineare, e altamente variabile in base a come viene usata, non solo a quanto viene usata.
Becky Trevino, chief product officer in un’azienda FinOps, descrive lo spostamento di prospettiva in corso nelle organizzazioni che ha seguito da vicino, in un’analisi pubblicata da CIO: prima l’obiettivo era distribuire l’AI al maggior numero possibile di persone, ora diventa capire dove concentrarla perché il budget di token è finito. Il criterio di successo si sposta dalla percentuale di adozione interna alla capacità di dimostrare cosa sta cambiando nei risultati aziendali.
Questo spostamento ha una conseguenza organizzativa precisa: il controllo della spesa AI non può restare un compito degli ingegneri, e non può nemmeno diventare un compito esclusivo del finance. Va costruito come processo condiviso, con visibilità in tempo reale sui consumi, criteri espliciti su quali casi d’uso meritano priorità di budget, e architetture progettate fin dall’inizio per instradare ogni richiesta verso il modello, la cache o l’infrastruttura più efficiente per quel compito specifico. Le aziende che continueranno a trattare il token come una voce di spesa a consuntivo, invece che come una risorsa da pianificare, scopriranno il costo reale della loro adozione AI solo quando sarà troppo tardi per governarlo.














Partecipa alla community