Cinquecentomila euro. È il costo dichiarato del training completo di EngGPT2-16B-A3B, il modello Mixture-of-Experts da 16 miliardi di parametri totali e 3 miliardi attivi rilasciato da Engineering Group con pesi aperti su Hugging Face.
Indice degli argomenti
Cinquecentomila euro come affermazione politica
Duecentocinquantamila ore GPU su cluster A100 italiano, 2,5 trilioni di token, allineamento dichiarato all’EU AI Act, pipeline copyright-aware documentata in appendice del paper, supporto multi-modale per reasoning italiano e inglese. Il numero che cattura l’attenzione non è la performance sui benchmark, dove EngGPT2 è competitivo nella sua fascia ma non sorprendente, è quel mezzo milione di euro: una cifra da progetto industriale, non da hyperscaler americano o cinese, e che ridefinisce cosa significa fare AI sovrana europea con risorse realisticamente disponibili.
I 5,7×10²² FLOPs cumulativi del training stanno tre ordini di grandezza sotto la soglia di 10²⁵ FLOPs che fa scattare gli obblighi di systemic risk reporting nell’AI Act, e questo non è un dettaglio tecnico, è un’affermazione politica implicita: si può costruire un modello di linguaggio competitivo restando volontariamente nella zona di lavoro accessibile a system integrator nazionali, centri di ricerca pubblici, consorzi industriali, senza avere bisogno dei budget multimiliardari che dominano la conversazione mainstream.
L’architettura MoE come scelta di efficienza
La configurazione tecnica di EngGPT2 ha una logica precisa. Transformer Mixture-of-Experts con 24 layer, 64 esperti per layer di cui 8 attivati per token, 32 attention head con 4 key-value head in Grouped Query Attention. Le scelte di scala degli esperti sono deliberatamente posizionate tra Qwen3-30B-A3B e GPT-OSS-20B di OpenAI: hidden size 2880, MoE intermediate size 1080, ogni esperto pesa 9,3 milioni di parametri, contro i 4,7 milioni di Qwen3 e i 24,9 milioni di GPT-OSS. Il rapporto di parametri attivi sul totale è del 20,27%, valore alto rispetto al 10,98% di Qwen3 e più basso del 17,30% di GPT-OSS, scelto per garantire un minimo di 3B parametri attivi che diano reasoning di qualità senza far esplodere il modello complessivo.
Il pre-training è strutturato in tre stage: warmup su 600B token con 64 nodi, scale-up principale su 1,5T token con 128 nodi, refinement finale su 400B token con learning rate decay e mixture spostata verso math, code e dati Nemotron sintetici. La proporzione di dati italiani è circa il 25% del corpus complessivo, valore alto per modelli di questa scala, e segnala una priorità linguistica che pochi laboratori globali si pongono. L’MFU media osservata è del 21% in pre-training, con picchi al 31%: numeri onesti per un cluster A100 distribuito, sotto i 40-50% che si vedono dichiarare su H100 con stack ottimizzati, ma coerenti con l’hardware disponibile e con il livello di tuning realisticamente accessibile a un team enterprise non specializzato in performance engineering estremo.
Il grafico Cost of Intelligence in Figura 8 del paper è la sintesi visiva del posizionamento: asse orizzontale performance normalizzata per token di training, asse verticale performance normalizzata per parametro attivo. EngGPT2 occupa l’angolo in alto a destra, da solo. Qwen3-30B-A3B sta in alto a sinistra, alta efficienza in inferenza ma costo di training enorme dato che ha visto 36T token. I dense 8-12B stanno in basso a sinistra. Su benchmark assoluti il modello è competitivo nella sua fascia ma non sorprendente, sulla relazione capacità su unità di compute, sia in training che in inferenza, è effettivamente il migliore tra i confrontati. È la mappa che Engineering ha scelto come terreno di gioco, ed è una mappa che l’industria europea può percorrere.
La pipeline copyright come operazionalizzazione concreta dell’AI Act
La parte più rara del paper, e quella che merita maggiore attenzione da chi guarda all’adozione enterprise, è l’Appendice B. Engineering documenta una pipeline copyright-aware in modo riproducibile: blacklist di domini editoriali e accademici, pattern matching per marker editoriali (capitoli, ISBN, copyright notice), risk score composito, opt-out via email per i detentori di diritti. Con threshold conservativo sono stati rimossi il 5,9% dei record dal corpus di pre-training, con threshold più aggressivo il 18,8%. Sono numeri che un Data Protection Officer o un legale enterprise può leggere, validare, replicare sul proprio caso d’uso.
La differenza con la prassi dominante del settore è chirurgica. Quasi tutti i grandi laboratori dichiarano genericamente di rispettare la legge sul copyright, pochissimi spiegano operativamente cosa hanno rimosso e secondo quali criteri. Engineering sceglie l’altra strada e ne paga il prezzo: meno dati significa più rischio di sotto-performance su alcuni domini, più trasparenza significa più superficie di critica per chi vorrà contestare le scelte di filtraggio. La paga però con una valuta che in Europa vale sempre di più, ovvero la possibilità di vendere il modello a clienti soggetti a obblighi di documentazione AI Act senza dover ricostruire ex post una compliance che il fornitore originale non ha mai prodotto.
Per le imprese italiane in settori regolati come banche, assicurazioni, sanità, pubblica amministrazione, questo è l’argomento di vendita più forte di EngGPT2, più ancora dei numeri di benchmark. Un fornitore che firma una pipeline di compliance documentata e che firma il progetto come system integrator italiano riduce il rischio regolatorio in modo strutturale, e in molti contesti questo vale più di un punto in più su MMLU.
Quattro modalità di reasoning, una feature di prodotto
La scelta più innovativa di EngGPT2 è l’integrazione di quattro modalità di inferenza in un unico modello, controllate da token speciali nel chat template: non-reasoning, reasoning inglese, reasoning italiano, turbo reasoning compresso. La modalità turbo è la più interessante dal punto di vista commerciale: produce catene di pensiero in formato bullet-point con riduzione dei token generati che varia tra l’83% di GSM8K e il 96% di AIME25, a fronte di una degradazione di accuracy che varia tra il 13% (GSM8K, MMLU-Redux) e il 60% (AIME26).
La differenza tra task knowledge-oriented e task di reasoning simbolico profondo emerge con chiarezza. Dove la catena di reasoning è genuinamente necessaria per la correttezza, comprimere costa molto. Dove invece la risposta è in larga parte recall di conoscenza con pochi step di ragionamento, la compressione è quasi gratuita. Per applicazioni di chatbot real-time, sintesi documentale, customer care interno, applicazioni mobile-first dove latenza e costo per query contano più del massimo della qualità, il turbo è un argomento commerciale solido.
Gli stessi autori documentano onestamente un bug noto: in compressed mode il modello tende a seguire la lingua del prompt invece del control token che dovrebbe selezionare il reasoning italiano o inglese. È un comportamento dichiarato, non un’omissione, ma in produzione enterprise multilingua può creare incidenti di compliance, perché un control token che funziona come soft conditioning invece che come hard constraint non è un’astrazione affidabile per costruire applicazioni deterministiche. Va trattato come ciò che è, una feature in maturazione che richiede mitigazioni a livello applicativo.
Dove EngGPT2 perde, e perché Engineering lo ammette
Il paper non nasconde i due talloni d’Achille. Su HumanEval, il benchmark di programmazione, EngGPT2 fa 64 contro il 73-77 dei comparable della stessa fascia (Llama-3.1-8B, Moonlight-16B-A3B), e contro il 98,2 di GPT-OSS della fascia larger. Su BFCL v3, il benchmark di tool calling che misura la capacità di un modello di orchestrare API esterne, EngGPT2 fa 48,5 contro i 58-74 dei larger e perde anche contro Gemma-2-9b nel comparable. Per un modello che vorrebbe posizionarsi come abilitante di agenti enterprise e tool calling, questi due numeri raccontano una storia che il marketing non può coprire.
Engineering rinvia esplicitamente a release future, dichiarando che la fase di Supervised Fine-Tuning è stata troppo corta e sbilanciata sul reasoning. Cinque epoche, batch size effettivo 16, 16 GPU, cinque giorni: una proporzione sproporzionata rispetto al peso degli altri stage del training, e che spiega le debolezze su tool calling e coding. Letta nel modo giusto, EngGPT2 va trattato come una v1 che presidia il posizionamento, non come un punto di arrivo.
Anche le performance long-context sono limitate. Su RULER a 64k token l’accuracy media scende a circa 42 partendo da 73 a 4k, e gli stessi autori scrivono che una fase di adaptation più lunga avrebbe consolidato meglio le capacità. Per applicazioni che richiedono ingestione di documenti lunghi (contratti, normativa, perizie tecniche, manuali), il claim di context utile a 32k+ va verificato sul caso d’uso reale, non assunto come dato.
Una nota critica che il paper non affronta direttamente: il dataset di Supervised Fine-Tuning è in larga parte distillato da Qwen3-32B, GPT-OSS-120B, DeepSeek-R1. È legalmente legittimo, le licenze lo permettono, ed è una pratica standard nel campo. Però il claim di sovranità si appoggia in modo non banale su capacità sviluppate altrove, e un osservatore critico può legittimamente chiedere quanto dell’intelligenza di EngGPT2 sia europea originaria e quanto sia compressione efficiente di intelligenza prodotta da team cinesi e americani. La domanda non delegittima il progetto, lo inquadra: la sovranità si costruisce per gradi, e questa è la prima fase.
Velvet, Modello Italia, Minerva, EngGPT2: quattro tasselli di una strategia distribuita
Sul mercato italiano della sovranità AI, EngGPT2 si inserisce in un panorama dove almeno tre attori rivendicano posizioni simili. Almawave con Velvet, iGenius con Modello Italia 9B costruito con Cineca e Leonardo, Sapienza con Minerva. Engineering arriva con tre asset distintivi che gli altri tre, in misure diverse, non hanno tutti insieme: la pipeline copyright AI Act-compliant documentata in modo riproducibile, il sistema multi-mode di reasoning con turbo come feature di efficienza, il rapporto costo-capacità verificabile a 500.000 euro per il training completo.
Il modo corretto di leggere i quattro progetti non è come competizione interna alla sovranità italiana, è come strategia distribuita di sovranità linguistica e tecnologica, dove ciascun attore presidia una nicchia funzionale diversa. Velvet di Almawave punta sulla qualità dell’italiano per applicazioni B2C e contact center. Modello Italia con Cineca presidia l’asse della ricerca pubblica e della sovranità infrastrutturale, con un partner naturale nei ministeri e nelle agenzie governative. Minerva di Sapienza è il polo accademico che fa avanzare la ricerca metodologica sui modelli per lingue europee. EngGPT2 di Engineering occupa lo spazio del system integrator enterprise con compliance documentata, e la consulenza di accompagnamento integrata.
Letti insieme, i quattro progetti raccontano una strategia che ancora non è consapevole di sé stessa, e che sta comunque emergendo dai fatti: l’Italia, senza un piano centrale dichiarato, sta costruendo una propria filiera AI con quattro nodi specializzati. Manca un coordinamento esplicito tra di essi, manca un livello di interoperabilità tecnica, manca una vetrina pubblica che li racconti come pezzi di un disegno comune. Quel livello, se qualcuno lo costruirà, sarà la differenza tra una sovranità italiana per accumulo casuale di iniziative e una sovranità italiana progettata. Il prossimo Stanford AI Index potrebbe contare quattro modelli italiani con pesi aperti, performance dichiarate, costi verificabili: una situazione che a inizio 2025 sembrava impensabile.
La fascia 4-7B che il mercato italiano aspetta davvero
C’è una domanda di mercato che il paper di Engineering non si pone esplicitamente. Se l’efficienza è il vantaggio competitivo dichiarato, perché non rilasciare anche una versione 4B-A1B o 7B-A2B dello stesso impianto architetturale? Il vero gap di mercato in Italia non è la fascia 16B, dove Qwen3-30B-A3B sotto licenza Apache 2.0 è già una soluzione disponibile a tutti, è la fascia 4-7B realmente specializzata sull’italiano e sui domini regolamentati, deployabile su singola GPU enterprise o addirittura su edge appliance. Lì il differenziale di efficienza diventerebbe drammatico per le PMI, gli studi professionali, le pubbliche amministrazioni locali, gli ospedali, le scuole.
La roadmap dichiarata punta nella direzione opposta, scaling sia in dimensione che in volume di token. Sembra una scelta orientata a inseguire la fascia alta più che a presidiare la fascia dove il differenziale di efficienza diventerebbe argomento di vendita drammatico. Se Engineering, o un consorzio italiano più ampio, si decidesse a costruire una versione 4-7B con la stessa pipeline copyright e la stessa attenzione all’italiano, il mercato delle PMI italiane avrebbe finalmente un’opzione vera. Senza quel passo, EngGPT2 resterà una buona dimostrazione di capabilities con una nicchia enterprise difficilmente espandibile alla scala del tessuto produttivo italiano reale.
Un punto fermo nel dibattito sulla sovranità
Il valore di EngGPT2 nel dibattito pubblico italiano va letto, secondo me, prima di tutto come ancoraggio quantitativo a una conversazione che troppo spesso si è svolta sul piano dei principi senza dati verificabili. 500.000 euro e 5,7×10²² FLOPs sono cifre che cambiano la cornice della discussione su cosa l’Italia e l’Europa possono effettivamente fare con le risorse disponibili oggi. Per i tavoli istituzionali sulla sovranità tecnologica, per le commissioni parlamentari che stanno scrivendo le strategie nazionali AI, per le associazioni di categoria che valutano se costruire piattaforme settoriali, questo paper merita di circolare. Non come la dimostrazione che siamo arrivati, come la dimostrazione che il punto di partenza è raggiungibile.
Senza dubbio la domanda che a valle di una lettura di questo tipo ci si pone è una sola: ora che sappiamo che un modello sovrano italiano competitivo costa quanto un buon progetto industriale, chi mette insieme la regia che trasforma quattro iniziative distribuite in una filiera nazionale riconoscibile?











