ai on premise

Gli SLM portano l’AI dove il cloud non può arrivare

Home Industria 5.0/Innovazione in azienda

I Large Language Models dominano il dibattito pubblico, ma per PMI e Pubblica Amministrazione italiana il vero cambiamento viene dai Small Language Models: modelli compatti, eseguibili on-premise, conformi alle normative sulla privacy. Un’analisi tecnica e di policy su perché pensare in piccolo è strategia, non ripiego

Pubblicato il 26 giu 2026

Aggiungi tra i preferiti su Google

Francesca De Luzi

Sapienza Università di Roma

Francesco Leotta

Sapienza, Università di Roma

Massimo Mecella

Sapienza Università di Roma, Dipartimento di Ingegneria Informatica Automatica e Gestionale Antonio Ruberti

Flavia Monti

Sapienza, Università di Roma

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

Negli ultimi tre anni l’intelligenza artificiale generativa ha compiuto un salto evolutivo senza precedenti. I modelli linguistici di grandi dimensioni — i cosiddetti Large Language Models (LLM) — hanno dimostrato capacità straordinarie: capacità di rispondere a domande complesse, generazione di codice, analisi di documenti tecnici, sintesi normativa. Eppure, nonostante questi progressi, il tasso di adozione reale nelle piccole e medie imprese italiane e nella Pubblica Amministrazione locale rimane sorprendentemente basso.

AI, sono gli small language models a fare il vero lavoro nelle aziende: ecco come

Secondo la ricerca dell’Osservatorio Cloud Transformation del Politecnico di Milano, nel 2025 il mercato cloud italiano ha raggiunto 8,13 miliardi di euro, in crescita del 20% rispetto all’anno precedente. I numeri sembrano promettenti. Ma a guardare meglio emerge un dato inquietante: solo il 30% delle grandi aziende affida i propri progetti di AI esclusivamente al Public Cloud, mentre la maggioranza preferisce ambienti privati o on-premise per garantire controllo sui dati, contenere i costi e gestire la proprietà intellettuale [Osservatorio Cloud Transformation, PoliMI, ottobre 2025]. E questo riguarda le grandi aziende. Le PMI e le PA sono ancora più indietro, e le ragioni non sono culturali: sono strutturali.

Il modello dominante con cui i fornitori di AI si sono presentati al mercato è fondamentalmente inadatto a una larga fascia di utilizzatori potenziali. Inviare dati a un’API cloud di un AI provider negli USA non è un’opzione per chi gestisce conti correnti, fascicoli sanitari, sentenze giudiziarie, dati fiscali o segreti industriali. Non è paura del cambiamento: è obbligazione legale, è vincolo contrattuale, è — in molti casi — impossibilità tecnica e istituzionale.

La domanda che ci poniamo è semplice e dirompente: e se il vero problema dell’AI non fosse la qualità dei modelli, ma la loro taglia?

Indice degli argomenti

La rivoluzione silenziosa degli Small Language Models

Mentre il dibattito pubblico continuava a concentrarsi sulla corsa ai parametri — GPT-4, Gemini Ultra, Claude Opus, modelli con centinaia di miliardi o trilioni di pesi — nel mondo enterprise stava silenziosamente maturando una controrivoluzione. I Small Language Models (SLM) — modelli con parametri compresi tra 1 e 10 miliardi — hanno dimostrato di poter svolgere la gran parte dei compiti aziendali reali con prestazioni competitive rispetto ai modelli giganti, a una frazione del costo computazionale. Secondo una ricerca di Stanford citata da analisti di settore, i costi di inferenza sono calati di oltre l’80% negli ultimi 24 mesi, con modelli come Mistral 7B e Microsoft Phi-4 che raggiungono prestazioni entro il 5-10% di GPT-4 su benchmark opportuni, ma a un ventesimo del costo.

Gartner prevede che entro il 2027 le imprese utilizzeranno modelli piccoli e specializzati tre volte più dei grandi LLM generalisti. Il mercato globale degli SLM, valutato a 0,93 miliardi di dollari nel 2025, è proiettato a raggiungere 5,45 miliardi entro il 2032, con un CAGR del 28,7%. La chiave di questo cambio di paradigma sta in tre innovazioni tecniche che si combinano sinergicamente:

Quantizzazione

La compressione dei pesi neurali da floating point a 16 bit fino a interi a 4 bit consente di far girare modelli altamente capaci su GPU consumer — quelle che già oggi si trovano nei server delle PMI — riducendo il requisito di VRAM da decine a pochi gigabyte.

Fine-tuning su dati proprietari (LoRA/QLoRA)

Il paradigma del Low-Rank Adaptation consente di specializzare un modello base su un dominio specifico — normativa fiscale italiana, contrattualistica bancaria, codice COBOL, refertazione radiologica — con pochi giorni di addestramento su hardware ordinario. Un modello da 7 miliardi di parametri fine-tunato sul dominio specifico batte spesso un modello da 70 miliardi generalista nei task rilevanti.

Architetture Mixture-of-Experts (MoE)

La nuova generazione di architetture transformer non attiva l’intera rete neurale per ogni query, ma seleziona un sottoinsieme di “esperti” specializzati. Il risultato è che il conteggio totale dei parametri può essere molto alto, ma il costo computazionale di ogni inferenza rimane contenuto.

Il messaggio tecnico è preciso: non servono datacenter da centinaia di milioni di euro per fare AI di qualità. Serve ingegnerizzare modelli adatti al contesto d’uso.

Il caso d’uso che rompe il modello cloud: il legacy code

C’è un caso d’uso emblematico che illumina meglio di qualsiasi argomento teorico il limite strutturale dell’approccio “tutto in cloud”: la modernizzazione del codice legacy.

Banche, assicurazioni, Camere di Commercio, enti previdenziali, ministeri: il cuore computazionale di queste organizzazioni gira ancora su sistemi scritti in COBOL, un linguaggio del 1959. Si stima che nel mondo circolino ancora oltre 200 miliardi di righe di codice COBOL, e che il 95% delle transazioni ATM negli Stati Uniti passi ancora attraverso questi sistemi. In Italia, la situazione non è dissimile: i sistemi core banking, i sistemi di calcolo pensionistico, i registri catastali, i gestionali di alcune istituzioni pubbliche poggiano su architetture legacy di decenni, scritte da programmatori che nel frattempo sono andati in pensione portando con sé la conoscenza.

Il problema è noto da vent’anni. La soluzione — riscrivere tutto in linguaggi moderni — è sempre stata teoricamente auspicabile e praticamente paralizzante per tempi, costi e rischi. Oggi l’AI ha cambiato l’equazione: strumenti basati su LLM riescono a fare reverse engineering di codice COBOL, generare documentazione, produrre unit test, e tradurre automaticamente in Java o Python, riducendo i tempi da anni a mesi.

Ma qui emerge il paradosso insuperabile del modello cloud-first. Una banca non può mandare il proprio codice sorgente a un’API esterna. Punto. Non è un’opzione tecnica: è un divieto normativo, un vincolo contrattuale con i clienti, un rischio reputazionale inaccettabile. Lo stesso vale per tante altre istituzioni che gestiscono dati sensibili. Come ha documentato il blog di GitHub, anche i fornitori più avanzati riconoscono che “quello che molti clienti non vogliono è dare tutta la loro proprietà intellettuale al cento percento a un partner. Vogliono mantenerla sotto controllo.”

Uno studio pubblicato su arXiv nell’aprile 2025 (Bandarupalli, Code Reborn: AI-Driven Legacy Systems Modernization from COBOL to Java) ha dimostrato che sistemi AI addestrati su corpus COBOL — il LegacyCOBOL 2024 Corpus di 50.000 file — raggiungono una precisione del 93% nella conversione, riducendo la complessità ciclomatica del 35% e l’accoppiamento del 33%, superando sia i metodi manuali (75%) che gli strumenti rule-based tradizionali (82%). Questi risultati si ottengono con modelli che possono girare on-premise, su hardware dedicato, senza che una riga di codice sorgente lasci mai i server dell’organizzazione.

Il potenziale per il sistema pubblico italiano è enorme. Un’analisi del ciclo di vita dei sistemi informativi della PA rivela l’accumulo di debito tecnico che si moltiplica come interesse composto: ogni patch su codice legacy non documentato crea nuova opacità, nuovi rischi, nuovi costi futuri.

Sovranità digitale: da principio a requisito operativo

Il tema non è solo tecnico. È politico e istituzionale.

Le recenti Linee Guida AgID sull’uso dell’AI nella Pubblica Amministrazione (2026) segnano un punto di svolta: l’AI nella PA non è più una questione di mera innovazione organizzativa, ma di “architettura dello Stato, di capacità istituzionale, di governo del dato e, in ultima analisi, di sovranità.” Il documento è esplicito: i sistemi devono essere “comprensibili, gestibili e governabili dal personale interno”, i contratti devono garantire “formazione continua, documentazione completa e affiancamento operativo strutturato”, e il procurement deve evitare “soluzioni che richiedano competenze esclusive o non trasferibili.”

La sovranità digitale, in questo contesto, non coincide solo con dove risiedono i server. Significa che lo Stato deve mantenere il controllo effettivo sui propri processi essenziali, sulla disponibilità dei dati, sulla possibilità di aggiornare, migrare, sostituire e verificare i sistemi senza traumi e senza dipendenza perpetua da vendor esterni.

L’AI Act europeo (Regolamento UE 2024/1689) e la Legge 132/2025 italiana sull’AI nella PA hanno consolidato questo quadro normativo, richiedendo audit, tracciabilità, responsabilità umana nelle decisioni e conformità con il GDPR. Tutti requisiti molto più facilmente soddisfatti da un modello che gira on-premise, con accesso fisicamente controllato, che da un’API remota presso un datacenter in Virginia o in Irlanda.

Il Polo Strategico Nazionale, la Strategia Cloud Italia, la qualificazione ACN attraverso gli standard AI3 e QC3 vanno nella direzione giusta: garantire che l’infrastruttura cloud della PA sia certificata, sicura, conforme. Ma non basta. Per molti use case — a cominciare dalla modernizzazione del legacy — il cloud, anche sovrano, non è la risposta. La risposta è l’edge e l’on-premise.

Come emerge dalla ricerca dell’Osservatorio Cloud Transformation del PoliMI (ottobre 2025), “la sovranità non è un principio teorico, ma un requisito operativo per imprese e Pubblica Amministrazione”: significa garantire che i dati critici restino sotto giurisdizione nazionale o europea, che gli accessi siano tracciati e governabili, e che le infrastrutture rispettino standard verificabili di sicurezza.

Un’agenda in cinque punti per l’AI “taglia media”

Se l’analisi fin qui è corretta, la conseguenza pratica è un’agenda di ricerca e politica industriale precisa. Non si tratta di rinunciare all’ambizione dell’AI, ma di costruire un ecosistema di strumenti, competenze e infrastrutture adatto alla realtà della maggioranza delle organizzazioni italiane ed europee.

Proponiamo cinque direzioni prioritarie.

5.1 Sviluppo di SLM specializzati per domini italiani

I modelli generalisti americani sono stati addestrati su corpus prevalentemente in lingua inglese, con scarsa rappresentazione di testi legali, amministrativi e tecnici italiani. La ricerca pubblica e privata dovrebbe investire nella costruzione di modelli base specializzati per dominio — PA, legal-tech, fintech, manifatturiero — con dati curati e fine-tuning mirato. Tante Università italiane hanno le competenze; mancano i finanziamenti strutturali e la governance dei dati.

5.2 Standard hardware minimi certificati per deployment on-premise

Un’organizzazione non dovrebbe essere costretta a comprare un’infrastruttura da 40.000 euro per far girare un modello da 7 miliardi di parametri quantizzato. La comunità tecnica dovrebbe produrre specifiche certificate di hardware minimo compatibile, analogamente a quanto si fa per i requisiti di sicurezza informatica. GPU consumer con 16-24 GB di VRAM, già presenti in molti laboratori e uffici, sono sufficienti per casi d’uso reali.

5.3 Framework di procurement pubblico AI-ready

Le Linee Guida AgID vanno nella direzione giusta, ma il procurement pubblico ha ancora bisogno di clausole standard che rendano le gare contendibili da PMI e startup, che impongano la portabilità dei dati e dei modelli, e che vietino il lock-in su architetture proprietarie non auditabili. Come osserva l’analisi di Matricedigitale (aprile 2026), “senza PMI, startup innovative e filiera locale, la sovranità resta una parola vuota.”

5.4 Programma nazionale di modernizzazione del legacy con AI on-premise

Il debito tecnico della PA italiana si misura in decenni e in miliardi di euro di costi nascosti. Un programma nazionale — simile al Technology Modernization Fund americano che ha stanziato 18,3 milioni di dollari solo per l’OPM — dovrebbe finanziare progetti pilota di modernizzazione COBOL e Java legacy con strumenti AI che girano interamente on-premise, con trasferimento di competenze agli enti e ownership del codice prodotto in mano pubblica.

5.5 Agenda di ricerca su architetture transformer edge-native

La frontiera tecnica più interessante non è il modello da trilioni di parametri, ma il modello da 1-3 miliardi che sa fare una cosa sola eccezionalmente bene, in meno di un secondo, su una GPU embedded. Il paradigma MoE, combinato con tecniche di distillazione e quantizzazione adattiva, apre scenari di AI embeddable nei sistemi di controllo industriale, nei dispositivi medici, nei kiosk della PA, nei sistemi di trading delle banche cooperative. Questa è la frontiera su cui investire.

Il nodo politico: chi vuole davvero che l’AI si diffonda?

C’è una domanda scomoda che occorre affrontare. Il modello di business degli hyperscaler si regge sulla centralizzazione del compute e sulla dipendenza delle organizzazioni dalle loro API. Ogni organizzazione che impara a fare AI on-premise con un modello open source fine-tunato è un cliente che non compra crediti API. L’interesse economico dei grandi player cloud è strutturalmente in conflitto con la diffusione capillare dell’AI nelle PMI e nella PA.

Questo non è un argomento contro il cloud. Il cloud ha un ruolo fondamentale per casi d’uso specifici — addestramento iniziale di modelli, inferenza su richieste ad alto volume, applicazioni che richiedono scalabilità. Ma la narrazione secondo cui “l’AI richiede necessariamente il cloud” è prevalentemente un argomento commerciale.

L’Europa — e l’Italia in particolare, con il suo tessuto di PMI manifatturiere, di cooperative, di enti pubblici capillari — ha tutto l’interesse a costruire un’infrastruttura AI che non sia dipendente da poche aziende americane. Non per nazionalismo tecnologico, ma per resilienza economica, sovranità istituzionale e competitività industriale.

Pensare in piccolo non è una resa. È una strategia.

L’intelligenza artificiale diventerà infrastruttura — come l’elettricità, come Internet — solo quando potrà funzionare ovunque, senza richiedere connessione a datacenter remoti, senza trasferire dati sensibili fuori dal perimetro organizzativo, senza richiedere budget troppo elevati.

Il percorso tecnico è tracciato: architetture transformer compatte, fine-tuning su dati di dominio, quantizzazione, MoE, RAG locale. I modelli esistono già oggi e funzionano su hardware più modesto. Quello che manca è un ecosistema italiano ed europeo che li adotti, li specializzi, li certifichi e li distribuisca su scala.

Le prossime linee di ricerca dovrebbero concentrarsi non sul modello più grande, ma sul modello più utile: quello che un ufficio contabilità di 10 persone può mettere in produzione in poco tempo sul proprio problema, che una PA può usare per leggere i propri atti senza mai uscire dai propri server, che una banca cooperativa può impiegare per fare reverse engineering del proprio gestionale COBOL senza mostrarlo a nessuno.

L’AI del futuro non sarà quella che sa tutto. Sarà quella che sa entrare ovunque.

Riferimenti web (2024–2026)

Osservatorio Cloud Transformation, Politecnico di Milano School of Management, “L’Intelligenza Artificiale e la sovranità digitale spingono il mercato Cloud italiano a 8,13 miliardi di euro”, ottobre 2025. https://www.osservatori.net/comunicato/cloud-ecosystem-sovereignty/cloud-italia-mercato/
Matricedigitale, “IA nella PA: le Linee Guida AgID tra rischio lock-in, sovranità digitale e il ruolo (dimenticato?) delle PMI”, aprile 2026. https://www.matricedigitale.it/2026/04/13/linee-guida-agid-ia-pubblica-amministrazione-sovranita-digitale-pmi/
Appinventiv, “Why Small Language Models are the Future of Enterprise AI”, febbraio 2026. https://appinventiv.com/blog/small-language-models-in-enterprise-ai/
Prabhakar A., “Small Language Models (SLM): The Reshaping of Enterprise AI”, novembre 2025. https://ajithp.com/2025/05/26/small-language-models-slm/
dplooy, “Small Language Models Guide: The Efficient AI Revolution”, 2025. https://www.dplooy.com/blog/small-language-models-the-efficient-ai-revolution
AIdeaSolutions, “Small Language Models (SLM) Enterprise AI 2025”, giugno 2025. https://www.aideasolutions.net/blog/blogs-2/small-language-models-slm-enterprise-ai-2025-43
GitHub Blog, “How GitHub Copilot and AI agents are saving legacy systems”, ottobre 2025. https://github.blog/ai-and-ml/github-copilot/how-github-copilot-and-ai-agents-are-saving-legacy-systems/
Nextgov/FCW, “Legacy government systems enter the AI era”, maggio 2025. https://www.nextgov.com/ideas/2025/05/legacy-government-systems-enter-ai-era/405642/
Federal News Network, “TMF award to help OPM modernize COBOL code via AI”, dicembre 2024. https://federalnewsnetwork.com/it-modernization/2024/12/tmf-award-to-help-opm-modernize-cobol-code-via-ai/
GovTech, “New AI Tool Aims to Help Agencies With COBOL Problems”, febbraio 2026. https://www.govtech.com/biz/new-ai-tools-aims-to-help-agencies-with-cobol-problems
Agenda Digitale, “Legge 132/2025 e uso dell’AI nella Pubblica Amministrazione: la guida”, 2026. https://www.agendadigitale.eu/cittadinanza-digitale/legge-132-2025-e-uso-dellai-nella-nella-pubblica-amministrazione-la-guida/
Gartner, “Explore Small Language Models for Specific AI Scenarios”, agosto 2024. (Citato in Computer Weekly: https://www.computerweekly.com/feature/The-role-of-small-language-models-in-enterprise-AI)

Riferimenti scientifici

Bandarupalli G., “Code Reborn: AI-Driven Legacy Systems Modernization from COBOL to Java”, arXiv:2504.11335, aprile 2025. https://arxiv.org/abs/2504.11335
Pierluigi Cau, “Human–AI Collaboration in the Modernization of COBOL-Based Legacy Systems: The Case of the Department of Government Efficiency (DOGE)”, MDPI Computers, vol. 14, n. 7, articolo 244, giugno 2025. https://www.mdpi.com/2073-431X/14/7/244
Hu E.J. et al., “LoRA: Low-Rank Adaptation of Large Language Models”, arXiv:2106.09685, ICLR 2022. (Fondamento teorico del fine-tuning efficiente su hardware limitato)
Dettmers T. et al., “QLoRA: Efficient Finetuning of Quantized LLMs”, NeurIPS 2023. (Tecnica che rende possibile il fine-tuning di modelli da 7-13B su GPU consumer)
Jiang A.Q. et al., “Mixtral of Experts”, arXiv:2401.04088, Mistral AI, gennaio 2024. (Riferimento per le architetture MoE a basso costo di inferenza)
Abdin M. et al. (Microsoft Research), “Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone”, arXiv:2404.14219, aprile 2024. (Dimostra che SLM da 3.8B parametri raggiungono qualità comparabile a GPT-3.5 su benchmark standard)
Stanford HAI, “AI Index Report 2025”, Stanford University, 2025. (Dati sul calo dei costi di inferenza e sull’evoluzione del mercato)

@RIPRODUZIONE RISERVATA

Francesca De Luzi

Sapienza Università di Roma

Seguimi su

Francesco Leotta

Sapienza, Università di Roma

Seguimi su

Massimo Mecella

Sapienza Università di Roma, Dipartimento di Ingegneria Informatica Automatica e Gestionale Antonio Ruberti

Seguimi su

Flavia Monti

Sapienza, Università di Roma

Partecipa alla community

0 Commenti

Più recenti

Più votati

Inline Feedback

Vedi tutti i commenti

Argomenti

Canali

Industria 5.0/Innovazione in azienda

Gli SLM portano l’AI dove il cloud non può arrivare