scenari

Calcolo quantistico senza hardware quantistico: la via italiana delle GPU

Un emulatore quantum-inspired sviluppato in Italia riproduce circuiti quantistici ideali su GPU: fino a 30 qubit su singola GPU e oltre 50 qubit su cluster multi-GPU. Architettura, ottimizzazioni e benchmark mostrano prestazioni promettenti, con un focus su consumi, scalabilità e sovranità tecnologica

Pubblicato il 20 gen 2026

Marco Armoni

Studio Armoni & Associati – Dipartimento R&D in AI e Scienze Computazionali

quantum computing europa; Alla scoperta del quantum tricolore: l'Italia può attrarre investimenti; appalti 2026 emulazione del calcolo quantistico su GPU

L’emulazione del calcolo quantistico su architetture GPU si sta imponendo come una delle strategie più promettenti per sfruttare i vantaggi degli algoritmi quantistici senza dipendere da hardware ancora immaturo.

Presentiamo, di seguito, un approccio quantum-inspired sviluppato in Italia, capace di emulare circuiti quantistici fino a 30 qubit su singola GPU e oltre 50 qubit su cluster multi-GPU. Dopo un’introduzione ai fondamenti del calcolo quantistico, analizziamo l’architettura del sistema, i risultati sperimentali e le prospettive di scalabilità, con particolare attenzione agli aspetti di sostenibilità energetica e sovranità tecnologica.

Quantum computing, svolta vicina: ecco tutti i progressi da monitorare

Indice degli argomenti

Perché parliamo di calcolo quantistico

I computer che utilizziamo quotidianamente — dai laptop agli smartphone ai supercomputer — funzionano tutti secondo gli stessi principi fondamentali, definiti negli anni ’40 dall’architettura di Von Neumann. Elaborano informazioni rappresentate come sequenze di bit, ciascuno dei quali può assumere valore 0 oppure 1. Ogni operazione avviene in modo sequenziale: anche quando parliamo di processori multi-core o di calcolo parallelo, alla base c’è sempre l’elaborazione di bit uno alla volta, uno dopo l’altro.

Questo approccio ha funzionato egregiamente per decenni, ma sta incontrando limiti fisici fondamentali. La miniaturizzazione dei transistor si avvicina alla scala atomica, dove le leggi della fisica classica cedono il passo alla meccanica quantistica. Contemporaneamente, la crescita esponenziale dei dati — alimentata da AI, IoT, genomica, simulazioni scientifiche — richiede capacità di calcolo che crescono più velocemente di quanto l’hardware tradizionale possa offrire.

La promessa del calcolo quantistico

Il calcolo quantistico propone un paradigma radicalmente diverso, che sfrutta le proprietà controintuitive della meccanica quantistica per elaborare informazioni in modi impossibili per i computer classici.

Invece dei bit, i computer quantistici utilizzano i qubit (quantum bit). La differenza fondamentale è che mentre un bit classico è sempre 0 oppure 1, un qubit può trovarsi in superposizione: uno stato che è, in un certo senso, 0 e 1 contemporaneamente. Solo quando viene “misurato”, il qubit “collassa” in uno dei due valori definiti.

Questa proprietà, combinata con l’entanglement (una correlazione quantistica tra qubit che non ha equivalenti classici), permette ai computer quantistici di esplorare simultaneamente un numero enorme di possibilità. Per certi tipi di problemi — crittografia, ottimizzazione, simulazione di molecole — questo si traduce in vantaggi potenzialmente esponenziali.

Il gap tra teoria e realtà

Sulla carta, il calcolo quantistico è rivoluzionario. In pratica, siamo ancora lontani da macchine realmente utilizzabili.

I computer quantistici attuali — sviluppati da IBM, Google, IonQ e altri — appartengono alla categoria NISQ (Noisy Intermediate-Scale Quantum): hanno un numero limitato di qubit, sono estremamente sensibili al rumore e alle interferenze, e possono eseguire solo circuiti relativamente brevi prima che gli errori si accumulino e invalidino il risultato.

Per fare un esempio concreto: IBM ha annunciato processori con oltre 1000 qubit fisici, ma il numero di qubit logici effettivamente utilizzabili per calcoli affidabili è molto inferiore — nell’ordine di poche unità. La differenza è dovuta alla necessità di dedicare molti qubit fisici alla correzione degli errori, lasciandone pochi per il calcolo vero e proprio.

Questo crea un dilemma: gli algoritmi quantistici più interessanti richiedono decine o centinaia di qubit logici stabili, ma l’hardware attuale non può fornirli. Come si colma questo gap?

L’emulazione quantistica: un ponte tecnologico

Prima di procedere, è importante chiarire una distinzione terminologica.

Emulare vs simulare

Un simulatore quantistico cerca di riprodurre la fisica del sistema: modella il comportamento reale dei qubit, includendo rumore, errori, decoerenza (la perdita progressiva delle proprietà quantistiche). È uno strumento per studiare l’hardware quantistico stesso.

Un emulatore quantistico ha un obiettivo diverso: replica i risultati computazionali che un computer quantistico ideale produrrebbe, senza preoccuparsi delle imperfezioni fisiche. Calcola esattamente le trasformazioni matematiche definite dagli algoritmi quantistici, producendo risultati deterministici e riproducibili.

L’approccio presentato in questo articolo è un emulatore: non simula la fisica dei qubit superconduttori, ma calcola esattamente l’evoluzione dello stato quantistico sotto l’azione dei gate (le operazioni elementari) del circuito.

Come funziona l’emulazione

Il cuore dell’emulazione quantistica è un fatto matematico: lo stato di un sistema a n qubit può essere descritto da un vettore di numeri complessi di dimensione 2^n.

Facciamo un esempio. Un singolo qubit ha 2 possibili stati base: |0⟩ e |1⟩. Il suo stato generico è una combinazione di questi due, descritta da 2 numeri complessi (le “ampiezze”).

Due qubit hanno 4 stati base: |00⟩, |01⟩, |10⟩, |11⟩. Servono 4 numeri complessi.

Tre qubit: 8 stati base, 8 numeri complessi.

Il pattern è chiaro: n qubit richiedono 2^n numeri complessi. Questa crescita esponenziale è sia la fonte del potere del calcolo quantistico (esplorare 2^n possibilità simultaneamente) sia il limite dell’emulazione classica (dover memorizzare e manipolare 2^n numeri).

Le operazioni quantistiche (i “gate”) sono trasformazioni matematiche su questo vettore — tecnicamente, moltiplicazioni per matrici unitarie. Un computer classico può eseguire queste moltiplicazioni, purché abbia abbastanza memoria e potenza di calcolo.

Il ruolo delle GPU

Qui entrano in gioco le GPU (Graphics Processing Unit), le schede grafiche originariamente progettate per i videogiochi.

Le GPU sono progettate per eseguire la stessa operazione su migliaia di dati contemporaneamente — esattamente ciò che serve per rendering grafico, dove ogni pixel dello schermo deve essere calcolato in parallelo. Questa architettura massivamente parallela si adatta perfettamente all’emulazione quantistica, dove ogni operazione su un gate richiede l’aggiornamento simultaneo di milioni o miliardi di ampiezze.

Mentre una CPU moderna ha 8-16 core che possono eseguire operazioni indipendenti, una GPU ha migliaia di unità di calcolo più semplici. Per operazioni altamente parallelizzabili come quelle dell’emulazione quantistica, una GPU può essere 10-100 volte più veloce di una CPU.

Il Quantum GPU Emulator: architettura e implementazione

L’emulatore rappresenta lo stato di n qubit come un array di 2^n numeri complessi, ciascuno composto da una parte reale e una parte immaginaria.

Rappresentazione dello stato quantistico

L’implementazione utilizza principalmente double precision (64 bit per componente, 128 bit totali per numero complesso), con supporto opzionale per single precision quando la memoria è limitata.

La memoria richiesta cresce rapidamente:

Qubit	Numero di ampiezze	Memoria richiesta
20	~1 milione	16 MB
25	~34 milioni	512 MB
30	~1 miliardo	16 GB
35	~34 miliardi	512 GB
40	~1 trilione	16 TB

Questa tabella illustra perché l’emulazione classica ha limiti intrinseci: oltre i 40-50 qubit, la memoria richiesta supera qualsiasi hardware disponibile.

Implementazione dei gate quantistici

I gate quantistici sono le operazioni elementari che trasformano lo stato dei qubit. Sono l’equivalente quantistico delle porte logiche (AND, OR, NOT) dei circuiti classici.

L’emulatore implementa i gate più comuni:

Gate a singolo qubit (agisce su un qubit alla volta):

Hadamard (H): crea superposizione, trasformando |0⟩ in una combinazione equilibrata di |0⟩ e |1⟩
Pauli X, Y, Z: rotazioni dello stato del qubit attorno ai tre assi
Gate di fase (S, T): modificano la fase relativa tra le componenti dello stato
Rotazioni (Rx, Ry, Rz): rotazioni di angolo arbitrario

Gate a due qubit:

CNOT (Controlled-NOT): inverte il secondo qubit solo se il primo è |1⟩. È il gate fondamentale per creare entanglement
CZ (Controlled-Z): applica una fase condizionale
SWAP: scambia lo stato di due qubit

L’applicazione di un gate single-qubit richiede l’aggiornamento di tutte le 2^n ampiezze, ma le operazioni sono parallelizzabili: coppie di ampiezze possono essere aggiornate indipendentemente, rendendo l’operazione ideale per l’esecuzione su GPU.

Stack tecnologico

Il prototipo utilizza:

OpenCL 1.2 come framework di calcolo parallelo. OpenCL è uno standard aperto supportato da Intel, AMD e NVIDIA, garantendo portabilità tra diversi vendor di GPU
Kernel in OpenCL C per le operazioni sui gate, ottimizzati per massimizzare il parallelismo
Codice host in C++ per orchestrazione, gestione memoria e I/O

La scelta di OpenCL rispetto a CUDA (proprietario NVIDIA) garantisce indipendenza dal vendor, aspetto rilevante per deployment su infrastrutture eterogenee o per evitare lock-in tecnologico.

Il prototipo: hardware e ottimizzazioni

Configurazione hardware

Un aspetto notevole del progetto è la scelta di sviluppare il prototipo su hardware consumer-grade, per dimostrare che l’approccio è viable anche senza risorse HPC dedicate:

CPU: Intel Core i3-10100 (4 core, 8 thread, 3.6–4.3 GHz)
GPU: Intel UHD Graphics 630 — una scheda grafica integrata nel processore, non una GPU dedicata
Compute Units: 24 Execution Units
Memoria GPU: 128–512 MB (allocazione dinamica dalla RAM di sistema)
RAM: 16 GB DDR4
Sistema operativo: Windows 10 con driver OpenCL Intel

Questa è una configurazione che si trova in un normale PC da ufficio, con un costo hardware nell’ordine delle centinaia di euro. Eppure è sufficiente per emulare circuiti quantistici significativi.

Strategie di ottimizzazione

Per ottenere prestazioni competitive su hardware limitato, il team ha implementato diverse ottimizzazioni:

Slicing dinamico: Quando il vettore di stato eccede la memoria GPU, viene partizionato in “fette” elaborate sequenzialmente. Ogni slice è dimensionato per massimizzare l’utilizzo della GPU senza causare swap su disco.
Accessi memory-coalesced: I kernel GPU sono strutturati per garantire che thread adiacenti accedano a locazioni di memoria adiacenti, massimizzando la bandwidth effettiva verso la memoria.
Kernel specializzati: I gate più frequenti (Hadamard, CNOT) hanno implementazioni dedicate ottimizzate, mentre un kernel generico gestisce gate arbitrari tramite moltiplicazione matriciale.
Riutilizzo buffer: I buffer GPU vengono allocati una sola volta e riutilizzati per l’intero circuito, evitando overhead di allocazione/deallocazione.

Risultati sperimentali

Performance su Singola GPU Integrata

I benchmark mostrano i tempi di esecuzione per singolo gate sulla configurazione prototipo:

Qubit	Ampiezze da calcolare	Gate Hadamard	Gate CNOT
20	1.048.576	0.9 ms	1.4 ms
24	16.7 milioni	4.5 ms	7.2 ms
26	67 milioni	13 ms	21 ms
28	268 milioni	41 ms	65 ms
30	1.07 miliardi	~130 ms	~210 ms

Alcuni punti notevoli:

A 20 qubit, un gate viene eseguito in meno di 2 millisecondi — essenzialmente istantaneo per applicazioni pratiche
Fino a 26 qubit, la crescita è quasi lineare: la GPU è in regime compute-bound, limitata dalla velocità di calcolo
Oltre 26 qubit, la crescita accelera: la GPU passa in regime memory-bound, limitata dalla velocità di accesso alla memoria

Il limite pratico su questa configurazione è circa 28-30 qubit, dove i tempi rimangono nell’ordine di centinaia di millisecondi per gate.

Cosa significano questi numeri

Per contestualizzare: un algoritmo quantistico tipico potrebbe richiedere centinaia o migliaia di gate. A 28 qubit con ~50 ms per gate, un circuito di 1000 gate richiederebbe circa 50 secondi — un tempo accettabile per molte applicazioni di sviluppo e test.

È importante notare che stiamo parlando di una GPU integrata con meno di 1 GB di memoria. Una GPU dedicata di fascia alta (es. NVIDIA A100 con 80 GB di memoria) potrebbe raggiungere 35-40 qubit su singolo dispositivo.

Scalabilità: dal singolo chip al cluster

Oltre i 40 qubit, la dimensione dello stato quantistico supera i limiti di qualsiasi singola GPU:

Qubit	Ampiezze	Memoria richiesta
40	~1 trilione	16 TB
50	~1 quadrilione	16 PB
60	~1 quintilione	16 EB

Per superare questo limite, l’unica strada è la distribuzione: partizionare lo stato quantistico su multiple GPU che lavorano in parallelo.

Architettura multi-GPU

Con k GPU, ogni unità gestisce 2^n / k ampiezze. Il design prevede:

Comunicazione inter-GPU:

PCIe 4.0/5.0 per configurazioni single-node (4-10 GPU nella stessa macchina)
NVLink per cluster NVIDIA ad alta bandwidth
InfiniBand per configurazioni multi-node (GPU distribuite su più server)

Gestione dei gate distribuiti: I gate che agiscono su qubit “locali” a una singola GPU possono essere eseguiti senza comunicazione. I gate che attraversano i confini delle partizioni richiedono scambio di dati tra GPU, introducendo overhead di comunicazione.

Proiezioni: 100 GPU in parallelo

Assumendo scaling lineare (ogni GPU contribuisce proporzionalmente), le proiezioni per un cluster da 100 GPU sono:

Qubit	Hadamard (1 GPU)	Hadamard (100 GPU)	CNOT (1 GPU)	CNOT (100 GPU)
30	130 ms	1.3 ms	210 ms	2.1 ms
40	~42 secondi	~420 ms	~67 secondi	~670 ms
50	~3.7 ore	~2.2 minuti	~6 ore	~3.6 minuti
60	~50 giorni	~12 ore	~80 giorni	~19 ore

Il salto è significativo:

Fino a 40 qubit: tempi nell’ordine dei millisecondi, essenzialmente istantanei
A 50 qubit: da ore a minuti — la differenza tra impraticabile e utilizzabile
A 60 qubit: da mesi a ore — computazioni prima impossibili diventano fattibili

Limiti dello scaling

Lo scaling lineare perfetto è un’approssimazione ottimistica. Fattori che riducono l’efficienza reale:

Overhead di comunicazione: scambio dati tra GPU per gate distribuiti
Latenza di sincronizzazione: coordinamento tra dispositivi
Legge di Amdahl: porzioni seriali del codice che non beneficiano del parallelismo

Studi su sistemi analoghi riportano efficienze del 70-90% per cluster fino a 32 GPU, con degradazione per configurazioni più ampie. Ciò significa che 100 GPU potrebbero offrire uno speedup effettivo di 70-80x anziché 100x — comunque trasformativo.

Confronto con l’hardware quantistico reale

Il punto sui qubit logici merita enfasi: nonostante gli annunci di processori con centinaia o migliaia di qubit fisici, il numero di qubit logici effettivamente utilizzabili per calcoli affidabili sui sistemi NISQ attuali è estremamente limitato. L’emulatore, operando su matematica ideale senza rumore, può gestire circuiti a 30-50 qubit che nessun hardware reale può eseguire stabilmente oggi.

Vantaggi dell’emulatore

Caratteristica	Computer Quantistico Reale	GPU Emulator
Rumore	Alto (errori frequenti)	Nessuno (calcolo esatto)
Stabilità	Bassa (decoerenza)	Altissima
Ripetibilità	Stocastica (risultati variabili)	Deterministica (sempre identici)
Costo di accesso	Elevato (cloud a pagamento)	Contenuto (hardware commodity)
Disponibilità	Limitata (prenotazione)	Immediata
Qubit logici effettivi	< 10	30-50+

Limiti dell’emulatore

L’emulazione ha limiti intrinseci che è importante riconoscere:

Scaling esponenziale: la memoria cresce come 2^n, ponendo limiti fisici invalicabili oltre 60-70 qubit
Nessun vantaggio quantistico reale: l’emulatore calcola esattamente ciò che farebbe un QC, ma non più velocemente — non c’è speedup esponenziale
Non adatto a tutti gli algoritmi: algoritmi che richiedono vera casualità quantistica o interazione con sistemi quantistici reali non sono emulabili

L’emulatore è uno strumento di sviluppo e preparazione, non un sostituto del quantum computing maturo.

Confronto energetico

Il consumo energetico è un differenziatore significativo spesso trascurato.

Un computer quantistico reale richiede criogenia continua per mantenere i qubit a temperature di 10-15 millikelvin (vicino allo zero assoluto). Questo comporta un consumo di 20-40 kW costante, indipendentemente dal fatto che si stia calcolando o meno.

L’emulatore GPU consuma energia proporzionalmente al tempo di calcolo. Un cluster da 100 GPU a pieno carico consuma circa 40 kW, ma solo durante l’elaborazione effettiva.

Qubit	Emulatore 100 GPU	QC Reale (criogenia)	Rapporto
30	~0 kWh	~40 kWh	1 : 40.000
40	~0.01 kWh	~40 kWh	1 : 4.000.000
50	~2 kWh	~40 kWh	1 : 20
60	~900 kWh	~40 kWh	22 : 1

L’emulatore è energeticamente vantaggioso fino a circa 55 qubit. Oltre questa soglia, se esistesse hardware quantistico stabile a quella scala, sarebbe più efficiente — ma tale hardware non esiste ancora.

Applicazioni pratiche: sviluppo e validazione di algoritmi

L’applicazione più immediata è lo sviluppo di software quantistico. Oggi, chi vuole scrivere algoritmi per computer quantistici deve:

Scrivere il codice
Sottometterlo a una piattaforma cloud (IBM Quantum, Amazon Braket, etc.)
Attendere in coda per l’esecuzione
Ricevere risultati rumorosi e stocastici
Cercare di capire se i bug sono nel codice o nel rumore hardware

Con l’emulatore, lo sviluppatore può iterare localmente, con feedback immediato e risultati deterministici. I bug del codice vengono isolati dal rumore hardware, accelerando drasticamente il ciclo di sviluppo.

Cybersecurity post-quantum

Una delle minacce più discusse del quantum computing è la capacità di violare i sistemi crittografici attuali. L’algoritmo di Shor, eseguito su un QC sufficientemente potente, potrebbe rompere RSA e altri sistemi a chiave pubblica.

Anche se tale QC non esiste ancora, organizzazioni responsabili stanno già lavorando alla crittografia post-quantum: algoritmi resistenti anche ad attacchi quantistici. L’emulatore permette di:

Testare implementazioni di algoritmi post-quantum
Simulare attacchi quantistici per verificare la resistenza
Formare personale sulle nuove tecniche

Machine learning ibrido

Un’area di ricerca attiva è l’integrazione di componenti quantistici nei modelli di machine learning:

Variational Quantum Eigensolver (VQE): ottimizzazione variazionale per chimica computazionale
Quantum Approximate Optimization Algorithm (QAOA): ottimizzazione combinatoria
Quantum Neural Networks: reti neurali con layer quantistici

L’emulatore permette di sviluppare e testare questi modelli ibridi senza accesso a hardware quantistico reale, accelerando la ricerca.

Formazione e ricerca

Come si formano i “quantum developers” del futuro se l’hardware è scarso e costoso?

L’emulatore democratizza l’accesso, permettendo a università, scuole e aziende di:

Offrire laboratori pratici di programmazione quantistica
Eseguire esperimenti didattici senza costi cloud
Costruire competenze in modo distribuito sul territorio

Implicazioni strategiche: sovranità tecnologica

Oggi, chi vuole sperimentare con il calcolo quantistico in Italia ha essenzialmente tre opzioni:

IBM Quantum: piattaforma americana, dati su cloud USA
Amazon Braket: piattaforma americana, dati su cloud USA
Azure Quantum: piattaforma americana, dati su cloud USA

Questa dipendenza comporta rischi:

I dati sensibili (algoritmi, dataset) transitano su infrastrutture straniere
L’accesso può essere limitato o revocato unilateralmente
Le competenze chiave rimangono fuori dal paese
I costi sono dettati da provider esteri

Un’alternativa nazionale

Il Quantum GPU Emulator rappresenta una alternativa sovrana:

Sviluppato in Italia con competenze italiane
Deployabile su infrastruttura nazionale (data center italiani, cloud italiano)
Sotto giurisdizione italiana ed europea
Costi controllabili e predicibili

Non si tratta di nazionalismo tecnologico, ma di pragmatismo strategico. In settori critici come cybersecurity, difesa, finanza, infrastrutture critiche, avere capacità proprie non è opzionale.

Verso un centro nazionale di emulazione quantistica

La visione di lungo termine include:

Hub nazionale: infrastruttura condivisa accessibile a imprese, PA, università
Filiera tecnologica: sviluppo di competenze e industria nazionale
Standard e interoperabilità: allineamento con ecosistemi europei e internazionali
Formazione distribuita: programmi di upskilling su scala nazionale

Conclusioni e sviluppi futuri

Il progetto dimostra che:

L’emulazione quantistica su GPU è praticabile anche con hardware modesto
30 qubit sono raggiungibili su singola GPU integrata
50+ qubit sono raggiungibili su cluster multi-GPU
I costi energetici sono sostenibili fino alla soglia dei 55 qubit
L’approccio è immediatamente deployabile senza attendere hardware quantistico maturo

Roadmap di sviluppo

I prossimi passi includono:

Breve termine (6-12 mesi):

Porting a CUDA per ottimizzazioni NVIDIA-specifiche
Sviluppo di API Python compatibili con Qiskit e Cirq
Benchmark comparativi con cuQuantum di NVIDIA

Medio termine (12-24 mesi):

Implementazione di noise models opzionali per simulazione NISQ
Deploy su cloud nazionale pilota
Integrazione con piattaforme di formazione universitaria

Lungo termine (24-36 mesi):

Centro nazionale di emulazione quantistica
Federazione con iniziative europee
Supporto a applicazioni industriali verticali

Considerazioni finali

L’emulazione quantistica non sostituisce il calcolo quantistico reale. Quando l’hardware maturerà — centinaia di qubit logici stabili, correzione d’errore efficace, algoritmi ottimizzati — offrirà capacità che nessuna emulazione potrà replicare.

Ma quel momento non è oggi, e potrebbe non essere domani. Nel frattempo, l’emulatore offre un percorso concreto per: