l'evoluzione

AI on-device: l’intelligenza artificiale alla conquista dei dispositivi mobili

Qualcomm spinge sull’AI on-device, promuovendo dispositivi che operano senza cloud. L’innovativo Snapdragon X Elite e le collaborazioni con aziende come Samsung stanno trasformando l’efficienza energetica e l’autonomia dei dispositivi mobili, ridefinendo il computing personale

Pubblicato il 11 mar 2025

Aggiungi tra i preferiti su Google

Giovanni Masi

Computer Science Engineer

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

Negli ultimi anni, l’intelligenza artificiale (AI) ha fatto passi da gigante, trasformando profondamente il settore tecnologico. Non si tratta più solo di chatbot o assistenti virtuali, ma di un’integrazione profonda nei dispositivi portatili che usiamo ogni giorno.

Ai-pin: i rischi privacy dei wearable con intelligenza artificiale

Indice degli argomenti

L‘evoluzione dell’intelligenza artificiale on-device

Un settore chiave di questa rivoluzione è l’AI on-device, ovvero la capacità dei dispositivi di eseguire calcoli e processare modelli AI senza dipendere dal cloud. Qualcomm, Apple e AMD stanno investendo nell’AI on-device per migliorare l’autonomia e l’efficienza dei dispositivi, riducendo la necessità di connessione al cloud. Anche Samsung, Dell, Lenovo e MSI stanno seguendo questa direzione, sviluppando soluzioni AI sempre più integrate nei loro dispositivi.

Qualcomm e la strategia per l’AI nei dispositivi personali

Qualcomm sta investendo nello spostamento dell’inferenza AI sui dispositivi personali, una strategia condivisa anche da altre aziende del settore. Questo approccio permette di eseguire operazioni avanzate come generazione di testi, elaborazione di immagini e assistenza vocale direttamente sui dispositivi, riducendo la dipendenza dal cloud. Tuttavia, la sfida principale resta quella di bilanciare le prestazioni con il consumo energetico e la capacità di aggiornare i modelli AI in locale.

Un esempio recente della strategia Qualcomm è l’annuncio dell’ALLaM AI PC, un notebook sviluppato in collaborazione con la Saudi Data and Artificial Intelligence Authority (SDAIA).

Snapdragon X Elite: il processore che apre le porte all’IA portatile

Questo dispositivo integra il modello linguistico nazionale saudita con la piattaforma Snapdragon X Elite, offrendo una potenza computazionale avanzata per l’intelligenza artificiale direttamente sul dispositivo. Questo è un passo avanti significativo verso l’autonomia digitale e la sovranità tecnologica per i Paesi che vogliono avere modelli AI personalizzati e gestiti localmente.

Inoltre, Qualcomm ha annunciato l’introduzione della tecnologia Oryon nei suoi chipset per smartphone. Oryon è stato inizialmente sviluppato per i processori di laptop, ma Qualcomm sta ora adattando questa tecnologia per dispositivi mobili, con l’obiettivo di potenziare le capacità di AI generativa senza la necessità di connessione al cloud.

Snapdragon X Elite e la rivoluzione hardware per l’AI

Snapdragon X Elite è il processore di punta di Qualcomm per l’AI on-device, posizionato come concorrente diretto di Apple M3 e AMD Ryzen AI. Con una potenza fino a 45 TOPS, supera il Neural Engine di Apple M3 (18 TOPS), ma l’effettiva efficienza rispetto ai competitor dipenderà dai test reali. Grazie alla sua architettura ottimizzata, supporta il riconoscimento vocale, la generazione di immagini e gli assistenti intelligenti, riducendo la necessità di elaborazione nel cloud.

Snapdragon X Elite è solo uno degli elementi della strategia di Qualcomm per l’AI on-device. Per massimizzarne il potenziale, l’azienda sta costruendo un ecosistema completo, integrando strumenti come il Qualcomm AI Hub, una piattaforma che permette agli sviluppatori di accedere a strumenti avanzati per ottimizzare l’implementazione dell’AI su dispositivi portatili. Questo aiuta le aziende a ridurre i tempi di sviluppo e migliorare le prestazioni dei loro prodotti basati sull’AI.

Tecniche di compressione per l’ottimizzazione dell’AI su dispositivi mobili

Per rendere i modelli AI efficienti e compatibili con i dispositivi portatili, vengono adottate diverse tecniche di compressione e ottimizzazione:

Pruning (Potatura): una tecnica di ottimizzazione delle reti neurali che consiste nella rimozione selettiva di pesi e connessioni non essenziali, riducendo la complessità computazionale senza compromettere in modo significativo l’accuratezza del modello. Esistono diverse varianti di pruning, tra cui il pruning strutturale, che rimuove interi neuroni o filtri convoluzionali, e il pruning non strutturale, che elimina singoli pesi meno rilevanti. Questa tecnica consente di migliorare la velocità di inferenza e ridurre il consumo energetico, rendendo i modelli più efficienti per l’esecuzione su dispositivi con risorse limitate, come smartphone e dispositivi embedded. Aziende come NVIDIA e Google hanno implementato il pruning nei loro framework di deep learning per ottimizzare i modelli AI destinati a scenari edge e mobile.
Quantizzazione: una tecnica di ottimizzazione che riduce la precisione numerica dei pesi e delle attivazioni di una rete neurale, passando da rappresentazioni a 32-bit a formati a 16-bit, 8-bit o addirittura più bassi, come il 4-bit. Questa riduzione consente di diminuire significativamente l’uso di memoria e accelerare i tempi di inferenza, rendendo i modelli AI più efficienti e adatti ai dispositivi mobili. Esistono diverse strategie di quantizzazione, tra cui la quantizzazione uniforme, che applica la stessa riduzione di precisione a tutti i pesi del modello, e la quantizzazione adattiva, che seleziona dinamicamente il livello di precisione in base alla sensibilità dei singoli parametri. Le principali aziende che sviluppano hardware per AI, come Google, NVIDIA e Qualcomm, implementano tecniche avanzate di quantizzazione nei loro acceleratori AI, migliorando le prestazioni senza compromessi significativi sulla qualità delle predizioni.
Distillazione del modello: una tecnica avanzata di compressione dell’intelligenza artificiale che consiste nell’addestrare un modello più piccolo (studente) a replicare le capacità di uno più grande e complesso (insegnante). Questo processo avviene trasferendo non solo le predizioni finali dell’insegnante, ma anche le informazioni sulle probabilità intermedie, consentendo al modello più leggero di apprendere in modo più raffinato. La distillazione è particolarmente utile per applicazioni su dispositivi mobili, riducendo il consumo energetico e i tempi di inferenza senza sacrificare in modo significativo l’accuratezza. Viene ampiamente utilizzata nei modelli di NLP (elaborazione del linguaggio naturale) e visione artificiale per creare soluzioni scalabili ed efficienti.
Ottimizzazione degli Iperparametri: un processo cruciale nel training dei modelli AI che prevede la regolazione di parametri come il tasso di apprendimento, il numero di neuroni nei layer nascosti, la dimensione del batch e i coefficienti di regolarizzazione. L’ottimizzazione degli iperparametri può essere eseguita attraverso tecniche come la ricerca casuale, la ricerca a griglia e gli algoritmi bayesiani, che consentono di trovare la combinazione ideale per massimizzare le prestazioni del modello. Aziende come Google e OpenAI utilizzano strategie di ottimizzazione automatizzate per ridurre il tempo necessario all’addestramento e migliorare la capacità di generalizzazione dei modelli IA.
Weight Sharing (Condivisione dei pesi): una tecnica avanzata di ottimizzazione delle reti neurali in cui gli stessi pesi vengono riutilizzati in più strati della rete per ridurre il numero totale di parametri da memorizzare e calcolare. Questo approccio riduce significativamente il consumo di memoria e migliora l’efficienza computazionale, senza compromettere in modo rilevante l’accuratezza del modello. Il weight sharing è comunemente usato nei modelli convoluzionali e nelle reti neurali profonde per ridurre la complessità e migliorare l’inferenza su dispositivi con risorse limitate, come smartphone e microcontrollori.
Fusione dei Layer: una tecnica di ottimizzazione delle reti neurali che prevede la combinazione di più strati consecutivi in uno solo. Questo approccio riduce il numero di operazioni computazionali richieste, migliorando sia l’efficienza energetica sia la velocità di inferenza. La fusione dei layer è particolarmente utile nei modelli deep learning destinati a dispositivi mobili e embedded, dove la capacità di calcolo e la durata della batteria sono fattori critici. Google e NVIDIA hanno implementato questa tecnica nei loro framework di deep learning per migliorare le prestazioni e ridurre il carico computazionale nei modelli AI su dispositivi edge.
Sparse Training (Addestramento Sparso): durante l’addestramento, si impone una struttura sparsa ai pesi della rete neurale, riducendo il numero di connessioni attive. Questo approccio non solo diminuisce la complessità computazionale durante l’inferenza, ma può anche accelerare il processo di addestramento.
Neural Architecture Search (NAS): si tratta di un processo automatizzato che ricerca architetture di rete ottimali per specifiche applicazioni e vincoli hardware. Utilizzando NAS, è possibile progettare modelli che offrono un equilibrio ideale tra accuratezza e efficienza computazionale, rendendoli particolarmente adatti per l’implementazione su dispositivi con risorse limitate. Ad esempio, tecniche di NAS sono state utilizzate per sviluppare modelli leggeri ed efficienti per applicazioni mobili.

Altre aziende nella corsa all’AI on-device

Oltre a Qualcomm, altre aziende stanno accelerando l’integrazione dell’AI nei dispositivi, puntando su prestazioni migliori ed efficienza energetica, riducendo la dipendenza dal cloud.

Samsung

Samsung ha collaborato con Qualcomm per personalizzare il processore Snapdragon® 8 Elite per la serie Galaxy S25, offrendo avanzate capacità di elaborazione AI on-device. Questa partnership mira a migliorare l’efficienza energetica e le prestazioni complessive dei dispositivi.

Dell

Dell ha potenziato le sue workstation Precision per supportare applicazioni AI avanzate. Queste workstation sono dotate delle più recenti GPU NVIDIA RTX™ e CPU Intel Xeon®, offrendo la potenza computazionale necessaria per attività di deep learning e altre applicazioni AI direttamente sul dispositivo.

MSI

MSI ha introdotto la linea di laptop AI+, progettati per eseguire funzioni di AI avanzate senza la necessità di una connessione al cloud. Questi dispositivi sono dotati di processori AMD Ryzen™ AI 300 Series, che ottimizzano la potenza di calcolo per l’IA, consentendo l’esecuzione di modelli di linguaggio di grandi dimensioni e applicazioni di AI generativa direttamente sui laptop.

Lenovo

Lenovo ha presentato nuovi dispositivi ThinkPad, ThinkBook, Yoga e IdeaPad dotati di processori ottimizzati per l’IA. L’azienda prevede che entro il 2027, oltre il 60% dei PC spediti sarà compatibile con l’IA, sottolineando l’importanza crescente di questa tecnologia nel computing personale.

Questi sviluppi evidenziano una tendenza crescente nell’industria tecnologica verso l’implementazione dell’IA direttamente sui dispositivi, offrendo vantaggi in termini di privacy, latenza ridotta ed efficienza energetica.

Perché l’AI on-device rappresenta il futuro della tecnologia

L’IA on-device sta emergendo come una tecnologia dominante grazie ai suoi vantaggi chiave:

Privacy migliorata: elaborando i dati localmente, si riduce la necessità di trasmissione al cloud, minimizzando il rischio di violazioni.
Risposte più rapide: l’elaborazione locale elimina la latenza della connessione, migliorando l’esperienza in tempo reale per assistenti vocali e traduzioni simultanee.
Maggiore efficienza energetica: i dispositivi possono gestire operazioni AI complesse con un consumo ridotto, prolungando la durata della batteria.
Operatività offline: con l’evoluzione dell’hardware e delle tecniche di ottimizzazione, l’AI on-device non sarà più un’opzione, ma uno standard tecnologico, ridefinendo il modo in cui interagiamo con i dispositivi digitali.

Sfide e limiti dell’implementazione dell’AI sui dispositivi

Nonostante i vantaggi, l’AI on-device presenta ancora alcuni ostacoli:

Limitazioni hardware: l’uso di modelli AI avanzati può aumentare il consumo energetico e l’uso di memoria.
Difficoltà di aggiornamento: a differenza dei modelli cloud, quelli on-device potrebbero diventare obsoleti più rapidamente.
Compromesso tra prestazioni e accuratezza: le tecniche di compressione migliorano l’efficienza ma possono ridurre la qualità dei risultati.
Sicurezza: i modelli AI salvati localmente potrebbero essere più vulnerabili a exploit e attacchi mirati.

Aspetti etici e regolatori dell’AI on-device

L’AI on-device apre nuove sfide in ambito etico e regolatorio:

Sovranità tecnologica: il rischio di frammentazione e dipendenza dai grandi produttori hardware potrebbe limitare la libertà di innovazione e la concorrenza.
Il futuro dell’AI on-device dipenderà dalla capacità di bilanciare innovazione e regolamentazione, garantendo un progresso tecnologico sicuro, etico e accessibile a tutti.
Controllo e aggiornamenti: se i modelli AI sono preinstallati, chi ne garantisce l’aggiornamento e la trasparenza? Gli utenti avranno davvero il controllo sulle decisioni dell’AI nei loro dispositivi?
Sicurezza: la mancanza di un’infrastruttura centralizzata potrebbe rendere i modelli più vulnerabili a manipolazioni.

@RIPRODUZIONE RISERVATA

Giovanni Masi

Computer Science Engineer

Ingegnere Informatico e dell’Automazione, con specializzazione in Cybersecurity e Intelligenza Artificiale. Coordina il gruppo di lavoro sull’Intelligenza Artificiale presso l’Ordine degli Ingegneri. Con oltre vent’anni di esperienza nel settore dell’Information Technology, ha maturato competenze avanzate nella progettazione e sviluppo di architetture software, nella gestione di infrastrutture IT complesse, nell’implementazione di strategie di cybersecurity e nella creazione di modelli di Intelligenza Artificiale. Svolge attività accademica come cultore della materia presso il Dipartimento di Ingegneria Informatica dell’Università eCampus. È autore e docente dei corsi “Intelligenza Artificiale per Ingegneri” e “Intelligenza Artificiale Generativa e Prompt Engineering” erogati presso l’Ordine degli Ingegneri, nell’ambito delle attività formative specialistiche rivolte ai professionisti del settore. Ha inoltre tenuto seminari sull’Intelligenza Artificiale presso la Pontificia Università Antonianum. Autore di numerosi articoli di settore, pubblicati su riviste scientifiche, nei quali approfondisce tematiche legate alla ricerca applicata nella Generative AI. Ha partecipato a importanti progetti di ricerca, tra cui “BioGene”, un progetto supportato da NASA GeneLab, finalizzato all’analisi e all’estrazione di dati genomici da esperimenti spaziali e “Classificazione del livello di ossidazione dell’olio”, uno studio innovativo condotto in collaborazione con l’Università Ben Gurion del Negev (Israele), volto all’analisi e alla classificazione dei processi di ossidazione negli oli.

Seguimi su