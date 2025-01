Il 20 gennaio scorso, la startup cinese DeepSeek ha stupito il mondo intero presentando il suo ultimo modello di intelligenza artificiale open source in grado di sfidare il modello o1 di OpenAI con le sue capacità avanzate: il DeepSeek-R1.

Il successo è stato planetario. Trump ha definito DeepSeek “un campanello d’allarme” e le Big Tech – Nvidia in testa – sono crollate in Borsa.

L’inattesa ascesa di DeepSeek

Alle 22:00 ora di Pechino del 26 gennaio – in meno di mezza giornata – l’AI DeepSeek è salita dal sesto al terzo posto nella classifica delle applicazioni gratuite dell’Apple App Store statunitense, dietro solo a ChatGPT e alla piattaforma di social media Threads di Meta, superando Google Gemini, Microsoft Copilot e altri prodotti di AI generativa di aziende tecnologiche statunitensi.

Lo stesso giorno, il sito DeepSeek ha subito un breve flash crash. Molti utenti cinesi hanno riferito di aver riscontrato un messaggio di “server occupato” durante l’utilizzo. L’azienda ha risposto che quel pomeriggio si sono verificate fluttuazioni locali del servizio, ma il problema è stato risolto in pochi minuti. L’incidente è stato probabilmente dovuto a un impennata di accessi da parte degli utenti dopo il rilascio del nuovo modello perché il server aziendale non è stato in grado di soddisfare tutte quelle le richieste simultanee.

Attualmente (28 gennaio), il sito è sotto attacco hacker e l’accesso è impossibile.

Perché DeepSeek spaventa

Esattamente il 26 dicembre (25 dicembre ora degli Stati Uniti) DeepSeek aveva lanciato un’altra potente IA focalizzata sul ragionamento, denominata DeepSeek-V3.

Da laboratorio cinese di intelligenza artificiale relativamente sconosciuto, è diventato così il nome più popolare nel mondo dell’AI.

Uno degli aspetti più interessanti di tutta questa vicenda è che DeepSeek, oltre ad aver utilizzato un numero ridotto di chip anche a causa delle rigide restrizioni – e di controlli – sulle esportazioni tecnologiche imposte dagli Stati Uniti, ha sviluppato questi modelli con costi inferiori rispetto a quelli spesi dai giganti occidentali come OpenAI e Meta.

In un rapporto tecnico, la startup cinese ha precisato di aver utilizzato un cluster di oltre 2.000 chip NVIDIA H800 per addestrare il suo modello V3 con 671 miliardi di parametri, mentre Meta ha addestrato Llama 3 con 405 miliardi di parametri utilizzando 16.384 chip più potenti.

“Se la potenza aritmetica non determina più le prestazioni dell’IA, è probabile che la precedente logica di investimento, che consisteva nell’acquistare senza pensieri i chip Nvidia, cambierà, così come il resto del settore”, ha dichiarato domenica 26 gennaio un economista capo di Pechino sulla piattaforma Weibo.

DeepSeek ha anche dichiarato che l’addestramento di uno dei suoi ultimi modelli è costato 5,6 milioni di dollari. Per fare un paragone, Dario Amodei, CEO di Anthropic, sviluppatore di AI, l’anno scorso ha citato un costo compreso tra 100 milioni e 1 miliardo di dollari per costruire un modello. La CNBC ha scritto: “DeepSeek-R1 ha scatenato il panico nella Silicon Valley perché supera le sue principali controparti statunitensi e costa meno, consumando meno aritmetica”.

L’addestramento di DeepSeek, dunque, è stato 11 volte più efficiente di quello di Meta.

L’innovazione di questa startup, dunque, è fenomenale perché suggerisce che, oltre agli investimenti, sono necessarie anche lungimiranza e ricerca approfondita per sviluppare idee innovative. Per questo, le principali aziende occidentali, come OpenAI, Google e Meta, si interrogano ora sul potenziale impatto di questa nuova azienda nel panorama globale dell’intelligenza artificiale.

Non inseguire ma innovare

Se l’industria cinese dell’IA vuole recuperare il ritardo o addirittura raggiungere la leadership globale, non può limitarsi a inseguire, ma deve ottenere più progressi rispetto alle controparti occidentali. Come ha detto il fondatore di DeepSeek Liang Weneng, “l’IA cinese non può rimanere per sempre nella posizione di inseguitore. Spesso diciamo che c’è un divario di uno o due anni tra l’IA cinese e quella statunitense, ma il vero divario è la differenza tra originalità e imitazione. Se questo non cambia, la Cina sarà sempre un follower, quindi non c’è scampo a qualche esplorazione. La leadership di NVIDIA non è solo il frutto degli sforzi di un’azienda, ma il risultato degli sforzi congiunti dell’intera comunità tecnologica e dell’industria occidentale. Sono in grado di vedere la prossima generazione di tendenze tecnologiche e hanno una tabella di marcia in mano. Anche lo sviluppo dell’IA in Cina ha bisogno di un ecosistema di questo tipo. Molti chip nazionali non sono sviluppati, anche a causa della mancanza di una comunità tecnica di supporto, ma solo di informazioni di seconda mano, per cui la Cina avrà inevitabilmente bisogno di qualcuno che si ponga all’avanguardia della tecnologia”.

Chi c’è dietro DeepSeek

Fondata nel maggio 2023 da Liang Wenfeng, una figura di spicco nel settore degli hedge fund e dell’IA, DeepSeek opera in modo indipendente ma è finanziata esclusivamente da High-Flyer, un hedge fund quantitativo fondato anch’esso da Wenfeng, ha scritto Forbes. Questo modello di finanziamento unico ha permesso a DeepSeek di perseguire progetti di IA ambiziosi senza la pressione di investitori esterni, consentendole di dare priorità alla ricerca e allo sviluppo a lungo termine.

Inizialmente, DeepSeek si chiamava Fire-Flyer, in stretta relazione con la società madre High-Flyer. Quest’ultima, fondata nel 2015, è salita alla ribalta nel giro di un paio d’anni ed è diventata il primo hedge fund quantistico con oltre 100 miliardi di RMB. High-Flyer che produceva supercomputer e accumulatori GPU ha deciso di investire, successivamente, nello sviluppo dell’intelligenza artificiale nel 2023.

Con un gruppo di giovani menti provenienti dalle migliori università cinesi, il fondatore Liang ha, quindi, sviluppato DeepSeek e ha svolto ricerche approfondite nel campo dell’intelligenza artificiale.

Un team giovane e talentuoso

“Il team di DeepSeek è composto principalmente da giovani e talentuosi laureati provenienti dalle migliori università cinesi, favorendo una cultura dell’innovazione e una profonda comprensione della lingua e della cultura cinese. In particolare, le pratiche di assunzione dell’azienda privilegiano le capacità tecniche rispetto all’esperienza lavorativa tradizionale, dando vita a un team di persone altamente qualificate con una prospettiva nuova sullo sviluppo dell’intelligenza artificiale”, ha aggiunto Forbes.

L’azienda ha dato priorità alle capacità tecniche rispetto al lavoro tradizionale, contribuendo alla sua crescita in un breve periodo di tempo.

L’impatto sul mercato asiatico

Lunedì 27 gennaio, l’impatto “DeepSeek” si è fatto sentire anche sul mercato asiatico. “Nelle prime ore del mattino, infatti, l’A-share DeepSeek ha registrato un’impennata di oltre l’11%, mentre il concetto di aritmetica è crollato, l’AI aritmetica, le GPU, i server raffreddati a liquido e i chip ASIC e altri settori sono crollati di oltre il 3%, i chip ottici, l’interconnessione in rame ad alta velocità, le comunicazioni ottiche e i moduli ottici e altri settori sono crollati di oltre il 5%; anche l’ETF giapponese sui semiconduttori è crollato di oltre il 3%”, ha scritto The Observer.

Open source alla ribalta

Marina Zhang, professore associato presso la Sydney University of Technology, ha detto che DeepSeek si è concentrata sulla massimizzazione dell’ottimizzazione delle risorse guidata dal software piuttosto che sull’accesso all’hardware avanzato.

“A differenza di molte aziende cinesi di IA, che si basano pesantemente sull’accesso all’hardware avanzato, DeepSeek si è concentrata sulla massimizzazione dell’ottimizzazione delle risorse guidata dal software”, ha detto Maria Zhang.

La professoressa, inoltre, ha aggiunto che l’azienda cinese ha dato la massima importanza ai metodi open source, mettendo in comune le competenze collettive e promuovendo la collaborazione. Secondo la sua analisi, questo approccio non solo aiuta a superare i limiti delle risorse, ma eleva anche lo sviluppo di tecnologie all’avanguardia, che aiutano DeepSeek a diventare leader della tecnologia AI. Tuttavia, a fronte di vari commenti e apprezzamenti, l’azienda cinese non ha risposto alle richieste di commento sulle sue ultime innovazioni.

I modelli IA

DeepSeek ha sviluppato il suo primo modello di codifica open-source, DeepSeek Coder, nel novembre 2023. Dopo DeepSeek Coder, l’azienda ha introdotto anche DeepSeek LLM, un modello a 67B parametri per competere con altri modelli linguistici di grandi dimensioni. DeepSeek-V2, lanciato nel maggio 2024, si è guadagnato una notevole attenzione per le sue forti prestazioni e il suo basso costo, scatenando una guerra dei prezzi nel mercato cinese dei modelli di intelligenza artificiale. Questa strategia di prezzo dirompente ha costretto altri grandi colossi tecnologici cinesi, come ByteDance, Tencent, Baidu e Alibaba, ad abbassare i prezzi dei loro modelli di intelligenza artificiale per rimanere competitivi.

A DeepSeek-V2 è succeduto DeepSeek-Coder-V2, un modello più avanzato con 236 miliardi di parametri. Esso è progettato per sfide di codifica complesse e dispone di un’elevata lunghezza del contesto, fino a 128K token. Secondo Forbes, “questo modello è disponibile attraverso un’API conveniente, al prezzo di 0,14 dollari per milione di token in ingresso e 0,28 dollari per milione di token in uscita”.

Gli ultimi modelli dell’azienda sono il DeepSeek-V3 e il DeepSeek-R1 che hanno ulteriormente consolidato la posizione di forza dell’azienda cinese.

DeepSeek-V3 è un modello a 671B parametri. Vanta prestazioni impressionanti su vari benchmark perché necessita di un numero di risorse significativamente inferiore rispetto ai suoi colleghi.

Il DeepSeek-R1, invece, si concentra su compiti di ragionamento e sfida il modello o1 di OpenAI con le sue capacità avanzate.

“DeepSeek offre anche una gamma di modelli distillati, noti come DeepSeek-R1-Distill, che si basano su modelli aperti popolari come Llama e Qwen, messi a punto su dati sintetici generati da R1. Questi modelli distillati offrono diversi livelli di prestazioni ed efficienza, in grado di soddisfare le diverse esigenze di calcolo e configurazioni hardware”, ha aggiunto l’analista.

Le partnership strategiche

DeepSeek ha stretto partnership strategiche per migliorare le sue capacità tecnologiche e la sua portata sul mercato. Una collaborazione importante è quella con AMD, fornitore leader di soluzioni di calcolo ad alte prestazioni. DeepSeek sfrutta le GPU AMD Instinct e il software ROCM in tutte le fasi chiave dello sviluppo dei suoi modelli, in particolare per DeepSeek-V3. Per Forbes, questa partnership consente a DeepSeek di accedere a hardware all’avanguardia e a uno stack software aperto, ottimizzando le prestazioni e la scalabilità.

In una recente intervista con la CNBC, Alexandr Wang, fondatore e CEO di Scale AI, un’azienda statunitense che si occupa di fondazioni di dati AI, ha dichiarato, tuttavia, che DeepSeek possiede circa 50.000 chip NVIDIA H100, ma che non può parlarne pubblicamente a causa delle misure di controllo delle esportazioni degli Stati Uniti.

Wang ha iniziato l’intervista elogiando le prestazioni di DeepSeek dicendo: “Abbiamo scoperto che DeepSeek (R1) è il miglior performer al momento, o allo stesso livello del miglior modello degli Stati Uniti (GPT o1)”. Alla domanda sulla competizione tra Stati Uniti e Cina nel campo dell’IA, Wang ha risposto: “Per molto tempo gli Stati Uniti sono stati in testa”. Tuttavia, ha aggiunto che l’ultimo modello di DeepSeek potrebbe cambiare le cose. Secondo Wang, “è simbolico che un laboratorio cinese rilasci un modello sorprendente a Natale, sapendo che il resto di noi sta festeggiando la stagione delle vacanze”.

Tecniche innovative

Secondo Forbes, il successo di DeepSeek può essere attribuito a diverse innovazioni chiave.

Architettura Mixture-of-Experts

I modelli di DeepSeek utilizzano un’architettura MoE, attivando solo una piccola parte dei loro parametri per qualsiasi compito. Questa attivazione selettiva riduce significativamente i costi di calcolo e migliora l’efficienza. “Immaginate un team di esperti, ognuno specializzato in un’area diversa. Quando si affronta un compito, vengono interpellati solo gli esperti pertinenti, garantendo un uso efficiente delle risorse e delle competenze. L’architettura MoE di DeepSeek funziona in modo simile, attivando solo i parametri necessari per ogni compito, con un significativo risparmio sui costi e un miglioramento delle prestazioni”.

Multi-Head Latent Attention

“DeepSeek-V3 incorpora l’MLA, che migliora la capacità del modello di elaborare i dati identificando relazioni sfumate e gestendo contemporaneamente più aspetti in ingresso”, afferma l’esperto. È come avere più “teste di attenzione” che possono concentrarsi su parti diverse dei dati in ingresso, consentendo al modello di acquisire una comprensione più completa delle informazioni. Questo meccanismo di attenzione potenziato contribuisce alle prestazioni impressionanti di DeepSeek-V3 in vari benchmark.

Distillazione

DeepSeek impiega tecniche di distillazione per trasferire le conoscenze e le capacità di modelli più grandi in modelli più piccoli ed efficienti. Questo rende l’intelligenza artificiale potente accessibile a una gamma più ampia di utenti e dispositivi. “È come se un insegnante trasferisse le proprie conoscenze a uno studente, consentendogli di eseguire compiti con una competenza simile ma con meno esperienza o risorse. Il processo di distillazione di DeepSeek consente ai modelli più piccoli di ereditare le capacità avanzate di ragionamento e di elaborazione del linguaggio delle loro controparti più grandi, rendendoli più versatili e accessibili”.

Le preoccupazioni tra i giganti del settore

Il successo di DeepSeek suggerisce che i progressi della Cina nel campo dell’intelligenza artificiale stanno facendo passi da gigante, in contrasto con gli obiettivi di contenimento degli Stati Uniti.

Gli esperti, però, commentano che il balzo della Cina verso l’intelligenza artificiale rifletterebbe visioni autoritarie e censurerebbe il dissenso. Alcuni si chiedono anche se rispecchierebbe i valori democratici e l’apertura.

I modelli di DeepSeek, infatti, sono soggetti a censura per evitare critiche al Partito Comunista Cinese, il che rappresenta una sfida significativa alla sua adozione globale. Nei Paesi in cui la libertà di espressione è molto apprezzata, questa censura può limitare il suo appeal e la sua accettazione.

Tutte queste preoccupazioni sono state sollevate durante la questione del divieto di TikTok negli Stati Uniti. Quindi, con la Cina che potenzialmente potrebbe superare gli Stati Uniti nell’IA, tutti questi interrogativi sono tornati in primo piano, causando preoccupazioni tra i giganti tecnologici come OpenAI, Google e Meta.

Inoltre, proponendo modelli efficienti dal punto di vista dei costi e open-source, DeepSeek costringe questi attori a ridurre i prezzi o a migliorare le loro offerte per rimanere rilevanti. Questa maggiore concorrenza porterà probabilmente a soluzioni di IA più convenienti e accessibili sia per le aziende che per i consumatori.

La guerra dei prezzi

La strategia di prezzo dirompente di DeepSeek ha anche scatenato una guerra dei prezzi all’interno del mercato cinese dei modelli di IA, costringendo altri giganti tecnologici cinesi a rivalutare e adeguare le proprie strutture di prezzo. Questa mossa – secondo Forbes – sottolinea la capacità di DeepSeek di sconvolgere mercati consolidati e di influenzare le dinamiche di prezzo complessive.