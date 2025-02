Arriva il cinese Deepseek e cambia tutto il clima sull’intelligenza artificiale globale. Tanto che oggi Nvidia ha perso 600 miliardi in borsa.

Eppure era il 21 gennaio pomeriggio quando il neo-insediato presidente Trump annunciava alla Casa Bianca il lancio dello “Stargate project”, di una iniziativa di OpenAI – insieme con SoftBank, Oracle e il fondo emiratino Mgx – per creare una enorme infrastruttura di “AI data center” a uso esclusivo della stessa OpenAI per promuoverne la crescita:

una crescita finalizzata, nelle parole di Donald Trump e di Sam Altman, a garantire la leadership americana nell’Intelligenza Artificiale (AI nel seguito) e a creare a breve termine 100mila nuovi posti di lavoro;

(AI nel seguito) e a creare a breve termine 100mila nuovi posti di lavoro; con un impegno finanziario di 100 miliardi di dollari per l'anno in corso, destinato a crescere sino a 500 miliardi nel quadriennio (con dubbi però non solo di Elon Musk sulla capacità di reperire la cifra).

Il debutto di Deepseek

Per ironia della sorte, o forse per una scelta volta a destare clamore, il precedente giorno 20 Liang Wenfeng – capo di un hedge-fund e promotore della piccola startup DeepSeek – aveva presentato al premier cinese e numero due del Paese Li Qiang R1, un “reasoning model” di AI messo a punto da DeepSeek, immediatamente diventato oggetto di stupore nel mondo (come si può vedere nella Tab. 1 che riporta in sequenza i titoli di alcuni degli articoli su DeepSeek e R1 apparsi nei giorni successivi) per almeno tre ragioni:

il livello delle prestazioni del modello , giudicato da Marc Andreessen (uno dei più noti “venture capitalist” della Silicon Valley) come “one of the most amazing and impressive breakthroughs I’ve ever seen” ed entrato in un ranking molto popolare fra i “global top 10 in performance”, alle spalle (ma non molto distaccato) di OpenAI e Google DeepMind;

, giudicato da Marc Andreessen (uno dei più noti “venture capitalist” della Silicon Valley) come “one of the most amazing and impressive breakthroughs I’ve ever seen” ed entrato in un ranking molto popolare fra i “global top 10 in performance”, alle spalle (ma non molto distaccato) di OpenAI e Google DeepMind; la disponibilità estremamente limitata di chip di Nvidia, a causa del veto posto da Biden all’export in Cina dei chip più avanzati di concezione statunitense: gli ingegneri di DeepSeek, secondo quanto riportato da The New York Times, hanno dichiarato di aver utilizzato 2mila chip di Nvidia, mentre i concorrenti statunitensi dichiarano che ne sono indispensabili per il training di un modello “reasoning” almeno 16mila;

a causa del veto posto da Biden all’export in Cina dei chip più avanzati di concezione statunitense: gli ingegneri di DeepSeek, secondo quanto riportato da The New York Times, hanno dichiarato di aver utilizzato 2mila chip di Nvidia, mentre i concorrenti statunitensi dichiarano che ne sono indispensabili per il training di un modello “reasoning” almeno 16mila; il costo estremamente limitato per il training dei suoi ultimi modelli dichiarato da DeepSeek: 5,6 milioni di dollari, che possono essere messi a confronto con il costo fra 100 milioni degli attuali modelli di AI e, per il 2025, 1 miliardo di dollari di cui ha parlato lo scorso anno (come ricorda The Wall Street Journal) il CEO di Anthropic Dario Amodei.

Cos’è DeepSeek e come funziona DeepSeek è una startup cinese che ha attirato l’attenzione nel settore dell’intelligenza artificiale grazie allo sviluppo di modelli avanzati, tra cui il DeepSeek V3, un Large Language Model (LLM) con 671 miliardi di parametri, lanciato a dicembre. Il 20 gennaio si è aggiunto l’R1 che ha capacità di ragionamento. Come usare DeepSeek Dal sito Deepseek.com e dall’app si può accedere a V3 e a R1, con anche funzioni di ricerca e allegazione file dopo essersi loggati (anche con Gmail). In alternativa si può scaricare da Huggingface e usare su pc. Alcuni cloud provider come Microsoft hanno anche reso disponibile Deepseek ai clienti, tra gli altri modelli. Architettura e prestazioni DeepSeek V3 , uscito a dicembre, è progettato per competere con modelli all’avanguardia, mostrando prestazioni paragonabili in vari compiti di comprensione e generazione del testo, programmazione e risoluzione di problemi matematici.

, uscito a dicembre, è progettato per competere con modelli all’avanguardia, mostrando prestazioni paragonabili in vari compiti di comprensione e generazione del testo, programmazione e risoluzione di problemi matematici. Utilizza un’architettura chiamata Mixture-of-Experts (MoE) , che attiva solo una parte della rete neurale per ogni compito specifico, migliorando l’efficienza e riducendo i costi hardware.

, che attiva solo una parte della rete neurale per ogni compito specifico, migliorando l’efficienza e riducendo i costi hardware. DeepSeek R1 : Utilizza un’architettura più tradizionale focalizzata sul miglioramento del ragionamento e della risoluzione di problemi complessi. R1 è noto per il suo approccio basato su tecniche di addestramento avanzate che ottimizzano l’efficienza, pur mantenendo prestazioni elevate in contesti specifici, come la risoluzione di problemi matematici e logici.

: Utilizza un’architettura più tradizionale focalizzata sul miglioramento del ragionamento e della risoluzione di problemi complessi. R1 è noto per il suo approccio basato su tecniche di addestramento avanzate che ottimizzano l’efficienza, pur mantenendo prestazioni elevate in contesti specifici, come la risoluzione di problemi matematici e logici. Ottimizzazione del training : Il modello è stato addestrato utilizzando solo 2,78 milioni di ore GPU, rispetto ai 30,8 milioni richiesti da modelli simili come Llama 3. Questa riduzione è stata possibile grazie a tecnologie come il FP8 (floating point 8), che migliorano l’efficienza del calcolo.

: Il modello è stato addestrato utilizzando solo 2,78 milioni di ore GPU, rispetto ai 30,8 milioni richiesti da modelli simili come Llama 3. Questa riduzione è stata possibile grazie a tecnologie come il FP8 (floating point 8), che migliorano l’efficienza del calcolo. Utilizzo di GPU H800 : DeepSeek ha impiegato chip Nvidia H800, progettati per il mercato cinese, che pur essendo meno avanzati delle H100, sono stati ottimizzati per ottenere prestazioni elevate a costi inferiori. Questo ha permesso alla startup di superare in efficienza modelli sviluppati con hardware più potente.

: DeepSeek ha impiegato chip Nvidia H800, progettati per il mercato cinese, che pur essendo meno avanzati delle H100, sono stati ottimizzati per ottenere prestazioni elevate a costi inferiori. Questo ha permesso alla startup di superare in efficienza modelli sviluppati con hardware più potente. Costi di inferenza competitivi: I costi operativi per l’inferenza sono estremamente competitivi, con tariffe di 0,27 dollari per milione di token in input e 1,10 dollari in output. Questi prezzi sono circa un decimo rispetto a quelli praticati da aziende come OpenAI. Tecniche avanzate Il modello incorpora la Multi-head Latent Attention (MLA) , che migliora la capacità di estrarre informazioni chiave da un testo, aumentando l’accuratezza.

Un'altra innovazione è la Multi-Token Prediction, che consente al modello di generare più token simultaneamente, accelerando il processo di inferenza e migliorando l'efficienza complessiva.

Dati di oggi ora 18 italiana

La povertà (può) aguzza(re) l’ingegno: il precedente storico della nascita della “lean production” in Toyota

Non so se il quadro che ho delineato sopra – tratto sostanzialmente dagli articoli di Financial Times, The Economist, The New York Times e The Wall Street Journal riportati nella Tab. 1 – si rivelerà del tutto corretto, per la spinta alla manipolazione delle notizie che gli enormi interessi economico-finanziari in gioco e il pesante scontro geo-politico fra US e Cina in atto possono dare. Né è facile prevedere al momento, anche nell’ipotesi che il quadro sia corretto, quale potrà essere l’esito di uno scontro che si preannuncia durissimo.

Ma è uno scontro che mi ha fatto tornare alla mente quanto accadde a cavallo fra gli anni ’80 e ’90 nell’allora importantissima industria dell’auto con la giapponese Toyota, che – povera di risorse finanziarie rispetto alla leader globale statunitense General Motors – riuscì, con l’invenzione della “lean production” (una innovazione “frugale” di natura organizzativo-gestionale), ad avviare un processo di trasformazione che la portò a sostituire General Motors ai vertici mondiali e che si estese progressivamente a tutto il comparto, nonché (con gli ovvi adattamenti) a molti altri comparti dell’economia.

La Cina sta raggiungendo gli Usa nell’AI? O è addirittura vicina al sorpasso?

Non è solo la stampa cinese a esaltare il successo di DeepSeek, celebrato nel Paese come il “Davide” che batte il “Golia” statunitense, con il Global Times (giornale del Partito Comunista Cinese) che esprime soddisfazione su quanto siano risultate “fruitless” le restrizioni statunitensi alle vendite alle imprese cinesi dei chip più avanzati. “Is China surpassing the US in AI?” si chiede l’Hindustan Times, uno dei principali giornali indiani. E The Economist, giornale caratterizzato più dalle analisi approfondite che dal sensazionalismo, sottolinea nel titolo il pericolo per la leadership statunitense nell’AI e il problema che viene a porsi per Trump: “Chinese AI is catching up, posing a dilemma for Donald Trump- The success of cheap Chinese models threatens America’s technological lead.”

DeepSeek, le possibili implicazioni sul progetto Stargate

Quali potrebbero essere le implicazioni per le imprese focalizzate sulla costruzione di modelli “reasoning” negli US? Quali per Nvidia? Quali per le tre big tech leader mondiali nel “cloud”? Quali per Meta, con i suoi modelli “open source”?

È abbastanza ovvio – anche se la Borsa ci ha messo una settimana a prenderne atto – che la messa a punto da parte di DeepSeek (ma altre AI startup cinesi stanno percorrendo una strada simile) di un modello “reasoning” di AI con prestazioni (come detto) di poco inferiori a quelle dei modelli di punta di OpenAI e Google DeepMind, ma utilizzando solo un ottavo dei chip di Nvidia e con un costo estremamente più basso, cambi sensibilmente gli “economics” del comparto: soprattutto “distruggendo” la convinzione largamente condivisa che l’AI generativa – e quella “reasoning” a maggior ragione – richiedesse risorse tali da essere accessibile a un numero ristretto di imprese e da essere destinata a un assetto oligopolistico, da cui la corsa delle big tech ad investire cifre di grande rilievo per non perdere l’opportunità di sedere a quello che potremmo chiamare il “tavolo degli oligopolisti” (oltre 200 i miliardi di $ cumulativamente investiti nel solo 2024 da Alphabet-Google, Amazon, Microsoft e Meta: 80 e 60-65 quelli in crescita previsti per il 2025 rispettivamente da Microsoft e da Meta; 500 come visto quelli che StarGate sperava di riuscire a raccogliere nel quinquennio).

Le imprese statunitensi focalizzate sulla costruzione di modelli “reasoning” (OpenAI, Anthropic, xAI ..) dovranno dimostrare, se vogliono ottenere nuovi finanziamenti a valutazioni più elevate, che ai maggiori costi dei loro modelli – rispetto a quelli “cheap” cinesi – corrisponde una superiorità nelle prestazioni che giustifica tale differenza; potrebbero anche “copiare” la conformazione dei modelli cinesi, nota perché sono modelli “open source”, ma perdendo ogni traccia di differenziazione.

Amazon, Microsoft e Alphabet-Google, che nell’ordine dominano il cloud computing su scala internazionale, potrebbero ragionevolmente decidere di ricalibrare – rispetto a un mercato con caratteristiche diverse – i loro investimenti in infrastrutture per l’AI: in questo modo riducendo soprattutto gli acquisti di chip avanzati da Nvidia, che diventerebbe (a meno di cambiamenti nel portafoglio di business) l’impresa destinata a subire le maggiori perdite. E non a caso è quella che mentre scrivo sta subendo il contraccolpo maggiore (“Nvidia leads sell-off in Big Tech stocks at Wall Street open”, FT, lunedì 27).

Le prospettive infine per l’operazione StarGate e per SoftBank. È una operazione che a mio avviso già prima era di dubbia profittabilità – in assenza di contributi pubblici – e la ritengo tale ancor più oggi.

E l’Europa?

Non sono certo l’unico a pensare che per l’Europa si apra l’opportunità di rientrare in gioco. Purché si muova in fretta e riducendo le “regole” a quelle strettissimamente necessarie.

I rischi geopolitici I rischi geopolitici e commerciali associati a DeepSeek, un modello di intelligenza artificiale sviluppato in Cina, sono legati a una serie di dinamiche complesse che riguardano la competizione tecnologica, le implicazioni economiche e la sicurezza globale. Ecco una panoramica più dettagliata: Competizione tecnologica Minaccia alla supremazia tecnologica degli Stati Uniti: DeepSeek rappresenta una sfida significativa per i modelli di intelligenza artificiale sviluppati negli Stati Uniti, come quelli di OpenAI. Con il rapido progresso della Cina nel campo dell’IA, c’è il rischio che l’equilibrio di potere tecnologico si sposti verso Pechino. Gli Stati Uniti, storicamente leader nell’innovazione tecnologica, potrebbero trovarsi a dover affrontare un crescente concorrente globale con capacità avanzate, portando a una corsa tecnologica internazionale. Questo scenario potrebbe intensificare le tensioni tra le due potenze, alimentando una guerra tecnologica simile a quella della corsa agli armamenti. Competizione militare Implicazioni per la supremazia militare: L’intelligenza artificiale ha applicazioni cruciali nel settore militare, in particolare nell’automazione dei sistemi d’arma, nell’analisi dei dati di sorveglianza e nel miglioramento delle capacità di difesa. La Cina, con modelli di IA avanzati come DeepSeek, potrebbe potenzialmente superare gli Stati Uniti in alcuni di questi ambiti, creando un divario che altererebbe l’equilibrio del potere militare. In un contesto di crescente rivalità geopolitica, l’accesso alla tecnologia AI potrebbe conferire vantaggi decisivi a chi riesce a dominarla. Implicazioni economiche Effetti sulle aziende tecnologiche statunitensi: L’ascesa di DeepSeek e di altre aziende tecnologiche cinesi potrebbe portare a una svalutazione delle azioni delle principali aziende statunitensi come Nvidia, che sono leader nel settore delle tecnologie di AI e semiconduttori. L’introduzione di una tecnologia cinese così avanzata potrebbe minacciare il predominio di queste aziende sul mercato, generando volatilità nei mercati finanziari. Le aziende americane potrebbero trovarsi a dover investire pesantemente per mantenere la loro posizione, con potenziali effetti destabilizzanti per l’economia. Sostenibilità economica globale Crescita dell’economia digitale cinese : L’innovazione tecnologica e l’adozione su larga scala dell’IA in Cina stanno rafforzando l’economia digitale del paese. Ciò potrebbe portare a un’influenza crescente della Cina nelle economie emergenti e sviluppate, modificando le dinamiche commerciali globali. Le imprese globali potrebbero trovarsi a competere con il sostegno statale cinese per l’adozione di nuove tecnologie, influenzando le politiche commerciali internazionali.

: L’innovazione tecnologica e l’adozione su larga scala dell’IA in Cina stanno rafforzando l’economia digitale del paese. Ciò potrebbe portare a un’influenza crescente della Cina nelle economie emergenti e sviluppate, modificando le dinamiche commerciali globali. Le imprese globali potrebbero trovarsi a competere con il sostegno statale cinese per l’adozione di nuove tecnologie, influenzando le politiche commerciali internazionali. Minacce alla sicurezza Profilazione e disinformazione : Uno degli usi più pericolosi dell’intelligenza artificiale è nella profilazione su vasta scala degli utenti e nella creazione di contenuti manipolativi, come disinformazione e propaganda. DeepSeek, in quanto potente modello linguistico, potrebbe essere utilizzato per creare messaggi altamente personalizzati e manipolatori, aumentando il rischio di interferenze nelle elezioni e di destabilizzazione politica attraverso le piattaforme digitali. Questo scenario rispecchia i timori legati ad altre tecnologie cinesi, come TikTok, dove il governo cinese potrebbe esercitare il controllo sui dati raccolti, minacciando la privacy e la sicurezza nazionale.

Rischio di attacchi alla sicurezza nazionale: La diffusione di modelli AI avanzati come DeepSeek potrebbe essere sfruttata per cyber-attacchi o per operazioni di spionaggio industriale. Gli Stati nazionali potrebbero utilizzare queste tecnologie per ottenere vantaggi strategici, attaccando sistemi critici o rubando informazioni sensibili. La protezione contro questi rischi richiede una risposta concertata a livello internazionale. Standard globali sull'IA Implicazioni per la regolamentazione e l'etica dell'IA: Con l'avanzamento dei modelli cinesi come DeepSeek, potrebbe esserci una crescente influenza della Cina sugli standard globali relativi all'intelligenza artificiale. Questo potrebbe tradursi in una visione più permissiva della regolamentazione dell'IA, con implicazioni per la privacy, l'etica e l'uso delle tecnologie. I paesi occidentali, come gli Stati Uniti e l'Unione Europea, potrebbero trovarsi in disaccordo con la Cina su questi aspetti, mettendo a rischio l'adozione di standard comuni per l'IA a livello globale. La creazione di due ecosistemi distinti (quello cinese e quello occidentale) potrebbe aumentare le divisioni tecnologiche e limitare la collaborazione internazionale. Normative e sostenibilità globale Preoccupazioni etiche e operative: L'influenza della Cina sulla regolamentazione potrebbe influenzare il modo in cui le aziende internazionali sviluppano, testano e implementano modelli di IA. La Cina potrebbe spingere per normative che non rispettano gli stessi principi etici o legali dei paesi occidentali, come la protezione dei dati e la trasparenza. Questo comporterebbe rischi per le aziende globali che operano su scala internazionale, in particolare per quelle che devono adattarsi a diversi quadri normativi.