Intelligenza artificiale

DeepSeek vs Chatgpt, la nostra prova: chi vince nel confronto



Indirizzo copiato

Sviluppato con risorse limitate, il nuovo modello DeepSeek R1 compete con i colossi americani dell’AI. La sua natura open source e le prestazioni impressionanti stanno scuotendo il mercato

Aggiornato il 30 gen 2025

Antonio Cisternino

Università di Pisa



chatgpt vs deepseek

Un po’ come ChatGPT poco più di due anni fa è arrivato DeepSeek R1, il modello di una startup cinese conosciuta da pochi che in pochi giorni ha sconvolto il panorama dell’AI generando anche un vero e proprio terremoto finanziario e scuotendo le convinzioni di superiorità americana in termini di AI.

Purtroppo, quando ci sono novità, soprattutto in campo AI, il livello di confusione mediatica è assoluto ed è difficile capire la sostanza di una notizia e, nel caso di DeepSeek, se si tratti di una reale tecnologia o di un semplice fuoco di paglia. Cerchiamo quindi di capire le caratteristiche di questo nuovo modello e se davvero sia paragonabile ai modelli blasonati come GPT-o1 o Claude.

Deepseek, il servizio Web e il modello rispetto a Chatgpt

DeepSeek, in modo analogo a quanto avviene per molti attori di primo piano nello spazio AI, ha due modelli: R3 per fornire risposte in modo analogo a quanto fa GPT-4o e il modello R1 che implementa la tecnica del Chain of thoughts per ragionare ed è analogo a GPT-o1.

Se usiamo il modello R3 ci accorgiamo rapidamente che l’interazione è analoga a quella che si ha con Claude o GPT-4o. Il modello comprende e scrive un italiano ragionevole e ponendo quesiti ormai semplici si ottengono risposte corrette.

Immagine che contiene testo, schermata, CarattereDescrizione generata automaticamente

Se proviamo invece il modello R1, ovverosia quello che ragiona, e lo confrontiamo con o1 di OpenAI si registrano comportamenti meno stabili e ovvi. Per provare il modello ho usato un prompt che richiede di decifrare un messaggio cifrato:

“Can you decrypt this message? XYIWHEC QIIXMRK MW MR VSSQ S4 I think is a monoalphabetic one”

Ho usato l’inglese per essere sicuro che la valutazione non fosse influenzata dalla lingua nei due casi. Ho provato il prompt usando o1 di OpenAI che ha correttamente decifrato il messaggio come si vede nella seguente figura:

Immagine che contiene testo, schermata, Carattere, softwareDescrizione generata automaticamente

Quando sono andato a testare DeepSeek R1 con lo stesso prompt ho ottenuto un risultato non corretto al primo tentativo:

Immagine che contiene testo, schermata, Carattere, designDescrizione generata automaticamente

Condividendo questo esperimento su LinkedIn alcuni utenti mi hanno scritto che a loro funzionava e quindi ho riprovato ed effettivamente uno di quattro tentativi ha prodotto una risposta quasi interamente corretta:

Immagine che contiene testo, schermata, software, Software multimedialeDescrizione generata automaticamente

È affascinante seguire il ragionamento che l’interfaccia mostra per intero mentre si sviluppa:

Immagine che contiene testo, schermata, CarattereDescrizione generata automaticamente

Il fatto che qualche volta il modello risponda correttamente e altre volte dia la risposta sbagliata sembra, analizzando la traccia del ragionamento, che sia dovuto alla natura casuale di selezione del token che porta il modello a provare ipotesi differenti e in alcuni casi a produrre la risposta errata.

Anche rimuovendo gli spazi dal messaggio cifrato sia o1 che R1 riescono a decifrare il messaggio anche se impiegano più tempo e R1 nuovamente fatica a capire che si parla della stanza “o4”

L’impressione che non solo io ho è che R1 sia vicino a o1 o a Claude ma non ancora allo stesso livello di maturità, il che è già di per sé assolutamente sorprendente, anche perché il team di DeepSeek è stato molto aperto nel condividere non solo il modello ma anche il percorso seguito per addestrarlo, ed è un importante contributo che toglie un po’ di “mistero” attorno ai contributi delle big americane che non condividono gli ingredienti segreti dei propri modelli top.

CaratteristicaDeepSeekChatGPT
Tipo di ModelloOpen-source, flessibile, ottimizzato per compiti tecniciModello avanzato con generazione linguistica naturale
PrezziAPI a $0,14 per milione di tokenVersione gratuita limitata; Piano Plus a $20/mese
Pro– Costo contenuto – Flessibilità open-source – Risposte rapide tecniche– Risposte di alta qualità – Ampia base di conoscenza – Supporto per vari compiti
Contro– Limitato nelle conversazioni complesse – Meno avanzato per creatività – Preoccupazioni su censura e dati– Costo superiore – Meno flessibile nelle personalizzazioni – Dipendenza da infrastruttura cloud
Adatto perPiccole e medie imprese, applicazioni tecnicheConversazioni complesse, scrittura creativa, programmazione

Cosa rende speciale R1 rispetto a Chatgpt e Llama?

Da un punto di vista tecnico si tratta di un modello che si avvicina ai grandi modelli che finora erano chiusi e promossi dalle big tech americane. Il modello è aperto e può essere eseguito localmente usando sistemi come ollama e questa è decisamente un’importante novità nel panorama. Si può pensare di realizzare un servizio di AI generativa localmente anche per svolgere compiti complessi, mentre finora i modelli aperti erano sempre un po’ inferiori a quelli online, incluso il modello Llama di Meta.

Il bando delle GPU di ultima generazione

Il bando delle GPU di ultima generazione che l’America aveva promosso per impedire che la Cina le potesse usare sembra aver prodotto un effetto non voluto: i ricercatori cinesi si sono ingegnati avendo a disposizione dispositivi come le schede nVidia H800 decisamente meno performanti rispetto alle nVidia H100, e questo ha portato a sviluppare un’architettura apparentemente più efficiente. Dico apparentemente poiché non si hanno informazioni dettagliate sull’approccio seguito da OpenAI o da Anthropic ed è quindi difficile avere certezze.

Censura e privacy

Ci sono poi numerose polemiche relativamente all’evidente censura di alcuni argomenti come le manifestazioni di piazza Tienanmen che R1 si rifiuta di riportare, così come alcuni fatti relativi al Covid e chissà quanti altri aspetti. Da un punto di vista tecnologico sono aspetti minori anche se ovviamente non sono eticamente irrilevanti, così come i termini d’uso del servizio online sembrano essere decisamente poco rispettosi dei dati che ha portato l’autorità garante italiana a chiedere chiarimenti pena il blocco del servizio.

Il costo di DeepSeek vs Chatgpt

DeepSeek ha dichiarato di aver speso tra i cinque e i sei milioni di dollari per l’addestramento del modello, ma si tratta di un importo difficile da verificare e si sospetta essere basso rispetto alla realtà.

L’arrivo di una tecnologia sviluppata apparentemente con meno risorse di quelle impiegate dai big Americani ha mandato in tilt i mercati che si sono cominciati a chiedere se le valutazioni miliardarie di queste società siano davvero giustificate. Il terremoto mediatico sta già producendo i primi effetti: OpenAI ha appena annunciato la disponibilità del programma ChatGPT Gov che consente l’installazione della tecnologia nei server di Azure del governo aprendo per la prima volta dopo molto tempo alla possibilità di eseguire i modelli non come servizio erogato da OpenAI bensì come servizio in un cloud Microsoft sotto il controllo governativo (e quindi di fatto fornendo una copia del modello).

Le prospettive

L’arrivo di DeepSeek R1 ha mostrato al mondo che anche la Cina sta progredendo significativamente nello sviluppo di AI al punto da poter competere sostanzialmente alla pari con i grandi modelli AI americani. La natura aperta del modello sicuramente è una piacevole novità poiché consentirà sviluppo di approcci analoghi da parte di altri ricercatori. Speriamo che l’Europa (magari Mistral) colga l’occasione e provi a rientrare in gara evitando di lasciare in mano di Stati Uniti e Cina questa tecnologia centrale.

La possibilità di scaricare i modelli di DeepSeek apre scenari interessanti per l’esecuzione locale di modelli (a patto di avere le risorse di calcolo ed energetiche necessarie), e in numerosi ambiti rappresenta un salto tecnologico rilevante.

I grandi player americani presumibilmente accelereranno gli sviluppi per recuperare il terreno perso, e non sono sicuro che un’ulteriore accelerazione sia una buona idea. Ma la competizione commerciale non potrà non spingere ulteriormente queste tecnologie e corriamo il rischio che il loro impatto sulla società non sia correttamente valutato. Sembrano passati decenni da quando si discuteva di AI buona e di uno sviluppo controllato, ora tutto seguirà il passo della competizione e noi ci dovremo adattare. Sicuramente non rimarremo a corto di notizie nei prossimi mesi.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati