intelligenza artificiale

Guida a DeepSeek: modelli, costi e casi d’uso



Indirizzo copiato

Analisi di DeepSeek R1 e V3.1: architetture, pipeline di rinforzo, differenze tra modalità reasoning e chat, costi API e risultati sui benchmark

Pubblicato il 31 ott 2025

Giovanni Masi

Computer Science Engineer



deepseek privacy

Nel giro di pochi mesi DeepSeek è passato dall’essere uno dei tanti attori cinesi dell’IA generativa a simbolo di una corsa globale all’ottimizzazione del rapporto prestazioni/costi.

La famiglia di modelli DeepSeek-V3/V3.1 e, soprattutto, la serie di modelli di ragionamento DeepSeek‑R1 hanno messo al centro la tesi che capacità di problem solving avanzato possano emergere non solo dalla scala del pre‑training, ma anche da fasi di rinforzo mirate e da scelte architetturali orientate all’efficienza.

Al contempo, l’impatto mediatico e finanziario di DeepSeek è stato eccezionale, con reazioni dei mercati e dibattiti sulla sostenibilità economica dei leader occidentali.

Architetture e posizionamento dei modelli

L’offerta attuale ruota attorno a due rami principali.

DeepSeek‑V3/V3.1

Il primo è DeepSeek‑V3/V3.1, un grande modello Mixture‑of‑Experts con 671 miliardi di parametri totali e circa 37 miliardi attivati per token. L’architettura eredita e perfeziona le scelte introdotte con V2, integrando una Multi‑head Latent Attention e un bilanciamento del carico privo di loss ausiliarie, oltre a un obiettivo di addestramento Multi‑Token Prediction che facilita anche lo speculative decoding. È un modello generalista che eccelle nelle competenze di conoscenza, scrittura e coding, con contesto lungo a 128K token e una filiera di inferenza pensata per l’efficienza, compreso l’uso nativo di FP8 per addestramento e inferenza.

DeepSeek‑R1

Il secondo ramo è DeepSeek‑R1, definibile come una famiglia di “reasoning‑centric LLM”. La pubblicazione scientifica ha due elementi chiave. Primo, un modello denominato R1‑Zero, addestrato con rinforzo su un modello base V3 senza passare prima da una fase SFT, nel quale emergono comportamenti di ragionamento non esplicitamente programmati (riflessione, autocorrezione, verifica).

Secondo, il modello R1 propriamente detto, che introduce una piccola fase di cold‑start supervisionato e una pipeline multi‑stadio con rejection sampling e un’ulteriore fase RL per allineare le capacità di ragionamento con esigenze di utilità e sicurezza. R1 ottiene risultati competitivi sui benchmark STEM e di coding, con miglioramenti tangibili rispetto a V3 sulle prove di ragionamento puro.

Che cosa significa “reasoning model” in pratica

A differenza dei modelli puramente conversazionali, R1 genera prima una catena di pensiero, poi la risposta. Nelle interfacce e nelle API questa distinzione appare in due forme. Nel testo, la parte di ragionamento è separata dalla risposta finale tramite blocchi delimitati (in molte integrazioni è racchiusa tra tag “think” e “answer”). Nell’API, quando si usa il modello “deepseek‑reasoner”, è disponibile un campo dedicato al contenuto di ragionamento che può essere salvato, mostrato o distillato. Questo consente di implementare flussi in cui la catena di pensiero rimane trasparente e auditabile, utile sia per la didattica, sia per il debugging di agenti.

Un limite noto riguarda la strutturazione dell’output e l’uso di strumenti esterni. La stessa letteratura tecnica di R1 sottolinea che la capacità di produrre strutture rigide o di orchestrare tool (calcolatrici, motori di ricerca) è meno matura rispetto alle performance su compiti verificabili come matematica e programmazione.

È però in atto un’evoluzione rapida nelle guide d’uso che permette di combinare R1 con funzioni e schemi JSON usando il modello “deepseek‑chat” come esecutore dei tool, lasciando a “deepseek‑reasoner” la parte di pensiero.

Efficienza e costo di esercizio

Uno dei tratti distintivi di DeepSeek è l’attenzione all’efficienza a ogni livello. L’adozione di FP8, l’ingegnerizzazione dell’MoE e le ottimizzazioni lato serving hanno consentito una riduzione dei costi d’esercizio rispetto a modelli densi di taglia simile.

Sul fronte API, la linea V3.1 è esposta con due profili: “deepseek‑chat” (modalità non‑thinking) e “deepseek‑reasoner” (modalità thinking). Il listino più recente prevede prezzi per milione di token differenziati tra input in cache e input non in cache, oltre a un prezzo per gli output, e un contesto fino a 128K per il ramo chat e fino a 64K di output per il reasoner. In sintesi, la disponibilità di un profilo “thinking” a costi prevedibili rende economicamente praticabile l’adozione del ragionamento in applicazioni reali.

Valori indicativi aggiornati. Per V3.1 e R1 esposti via API: input in cache 0,07 $/M token, input non in cache 0,56 $/M token, output 1,68 $/M token. Il profilo chat supporta fino a 128K di contesto; il profilo reasoner offre default di 32K e massimo 64K token di output, con catena di pensiero accessibile. I prezzi possono variare in base al provider o a promozioni temporanee, quindi vanno sempre verificati al momento della messa in produzione.

Metriche e benchmark: dove R1 brilla davvero

La traiettoria di R1 nasce da un risultato sperimentale forte. Nella variante R1‑Zero, l’addestramento RL puro porta a salti netti su AIME 2024, con ulteriori guadagni tramite self‑consistency. R1 consolida e stabilizza tali comportamenti, introducendo seed supervisionati limitati e una fase RL finalizzata all’allineamento.

Sui benchmark di matematica, coding competitivo e QA avanzato, R1 si posiziona allo stato dell’arte, mentre nei compiti di scrittura generalista il vantaggio rispetto a V3 è meno marcato. È importante notare che su alcune suite di conoscenza generalista modelli concorrenti possono risultare ancora leggermente superiori; il punto di forza di R1 rimane la risoluzione di problemi verificabili con ragionamenti multi‑passo.

Sicurezza, bias e trasparenza

La trasparenza della catena di pensiero è un’arma a doppio taglio. Da un lato aumenta la spiegabilità e facilita la diagnosi degli errori. Dall’altro, apre superfici di attacco e rischi di prompt injection mirate a manipolare la fase di reasoning.

La comunità ha inoltre segnalato che i modelli di ragionamento possono talvolta presentare vulnerabilità di sicurezza o bias geopolitici più accentuati rispetto ai corrispettivi non‑thinking. La linea ufficiale ammette che R1, a parità di salvaguardie, si collochi su un livello di sicurezza “moderato”, migliorabile con controlli esterni; nella pratica professionale conviene filtrare e, quando necessario, oscurare o non loggare i blocchi di “think” in produzione, mantenendoli solo dove strettamente necessario per audit o ricerca.

Ecosistema e distribuzione

Oltre all’API proprietaria compatibile con lo standard OpenAI, DeepSeek è integrato in framework come LangChain, Spring AI e provider multilato che normalizzano le chiamate. Sul fronte on‑prem e self‑hosting, il ramo V3 è pubblicato con pesi FP8, tool di conversione a BF16 e percorsi di inferenza ottimizzati tramite SGLang, vLLM, LMDeploy e TensorRT‑LLM. È presente anche un ecosistema di modelli “Coder” focalizzati sul codice, con varianti da poche fino a decine di miliardi di parametri, utile per scenari in cui latenza e footprint contano più della massima accuratezza assoluta.

Come progettare prompt e flussi con modelli di ragionamento

Per sfruttare R1 al meglio conviene separare chiaramente tre fasi.

  • Primo, la raccolta dei requisiti e dei vincoli, con una consegna esplicita del formato desiderato.
  • Secondo, la risoluzione del problema a cura del reasoner, eventualmente con maggioranza di campioni e auto‑verifica.
  • Terzo, la formattazione e l’esecuzione dei tool con un modello chat solido su structured output. È utile anche gestire la lunghezza del “think” con parametri di decodifica conservativi e, quando possibile, vincoli di formato verificabili (ad esempio, JSON schema).

Nelle pipeline complesse, la distillazione della catena di pensiero verso modelli densi più piccoli consente di conservare parte delle capacità di ragionamento riducendo costi e latenza.

Esempi pratici

Gli snippet seguenti mostrano pattern reali per integrare l’API DeepSeek in modalità compatibile OpenAI.

Risoluzione di un problema con catena di pensiero visibile (Python)

from openai import OpenAI
import os

client = OpenAI(base_url=”https://api.deepseek.com”, api_key=os.environ[“DEEPSEEK_API_KEY”])  # SDK OpenAI‑compatibile

messages = [
    {“role”: “system”, “content”: “Sei un assistant che risolve problemi di matematica in modo affidabile.”},
    {“role”: “user”, “content”: “Trova il valore di x se 2^(x+1) = 32.”}
]

resp = client.chat.completions.create(
    model=”deepseek-reasoner”,            # modalità thinking
    messages=messages,
    temperature=0.1,
    max_tokens=512,
)

# Oltre al testo finale, l’SDK recente espone anche il campo ‘reasoning_content’ durante lo streaming.
answer = resp.choices[0].message.content
print(“Risposta:\n”, answer)

Output tipico

<think>
Riconosco che 32 = 2^5, dunque 2^(x+1) = 2^5 implica x+1=5, quindi x=4.
</think>
<answer>
4
</answer>

Streaming e separazione del “think” (Node.js)

import OpenAI from “openai”;
const client = new OpenAI({ baseURL: “https://api.deepseek.com”, apiKey: process.env.DEEPSEEK_API_KEY });

const stream = await client.chat.completions.create({
model: “deepseek-reasoner”,
stream: true,
messages: [{ role: “user”, content: “Scrivi una funzione JS che calcola la mediana di un array.” }],
});

let think = “”; let content = “”;
for await (const chunk of stream) {
const delta = chunk.choices?.[0]?.delta;
if (delta?.reasoning_content) think += delta.reasoning_content; // blocchi di ragionamento
if (delta?.content) content += delta.content; // risposta finale
}
console.log(“THINK:\n”, think);
console.log(“ANSWER:\n”, content);

Orchestrare tool con structured output usando il ramo chat (Python)

from openai import OpenAI
client = OpenAI(base_url=”https://api.deepseek.com”, api_key=”…”)

def get_weather(city: str) -> dict:
return {“city”: city, “temp_c”: 26, “condition”: “sunny”}

tools = [
{
“type”: “function”,
“function”: {
“name”: “get_weather”,
“description”: “Rileva meteo corrente”,
“parameters”: {
“type”: “object”,
“properties”: {“city”: {“type”: “string”}},
“required”: [“city”]
}
}
}
]

messages = [{“role”: “user”, “content”: “Che tempo fa oggi a Milano? Rispondi in JSON.”}]

resp = client.chat.completions.create(
model=”deepseek-chat”, # esecutore di tool/JSON
messages=messages,
tools=tools,
temperature=0.2,
response_format={“type”: “json_object”}
)
print(resp.choices[0].message.content)

Prompt “a due stadi” per casi ingegneristici

Spesso conviene chiedere a R1 di elaborare la strategia, poi chiedere a V3.1‑chat di produrre il deliverable. Esempio: progettazione di un test A/B per un funnel e‑commerce.

Fase 1 – Reasoning con R1

Ruolo: data scientist senior.
Obiettivo: definire un piano di esperimenti A/B per ridurre l’abbandono del carrello del 10% in 8 settimane.
Vincoli: budget 20k€, traffico 200k sessioni/mese, stack esistente (GA4 + BigQuery).
Task: elabora ipotesi, metriche primarie/secondarie, potenza statistica, rischi.
Output: elenco puntato sintetico con priorità.

Fase 2 – Deliverable con V3.1‑chat

Prendi il piano di esperimenti allegato e trasformalo in un documento esecutivo per C‑level: 1 pagina, tono formale, rischi e contromisure, timeline e ownership.

Esempio di distillazione “concettuale” del ragionamento

Nei contesti regolati o con vincoli di privacy, si può decidere di non salvare il blocco “think”, ma di sintetizzarlo in post‑processing lasciando solo la risposta e uno “score di confidenza” calcolato da un secondo pass del modello. In pratica si conserva l’auditabilità senza esporre la catena di pensiero grezza in log applicativi.

Best practice operative

  1. Governance dei dati. Trattate i blocchi di ragionamento come dati sensibili. Valutate il masking o l’opt‑out di logging in produzione.
  2. Verifica automatica. Su compiti verificabili (matematica, coding) implementate un verificatore interno e usatelo come reward per un piccolo ciclo di RLHF o rejection sampling on‑the‑fly.
  3. Controllo della lunghezza. Limitate la lunghezza del “think” con temperature basse e max_tokens ragionevoli; preferite il campionamento multiplo con self‑consistency rispetto a ragionamenti lunghissimi su un singolo campione.
  4. Strutturazione. Quando servono JSON stretti o chiamate funzione, preferite “deepseek‑chat” come esecutore, lasciando a R1 l’analisi.
  5. Portabilità. Se operate in multi‑cloud, testate SGLang e vLLM con pesi FP8 di V3 per ridurre latenza e costi.

Considerazioni legali e geografiche

Molti Paesi stanno rivalutando privacy, localizzazione dei dati e regole d’uso per i chatbot. Nelle integrazioni enterprise valutate attentamente termini di servizio e luoghi di trattamento. Se necessario, optate per il self‑hosting del ramo V3 o l’uso tramite provider che garantiscano conformità e residenza dei dati.

Quando scegliere R1 e quando V3.1

DeepSeek ha accelerato la normalizzazione del “reasoning” come capacità prodotta in fase di post‑training più che di semplice scala del pre‑training. La combinazione di MoE efficiente, FP8 end‑to‑end e una pipeline RL orientata alla verificabilità ha fissato una nuova curva costo‑prestazioni.

In ambito applicativo, R1 è oggi una scelta razionale quando il compito è verificabile e beneficia di trasparenza del processo; V3.1 resta il cavallo di battaglia per orchestrazione di tool, output strutturati e lunghe conversazioni. L’ecosistema di librerie e provider compatibili rende l’adozione rapida, ma resta essenziale una disciplina di sicurezza e governance adeguata al nuovo grado di introspezione che i modelli di ragionamento introducono.

Bibliografia

DeepSeek Coder: modelli per il codice. Project page (2024–2025). https://deepseekcoder.github.io/

DeepSeek‑R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint (2025). https://arxiv.org/abs/2501.12948

DeepSeek‑R1 incentivizes reasoning in LLMs through reinforcement learning. Nature (2025). https://www.nature.com/articles/s41586-025-09422-z

DeepSeek‑V3 — scheda e technical report. Hugging Face model card e repository tecnico (2024–2025). https://huggingface.co/deepseek-ai/DeepSeek-V3

Introducing DeepSeek‑V3. DeepSeek API News (dicembre 2024, aggiornamenti 2025). https://api-docs.deepseek.com/news/news1226

Models & Pricing (DeepSeek API Docs), inclusa la tabella aggiornata per V3.1 e deepseek‑reasoner (agosto 2025). https://api-docs.deepseek.com/quick_start/pricing

Reasoning Model (deepseek‑reasoner) — guida e parametri API (2025). https://api-docs.deepseek.com/guides/reasoning_model

China’s DeepSeek causes rout among AI‑linked stocks. Al Jazeera (gennaio 2025). https://www.aljazeera.com/economy/2025/1/27/chinas-deepseek-causes-rout-among-ai-linked-stocks

‘Sputnik moment’: $1tn wiped off US stocks after Chinese firm unveils AI chatbot. The Guardian (gennaio 2025). https://www.theguardian.com/business/2025/jan/27/tech-shares-asia-europe-fall-china-ai-deepseek

Why Chinese AI company DeepSeek is spooking investors. Los Angeles Times (gennaio 2025). https://www.latimes.com/entertainment-arts/business/story/2025-01-27/deep-seek-china-stock-market-nvidia-meta-google

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati