La compressione ottica del contesto proposta da DeepSeek-OCR introduce una nuova strategia per estendere la memoria operativa dell’intelligenza artificiale. Sfruttando la rappresentazione visiva del testo, il modello riduce i costi di elaborazione e conserva la struttura dei documenti complessi.
Indice degli argomenti
Il limite delle finestre di contesto e la proposta visiva di DeepSeek
DeepSeek‑OCR nasce come indagine sistematica sull’uso della modalità visiva come supporto alla memoria operativa in un contesto in cui l’allungamento delle finestre di contesto ha dato ai modelli generativi la possibilità di lavorare su manuali, report e dialoghi sempre più estesi, ma il prezzo in termini di token, latenza e memoria è diventato un collo di bottiglia.
Le ottimizzazioni della cache di attenzione hanno attenuato il problema e il retrieval ha spostato parte del carico su indici esterni, senza però eliminare l’attrito di trattare tutto come testo. In questo scenario, DeepSeek mette in discussione la premessa stessa della rappresentazione linguistica e suggerisce che una porzione del contesto possa essere ricordata meglio se prima viene vista. Non è un gioco di parole, ma un cambio di mezzo: il testo diventa immagine, l’immagine si compone in pochi token visivi e quei token fungono da promemoria altamente comprimibile per la fase successiva di ragionamento.
Come funziona la memoria visiva del contesto
L’idea di deepSeek è semplice nella forma e radicale nelle conseguenze. Si mappa un blocco di testo in una rappresentazione bidimensionale che preserva struttura e layout, si codifica quell’immagine con un encoder pensato per restare leggero anche ad alta risoluzione, quindi si lascia a un decoder linguistico specializzato il compito di recuperare il contenuto quando serve. Invece di accumulare migliaia di subword nella finestra, si archiviano poche decine o centinaia di patch visive. Il guadagno non è solo quantitativo. Layout, tabelle, grafi, formule e tipografia rimangono intatti nella fotografia del documento e diventano informazione utile per il modello, che altrimenti faticherebbe a ricostruirli da una sequenza lineare di token.
Struttura tecnica e risultati sperimentali di DeepSeek‑OCR
L’architettura è composta da due elementi complementari. Il primo è il DeepEncoder, nucleo del sistema, progettato per mantenere basse le attivazioni su input ad alta risoluzione e per raggiungere rapporti di compressione elevati senza far esplodere il numero di token visivi. Il secondo è un decoder linguistico di piccola taglia ma con struttura a mixture‑of‑experts, denominato DeepSeek3B‑MoE‑A570M, addestrato a rileggere la rappresentazione ottica e a rigenerare il testo con fedeltà. La pipeline operativa scorre in tre tempi. Si acquisisce il documento o il contesto conversazionale e lo si rende in immagine alla risoluzione più conveniente. Si passa l’immagine al DeepEncoder, che emette un set contenuto di vision tokens. Si presenta al decoder quel set quando bisogna richiamare il contenuto, delegando al modello la ricostruzione di passaggi, citazioni, tabelle o sezioni necessarie alla risposta.
I risultati sperimentali forniscono un perimetro concreto. Con compressioni inferiori a dieci a uno, in cui dieci token di testo vengono sostituiti da un token visivo, la precisione di decodifica raggiunge in media il 97% per cento su compiti di OCR. Spingendo la compressione a venti a uno la fedeltà scende intorno al 60%, segnale che l’aggressività ha un costo, ma non tale da annullare l’utilità pratica nelle fasi in cui conta ricordare il senso più che la lettera. Sui benchmark di document understanding, e in particolare su OmniDocBench, il sistema supera GOT‑OCR 2.0 e MinerU 2.0 pur utilizzando meno token visivi per pagina, dimostrando che la resa visiva della struttura paga soprattutto con tabelle e grafici. Il progetto è pubblico con codice e pesi, supporta l’inferenza sia via Transformers sia in vLLM ed espone numeri operativi interessanti, come una velocità di elaborazione nell’ordine di migliaia di token al secondo su A100 nella modalità PDF e una produzione di dati che, in scenari di generazione su larga scala, può superare le duecentomila pagine al giorno su una singola GPU.
Dalla compressione della cache alla compressione ottica
Il cambio di paradigma si comprende meglio confrontandolo con le strade seguite finora per dare memoria ai modelli. La compressione della cache di attenzione riduce la memoria per token durante il decoding, per esempio attraverso varianti come la Multi‑Head Latent Attention introdotta da DeepSeek nelle generazioni precedenti, che compattano chiavi e valori in uno spazio latente per alleggerire la KV‑cache. Qui si agisce prima, sulla sorgente del costo. Se una porzione di storia conversazionale o di documento prende la forma di poche immagini compresse, la lunghezza effettiva della sequenza da tenere in memoria diminuisce e l’intero profilo di latenza si riduce. Il retrieval esterno crea indici semantici e recupera poi i passaggi originali, ma richiede uno scambio continuo tra il modello e lo storage. La compressione ottica memorizza invece una rappresentazione già pronta per essere riletta dal modello, offrendo coerenza locale e costi prevedibili. Le due strategie non sono alternative, e anzi si sommano. Cache più leggere e contesti compressi definiscono un nuovo punto di equilibrio tra qualità e costo senza cambiare hardware.
Applicazioni pratiche di DeeSeek OCR nei settori chiave
La portata applicativa si vede nei domini dove la struttura visiva è informazione.
- In ambito legale la lettura seriale di contratti, delibere e allegati beneficia della possibilità di trattenere “istantanee” dei passaggi chiave e richiamarle a richiesta senza indebitarsi di token.
- In finanza la resa fedele di tabelle e prospetti riduce gli errori tipici della ricostruzione testuale di layout complessi.
- In sanità la conversione di referti, schede e grafici diagnostici in rappresentazioni visive comprimibili abilita query più lunghe a parità di budget.
- Nello sviluppo software è naturale catturare porzioni di log, tracciati di chiamate o intere schermate di dashboard operativa come contesto compatto per un assistente, che potrà ricostruirle in modo mirato quando necessario.
- Anche nello studio e nella ricerca la capacità di conservare fotogrammi fedeli di manuali e paper rende più scorrevole l’analisi di materiali tecnici estesi.
Limiti, rischi e misure di valutazione
I limiti oggi osservabili vanno affrontati con pragmatismo. L’errore di decodifica cresce con la compressione e può annidarsi proprio nei dettagli che contano, come cifre e citazioni letterali. La robustezza cross‑linguistica e la gestione di alfabeti, simboli e formule richiedono ulteriori misure. La valutazione standard su dataset pubblici dà una bussola, ma non copre tutte le irregolarità dei documenti reali o i casi con celle simili e differenze minime.
Resta aperta la questione di come si inserisca la compressione ottica nella catena di ragionamento. Se si comprimono i passaggi intermedi di un pensiero multistep, si corre il rischio di perdere tracciabilità e di propagare errori sottili. Sono aspetti che chiamano metriche ad hoc oltre la pura accuratezza dell’OCR, con soglie di compressione da adattare automaticamente al tipo di materiale e all’uso, più prudenti quando serve precisione letterale, più spinte quando è sufficiente la struttura concettuale.
Verificabilità e scalabilità del progetto
L’elemento forse più importante è che l’esperimento è verificabile. Il repository pubblico esplicita l’integrazione in vLLM e descrive i profili di utilizzo, inclusa la concorrenza nella pipeline PDF, mentre il paper dettaglia gli scenari in cui la riduzione di token tra sette e venti volte produce ancora una ricostruzione utile. Questo consente a ricercatori e ingegneri di testare la pipeline sulle proprie collezioni di documenti, misurando impatti su costo per richiesta, throughput e qualità del richiamo, senza affidarsi a stime di seconda mano. Il fatto che l’encoder sia ottimizzato per contenere le attivazioni ad alta risoluzione suggerisce inoltre una scalabilità naturale verso dataset voluminosi, dove la combinazione tra economia di token e parallelismo di inferenza fa la differenza.
Un nuovo equilibrio tra visione e linguaggio nell’IA
Guardando al quadro competitivo, il filo conduttore è l’efficienza come leva d’innovazione. DeepSeek ha costruito gran parte del suo vantaggio esplorando regioni progettuali in cui si ottiene di più con meno, dalle attenzioni latenti alla quantizzazione spinta fino alle pipeline di training snelle. La memoria visiva del contesto è coerente con questa traiettoria e pone ai concorrenti una domanda semplice. Ha ancora senso trattare tutto come testo, o conviene adottare una rappresentazione mista in cui il modello alterna, a seconda del compito, parole e immagini di parole? Se i risultati continueranno a reggere nelle repliche indipendenti, vedremo sempre più spesso modelli multimodali in cui la modalità visiva non è un accessorio, ma un pilastro dell’efficienza di sistema.
Un compromesso credibile per l’IA industriale
In sintesi la proposta non promette miracoli né equivale alla memoria umana. Interviene però dove oggi si paga di più, la gestione del contesto, e lo fa con un metodo che unisce rigore sperimentale e apertura. Se una parte della storia può essere vista anziché letta, i modelli ricordano di più spendendo meno. È un compromesso credibile che parla la lingua dell’industria e che, se adottato con criterio, potrebbe diventare una nuova normalità per l’IA che lavora davvero su documenti e conversazioni lunghe.
Bibliografia
• MIT Technology Review, “DeepSeek potrebbe aver trovato un nuovo modo per migliorare la capacità dell’IA di ricordare” (29 ottobre 2025). https://www.technologyreview.com/2025/10/29/1126932/deepseek-ocr-visual-compression/
• Wei H., Sun Y., Li Y., “DeepSeek‑OCR: Contexts Optical Compression” (arXiv, 21 ottobre 2025). https://arxiv.org/abs/2510.18234
• DeepSeek‑AI, “DeepSeek‑OCR: Contexts Optical Compression” – repository GitHub e guide all’inferenza vLLM/Transformers. https://github.com/deepseek-ai/DeepSeek-OCR
• InfoQ, “DeepSeek AI Unveils DeepSeek‑OCR: Vision‑Based Context Compression Redefines Long‑Text Processing” (22 ottobre 2025). https://www.infoq.com/news/2025/10/deepseek-ocr/
• South China Morning Post, “DeepSeek unveils multimodal AI model that uses visual perception to compress text input” (21–22 ottobre 2025). https://www.scmp.com/tech/tech-trends/article/3329707/deepseek-unveils-multimodal-ai-model-uses-visual-perception-compress-text-input
• Tom’s Hardware, “New DeepSeek model drastically reduces resource usage by converting text and documents into images” (21 ottobre 2025). https://www.tomshardware.com/tech-industry/artificial-intelligence/new-deepseek-model-drastically-reduces-resource-usage-by-converting-text-and-documents-into-images-vision-text-compression-uses-up-to-20-times-fewer-tokens
• DeepSeek‑V3 Technical Report, sezioni su Multi‑Head Latent Attention e riduzione della KV‑cache (2024–2025). https://arxiv.org/abs/2412.19437












