|
|
1 E4 u H4 s, N编辑:定慧 好困
9 e8 N& C/ Z N: {& `2 A【新智元导读】DeepSeek开源DeepSeek-OCR2,引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。7 o! q- _6 m( T9 N& i# J6 S9 ?& w
DeepSeek又双叒叕更新了!6 |) a1 ~5 z0 G+ V$ ~# W
这次是DeepSeek-OCR模型的重磅升级:DeepSeek-OCR2。( @, @; E+ l) S, X- ~6 d$ X* H
2 m5 [2 `0 E& n. _- q. a还记得上一代DeepSeek-OCR吗?那个用视觉方式压缩一切的模型。4 h( L$ z, k1 B. j" h! v- d$ S
这一次,DeepSeek更进一步,对视觉编码器下手了,提出了一种全新的DeepEncoder V2架构,实现了视觉编码从「固定扫描」向「语义推理」的范式转变!8 C6 u# _" R9 D
! P) ^: i+ j3 \, Y
DeepSeek-OCR2不仅能像人类一样按逻辑顺序阅读复杂文档,还在多项基准测试中刷新了SOTA。
% o$ v* k; B; Z1 V当然,按照DeepSeek的惯例,Paper、Code、Model全开源!$ H( K0 {. r' D1 v* D
, F$ ^" `* M$ S4 ]) FDeepSeek-OCR2的核心创新在于通过DeepEncoder V2,赋予了模型因果推理能力(Causal Reasoning)。
' D4 b' g! X& ]这就像是给机器装上了「人类的阅读逻辑」,让AI不再只是死板地从左上到右下扫描图像,而是能根据内容语义灵活调整阅读顺序。
" Z0 d( ?4 y9 o2 ^# WDeepSeek-OCR28 C6 E, E/ N, |, T0 K
视觉因果流* A: i+ o2 c' C3 g- k, x+ h4 f
DeepSeek在论文中指出,传统的视觉语言模型(VLM)通常采用光栅扫描(Raster-Scan)顺序处理图像,即固定地从左到右、从上到下。5 Q- o3 V% O1 I, G S$ o n
这种方式强行将2D图像拍扁成1D序列,忽略了图像内部的语义结构。
; u. C% r$ [+ B" B7 y) C" }* G! y
) }" v+ u6 X( O+ M- X, K% G) X
这显然与人类的视觉习惯背道而驰。 L I9 N# k9 c4 o+ Q: q+ R) B
人类在看图或阅读文档时,目光是随着逻辑流动的:先看标题,再看正文,遇到表格会按列或按行扫视,遇到分栏会自动跳跃。+ s7 Z: Q$ z; Q, F. \
为了解决这个问题,DeepSeek-OCR2引入了DeepEncoder V2。
6 p" b h X2 X) M2 i" I1 O它最大的特点是用一个轻量级的大语言模型(Qwen2-0.5B)替换了原本的CLIP编码器,并设计了一种独特的「因果流查询」(Causal Flow Query)机制。
) v' U o% Z. U3 NDeepEncoder V2架构详解" R% j# y: m0 W* P! M5 f5 O
DeepEncoder V2主要由两部分组成:
6 [2 }9 H* ]) O( n. ~- ^4 q. u5 O1. 视觉分词器(Vision Tokenizer)
: D/ i1 w- q7 W4 Y/ P沿用了SAM-base(80M参数)加卷积层的设计,将图像转换为视觉Token。
. G" Z& P$ ~, E% P0 B; y5 v" d6 d j
* q6 J0 O5 h! q1 x1 |0 m" A# m2. 作为视觉编码器的LLM' Z9 K; o" T a
这里DeepSeek使用了一个Qwen2-0.5B模型。6 U" `" P2 {+ S4 B
它不仅处理视觉Token,还引入了一组可学习的「查询Token」(Query Tokens)。: }2 k8 G$ a9 z
6 c3 L" J9 B& e0 l. J, D% f3 R关键的创新点在于注意力掩码(Attention Mask)的设计:
9 E( |3 H& g7 q' R, h
% v$ y" H2 f2 N- J# `视觉Token之间采用双向注意力(Bidirectional Attention),保持全局感知能力,类似于ViT。1 u+ z7 w# Y# m* Z
而查询Token则采用因果注意力(Causal Attention),每一个查询Token只能看到它之前的Token。. Q2 [2 N0 J, ?$ m) U8 u% u
通过这种设计,DeepEncoder V2实现了两级级联的因果推理:: {) k' ?- W# [2 q7 l
编码器通过可学习的查询对视觉Token进行语义重排,随后的LLM解码器则在这个有序序列上进行自回归推理。1 ^( n B5 d/ y
这意味着,DeepSeek-OCR2在编码阶段就已经把图像里的信息「理顺」了,而不是一股脑地扔给解码器。
7 I5 ^4 c# i. X" `, zToken更少,精度更高2 U2 f* @2 a( ~5 E0 c8 {
实验数据显示,DeepSeek-OCR2在保持极高压缩率的同时,性能显著提升。
, M' m& D. S2 T. P& |在OmniDocBench v1.5基准测试中,DeepSeek-OCR2在使用最少视觉Token(仅256-1120个)的情况下,综合得分高达91.09%,相比前代提升了3.73%。
) I2 G: L: Q4 X6 a: @/ O
+ y& y' [( b1 I' s
特别值得一提的是,在阅读顺序(R-order)的编辑距离(Edit Distance)指标上,DeepSeek-OCR2从前代的0.085显著降低到了0.057。4 S; R" p! n* a4 k& n7 ?" J. I
这直接证明了新模型在处理复杂版面时,逻辑性更强,更懂「阅读顺序」。
9 j* `' `4 t/ ~- B2 \) H# y7 I" k在和Gemini-3 Pro等闭源强模型的对比中,DeepSeek-OCR2也丝毫不落下风。" {; o. D2 n4 N! B( d7 k
在均使用约1120个视觉Token的情况下,DeepSeek-OCR2的文档解析编辑距离(0.100)优于Gemini-3 Pro(0.115)。- }6 \! y' ]3 [4 g# C: F, R
% w6 b, L" K- }
, r# N$ t6 J* x! {- ]: ~不仅是刷榜,DeepSeek-OCR2在实际生产环境中也非常能打。2 S; L; d2 _6 C9 K3 R& ^; u3 y% _, R
DeepSeek披露,在处理在线用户日志图像时,OCR结果的重复率从6.25%降到了4.17%;在PDF数据生产场景中,重复率从3.69%降到了2.88%。1 {! r: I- v- L/ E2 C. y
8 Y$ A1 r9 |: H3 O# T0 s, q& q
这意味着模型生成的文本更加干净、准确,对于作为LLM训练数据的清洗流水线来说,价值巨大。; Q% T3 @0 X" _8 \9 |
迈向真正的多模态统一. Z0 d* o7 K' D
DeepSeek在论文最后提到,DeepSeek-OCR2通过DeepEncoder V2验证了「LLM作为视觉编码器」的可行性。
$ L" H% J1 R- S4 Y: m8 n1 [& V这不仅是一个OCR模型的升级,更是迈向原生多模态(Native Multimodality)的重要一步。4 }5 p) m8 C# h5 r" U
未来,同一个编码器只要配备不同的模态查询嵌入(Query Embeddings),就能处理文本、图片、音频等多种模态的数据,真正实现万物皆可Token,万物皆可因果推理。
6 Y( b2 z4 Q B/ l ]DeepSeek表示,虽然目前光学文本识别(OCR)是LLM时代最实用的视觉任务之一,但这只是视觉理解宏大图景的一小部分。
# q" u P- P. UDeepSeek将继续探索,向着更通用的多模态智能进发。 |
|