|
|
0 r' ]* u. f7 q) `- A
编辑:定慧 好困5 [" A3 K6 _- L7 p
【新智元导读】DeepSeek开源DeepSeek-OCR2,引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。
2 u4 p# f& `6 a& _DeepSeek又双叒叕更新了!# q: ^. U5 r) u3 ~- M
这次是DeepSeek-OCR模型的重磅升级:DeepSeek-OCR2。; z. Y1 i* C& W( _) [$ m
6 ~: s; j$ ^) u1 y' Z6 l- P
还记得上一代DeepSeek-OCR吗?那个用视觉方式压缩一切的模型。' e# G7 h* Z: h7 Q3 Z
这一次,DeepSeek更进一步,对视觉编码器下手了,提出了一种全新的DeepEncoder V2架构,实现了视觉编码从「固定扫描」向「语义推理」的范式转变!7 `6 Q) j) T) `$ J+ L
+ @- K L2 H+ J) q$ }' V' O5 EDeepSeek-OCR2不仅能像人类一样按逻辑顺序阅读复杂文档,还在多项基准测试中刷新了SOTA。. Z7 X2 D% ~. }6 R- n* N
当然,按照DeepSeek的惯例,Paper、Code、Model全开源!
/ {9 M) g4 T4 ^5 ~; ~5 u
& Z2 [) G6 J7 C8 ^$ s7 h4 Z
DeepSeek-OCR2的核心创新在于通过DeepEncoder V2,赋予了模型因果推理能力(Causal Reasoning)。" N7 U7 B" l) g! p7 m! ~
这就像是给机器装上了「人类的阅读逻辑」,让AI不再只是死板地从左上到右下扫描图像,而是能根据内容语义灵活调整阅读顺序。; P: j- c# g( N8 D$ u* L% Z" l0 S
DeepSeek-OCR24 R2 g6 n, A( ?4 K) D c; }2 h0 I
视觉因果流9 R1 m6 \ R- w! i+ S' f% e' D
DeepSeek在论文中指出,传统的视觉语言模型(VLM)通常采用光栅扫描(Raster-Scan)顺序处理图像,即固定地从左到右、从上到下。5 i) Q1 s8 k. [8 }
这种方式强行将2D图像拍扁成1D序列,忽略了图像内部的语义结构。
6 ^: y& R7 x$ |- v
: N, y4 X6 q4 h M: [& a0 d* G! [ g这显然与人类的视觉习惯背道而驰。8 I- C( y: t L3 K
人类在看图或阅读文档时,目光是随着逻辑流动的:先看标题,再看正文,遇到表格会按列或按行扫视,遇到分栏会自动跳跃。4 M) K c4 s3 K
为了解决这个问题,DeepSeek-OCR2引入了DeepEncoder V2。
3 B- {! o4 w# k" t: g5 o7 m0 T( Y7 \* X它最大的特点是用一个轻量级的大语言模型(Qwen2-0.5B)替换了原本的CLIP编码器,并设计了一种独特的「因果流查询」(Causal Flow Query)机制。
/ F% V9 A' `4 u/ jDeepEncoder V2架构详解
% U, E2 h4 g" b4 l! m7 {! J0 fDeepEncoder V2主要由两部分组成:2 V3 z; Q5 J. H) G0 p( b2 B! ^
1. 视觉分词器(Vision Tokenizer)
- o% t7 @' _6 G7 e沿用了SAM-base(80M参数)加卷积层的设计,将图像转换为视觉Token。
0 W% Y% q0 a' u5 q
: }; Q. H+ R( {
2. 作为视觉编码器的LLM
% g8 l x9 p, u U% A0 O+ J这里DeepSeek使用了一个Qwen2-0.5B模型。( _9 ~) n! I, I) t
它不仅处理视觉Token,还引入了一组可学习的「查询Token」(Query Tokens)。
4 m+ j% N9 w! b+ n( N x6 ]) D
% Y6 [, I$ s( o. ^0 j关键的创新点在于注意力掩码(Attention Mask)的设计:
2 k. A& z. u% C' I/ b% W; s# u
5 K. c2 |4 O) D3 h& g$ h3 R视觉Token之间采用双向注意力(Bidirectional Attention),保持全局感知能力,类似于ViT。
0 o8 q: ]6 j! U5 i1 K而查询Token则采用因果注意力(Causal Attention),每一个查询Token只能看到它之前的Token。
' z- n! ]) k7 H, U" L, H5 J通过这种设计,DeepEncoder V2实现了两级级联的因果推理:8 j0 ], U. n1 a5 N7 Q
编码器通过可学习的查询对视觉Token进行语义重排,随后的LLM解码器则在这个有序序列上进行自回归推理。4 e6 F: ^; s4 I6 s7 [ U
这意味着,DeepSeek-OCR2在编码阶段就已经把图像里的信息「理顺」了,而不是一股脑地扔给解码器。
- w p* M5 g: D6 l! J. ~) e cToken更少,精度更高9 E+ F' V- `, x7 y& j' Z
实验数据显示,DeepSeek-OCR2在保持极高压缩率的同时,性能显著提升。
0 k. w( o- i% @' [; x3 u* K8 _' D在OmniDocBench v1.5基准测试中,DeepSeek-OCR2在使用最少视觉Token(仅256-1120个)的情况下,综合得分高达91.09%,相比前代提升了3.73%。
0 K0 ^& R. Q U9 l
! K8 G: v' |1 ~# [; ]3 d特别值得一提的是,在阅读顺序(R-order)的编辑距离(Edit Distance)指标上,DeepSeek-OCR2从前代的0.085显著降低到了0.057。# k$ w* ]* N# S6 f y, _
这直接证明了新模型在处理复杂版面时,逻辑性更强,更懂「阅读顺序」。
+ x$ n' Q- e5 ~在和Gemini-3 Pro等闭源强模型的对比中,DeepSeek-OCR2也丝毫不落下风。
1 K/ t, T5 A4 V- I. p& @* q在均使用约1120个视觉Token的情况下,DeepSeek-OCR2的文档解析编辑距离(0.100)优于Gemini-3 Pro(0.115)。4 g& M7 Z1 x+ S6 i8 `; u/ O6 y
m" s! D) V& k$ }% N" y
+ K. ~2 k& q- Q- _, k1 ^
不仅是刷榜,DeepSeek-OCR2在实际生产环境中也非常能打。/ e& i5 z+ h7 k2 p1 e; [+ B: _
DeepSeek披露,在处理在线用户日志图像时,OCR结果的重复率从6.25%降到了4.17%;在PDF数据生产场景中,重复率从3.69%降到了2.88%。* e" d v+ `6 l0 C% P1 W
) l6 v o, |# R7 M* B( J7 a这意味着模型生成的文本更加干净、准确,对于作为LLM训练数据的清洗流水线来说,价值巨大。
" ^6 Q4 L+ d$ I4 C迈向真正的多模态统一0 `9 a& {) g4 }* E( Z7 `( P5 L
DeepSeek在论文最后提到,DeepSeek-OCR2通过DeepEncoder V2验证了「LLM作为视觉编码器」的可行性。9 Y& K) Q# L4 O9 N; o- z
这不仅是一个OCR模型的升级,更是迈向原生多模态(Native Multimodality)的重要一步。
8 H* G2 Z* T/ O6 f6 v# r {" n未来,同一个编码器只要配备不同的模态查询嵌入(Query Embeddings),就能处理文本、图片、音频等多种模态的数据,真正实现万物皆可Token,万物皆可因果推理。
) Z( z( s1 F4 w7 N' {DeepSeek表示,虽然目前光学文本识别(OCR)是LLM时代最实用的视觉任务之一,但这只是视觉理解宏大图景的一小部分。/ g) k5 X5 A' ~# U# i
DeepSeek将继续探索,向着更通用的多模态智能进发。 |
|