|
|
- H% g, K7 m# m' C
编辑:定慧 好困% r; v' v; \( ?" t( d Y4 w
【新智元导读】DeepSeek开源DeepSeek-OCR2,引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。1 E) T# L3 |6 z/ l& B! V5 X
DeepSeek又双叒叕更新了!
' n5 }. f8 f- Z! I9 h' f7 k这次是DeepSeek-OCR模型的重磅升级:DeepSeek-OCR2。. q% a) V5 t* E" j% C
: w8 z* H; ]. b* o P( R4 o( P还记得上一代DeepSeek-OCR吗?那个用视觉方式压缩一切的模型。4 l0 C* F4 i; p3 O
这一次,DeepSeek更进一步,对视觉编码器下手了,提出了一种全新的DeepEncoder V2架构,实现了视觉编码从「固定扫描」向「语义推理」的范式转变!$ C J, }* Y+ U( v. J
% G" B- ?5 I3 A* U R5 Y
DeepSeek-OCR2不仅能像人类一样按逻辑顺序阅读复杂文档,还在多项基准测试中刷新了SOTA。8 u2 M) A0 Z% B
当然,按照DeepSeek的惯例,Paper、Code、Model全开源!
2 o' l: q# I; j" e b. f
2 A) c. c3 |, y& ?
DeepSeek-OCR2的核心创新在于通过DeepEncoder V2,赋予了模型因果推理能力(Causal Reasoning)。3 Z$ H3 Q5 `7 L' l$ I& d- }
这就像是给机器装上了「人类的阅读逻辑」,让AI不再只是死板地从左上到右下扫描图像,而是能根据内容语义灵活调整阅读顺序。% C6 F& I9 g5 H- R1 a. w! _
DeepSeek-OCR2+ `9 X6 [# S% N5 ^% C
视觉因果流
! k9 J0 ?) g2 {* n0 \+ BDeepSeek在论文中指出,传统的视觉语言模型(VLM)通常采用光栅扫描(Raster-Scan)顺序处理图像,即固定地从左到右、从上到下。$ i" o8 ~" R t
这种方式强行将2D图像拍扁成1D序列,忽略了图像内部的语义结构。6 t B$ J$ d+ ]( x* k" ^6 w
0 U4 }* X% N+ @: L
这显然与人类的视觉习惯背道而驰。
& g% w$ y9 f0 M" ?% k0 G! M人类在看图或阅读文档时,目光是随着逻辑流动的:先看标题,再看正文,遇到表格会按列或按行扫视,遇到分栏会自动跳跃。- q/ |: C# v" i, P' @
为了解决这个问题,DeepSeek-OCR2引入了DeepEncoder V2。+ k+ ^- A" y& U2 i2 l
它最大的特点是用一个轻量级的大语言模型(Qwen2-0.5B)替换了原本的CLIP编码器,并设计了一种独特的「因果流查询」(Causal Flow Query)机制。% V4 B: {9 K, n- J+ D9 i
DeepEncoder V2架构详解" F8 E$ Z0 z. M& D/ P+ y
DeepEncoder V2主要由两部分组成:
& U+ k( e7 M& o/ ?$ _- I ~1. 视觉分词器(Vision Tokenizer)
- B2 D1 O, ^+ y7 d; [! r& g) D. M沿用了SAM-base(80M参数)加卷积层的设计,将图像转换为视觉Token。7 R) G4 m: V! }! u
/ O% w6 ]: i9 J/ M1 G
2. 作为视觉编码器的LLM) u+ L( C) ?" E" A. e5 g
这里DeepSeek使用了一个Qwen2-0.5B模型。8 x3 ~ L# a8 v. G, A0 v$ W4 E
它不仅处理视觉Token,还引入了一组可学习的「查询Token」(Query Tokens)。, Q% g" l1 R7 g0 N, o9 U a' o; P+ s
2 ]& q; y, o2 h& U% B
关键的创新点在于注意力掩码(Attention Mask)的设计:
9 v S' ~% Z( l0 M4 q% ^, W7 F
. D# e2 M( ?0 a, M+ \视觉Token之间采用双向注意力(Bidirectional Attention),保持全局感知能力,类似于ViT。; E6 Q7 d/ R; r+ I2 M: j$ ]8 c7 @2 D+ y
而查询Token则采用因果注意力(Causal Attention),每一个查询Token只能看到它之前的Token。
% U! H9 c, I$ ]% v9 V, P' d" N通过这种设计,DeepEncoder V2实现了两级级联的因果推理:# K; U( }8 J: `, T* I
编码器通过可学习的查询对视觉Token进行语义重排,随后的LLM解码器则在这个有序序列上进行自回归推理。
+ F' e$ p, n2 h* }7 f7 V这意味着,DeepSeek-OCR2在编码阶段就已经把图像里的信息「理顺」了,而不是一股脑地扔给解码器。& |5 F/ x0 Z N, T4 z& O
Token更少,精度更高; ~6 ]# {) ~ [6 ]: a, b
实验数据显示,DeepSeek-OCR2在保持极高压缩率的同时,性能显著提升。
9 o, c/ A( o' h E在OmniDocBench v1.5基准测试中,DeepSeek-OCR2在使用最少视觉Token(仅256-1120个)的情况下,综合得分高达91.09%,相比前代提升了3.73%。
/ N; ^' g) r* \% e: g. V! f# s, W& |
9 u$ f9 @2 ^- ^- G
特别值得一提的是,在阅读顺序(R-order)的编辑距离(Edit Distance)指标上,DeepSeek-OCR2从前代的0.085显著降低到了0.057。
5 d, Q2 O% ~4 p- r这直接证明了新模型在处理复杂版面时,逻辑性更强,更懂「阅读顺序」。& `3 }5 ^! u/ n7 L6 h0 }2 B
在和Gemini-3 Pro等闭源强模型的对比中,DeepSeek-OCR2也丝毫不落下风。
3 i% g, r# d7 {8 r5 |: m在均使用约1120个视觉Token的情况下,DeepSeek-OCR2的文档解析编辑距离(0.100)优于Gemini-3 Pro(0.115)。
2 f4 d2 {: r9 }+ c7 s8 d1 r9 w
. ~% w8 O! ?% H) q: h) O2 X! o5 ]8 A
4 A4 B! s) J! p7 j% O' ^
不仅是刷榜,DeepSeek-OCR2在实际生产环境中也非常能打。
4 u/ K% }2 G1 W! WDeepSeek披露,在处理在线用户日志图像时,OCR结果的重复率从6.25%降到了4.17%;在PDF数据生产场景中,重复率从3.69%降到了2.88%。3 b* P0 K5 \, a, t5 T
9 u3 `+ `, O- t1 E这意味着模型生成的文本更加干净、准确,对于作为LLM训练数据的清洗流水线来说,价值巨大。
, V- E( z' {( h! K. d8 n+ B迈向真正的多模态统一; {2 J- P$ e# C' ?3 w* C( @" r" | U
DeepSeek在论文最后提到,DeepSeek-OCR2通过DeepEncoder V2验证了「LLM作为视觉编码器」的可行性。; B7 X: I3 x3 D, J; b2 n
这不仅是一个OCR模型的升级,更是迈向原生多模态(Native Multimodality)的重要一步。9 ~* y2 C+ c) Z6 W5 w
未来,同一个编码器只要配备不同的模态查询嵌入(Query Embeddings),就能处理文本、图片、音频等多种模态的数据,真正实现万物皆可Token,万物皆可因果推理。: h* P1 F" ^2 J$ q6 z
DeepSeek表示,虽然目前光学文本识别(OCR)是LLM时代最实用的视觉任务之一,但这只是视觉理解宏大图景的一小部分。 g( ?$ N$ R* V* Q$ ~
DeepSeek将继续探索,向着更通用的多模态智能进发。 |
|