找回密码
 立即注册
查看: 982|回复: 2

DeepSeek又拿第一!首创“因果流”视觉推理,超越Gemini ...

[复制链接]

4077

主题

535

回帖

1万

积分

论坛元老

积分
12921
发表于 2026-2-15 22:36:29 | 显示全部楼层 |阅读模式
pTu3q38MncMnVIXM.jpg ' ~) B  d: G9 E* \- Z
编辑:定慧 好困
8 m9 K) H) |! f. j- f0 I【新智元导读】DeepSeek开源DeepSeek-OCR2,引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。  L+ P0 T! x- C
DeepSeek又双叒叕更新了!9 a; k% e+ k" H& }% G. {9 O
这次是DeepSeek-OCR模型的重磅升级:DeepSeek-OCR2。
7 j& l+ e6 `" p: J: t lBk6gIFs7RsgrY1b.jpg
% F0 z/ a$ U# c( p: ?# {2 L还记得上一代DeepSeek-OCR吗?那个用视觉方式压缩一切的模型。
- o) _3 W0 i/ e' i( d这一次,DeepSeek更进一步,对视觉编码器下手了,提出了一种全新的DeepEncoder V2架构,实现了视觉编码从「固定扫描」向「语义推理」的范式转变!: _8 }, X8 [% z1 d
v70qZD1igDIdciso.jpg 9 A4 G1 c- p6 ~; y- s7 R4 y
DeepSeek-OCR2不仅能像人类一样按逻辑顺序阅读复杂文档,还在多项基准测试中刷新了SOTA。
: \' ~  t  p/ d# L' o+ @/ G- j当然,按照DeepSeek的惯例,Paper、Code、Model全开源!9 P& y8 ?0 Z9 Q. i
zNW7921h1xV1QXq9.jpg
& w$ p0 |6 l1 y$ U& P6 J/ SDeepSeek-OCR2的核心创新在于通过DeepEncoder V2,赋予了模型因果推理能力(Causal Reasoning)。
" t8 @0 ]  k9 Q% s3 X这就像是给机器装上了「人类的阅读逻辑」,让AI不再只是死板地从左上到右下扫描图像,而是能根据内容语义灵活调整阅读顺序。
; g$ m6 ^$ o' K" E' c; x! ~DeepSeek-OCR2, I6 z, @% Q$ h8 u
视觉因果流
- @5 W) A: @+ G5 d- wDeepSeek在论文中指出,传统的视觉语言模型(VLM)通常采用光栅扫描(Raster-Scan)顺序处理图像,即固定地从左到右、从上到下。
* M* J% k' S7 c+ y/ ~这种方式强行将2D图像拍扁成1D序列,忽略了图像内部的语义结构。! q4 c* P# W. f+ M* |
fa88RVr9fv8P9eRs.jpg - w$ Y( W, J  V# n. k
这显然与人类的视觉习惯背道而驰。* C; `6 U& Q2 h
人类在看图或阅读文档时,目光是随着逻辑流动的:先看标题,再看正文,遇到表格会按列或按行扫视,遇到分栏会自动跳跃。- o# s! A5 y0 ?
为了解决这个问题,DeepSeek-OCR2引入了DeepEncoder V2。  g! C7 v. L2 [
它最大的特点是用一个轻量级的大语言模型(Qwen2-0.5B)替换了原本的CLIP编码器,并设计了一种独特的「因果流查询」(Causal Flow Query)机制。9 ^, Z$ B2 x2 S% `' n; U+ Z" F
DeepEncoder V2架构详解4 Z& C- ]3 Q4 d
DeepEncoder V2主要由两部分组成:1 z  t# h% j  t0 }) f; y; K
1. 视觉分词器(Vision Tokenizer), O: g8 [& n& }
沿用了SAM-base(80M参数)加卷积层的设计,将图像转换为视觉Token。
5 A1 r" W) b  z: ` Y55Bb2fgzgFG0f11.jpg . X: ~' m) u0 Z" M6 @
2. 作为视觉编码器的LLM2 ?9 A! V8 {0 @* M) E( j! o8 [
这里DeepSeek使用了一个Qwen2-0.5B模型。
0 b3 H3 {6 g8 I! q; B它不仅处理视觉Token,还引入了一组可学习的「查询Token」(Query Tokens)。6 A) W' ^, j  J6 s$ v
LbGsl23S6dlMVn63.jpg
% P  q4 x3 P4 M, p) E  |关键的创新点在于注意力掩码(Attention Mask)的设计:$ }8 L  ]: r, f6 i0 \5 }/ R& ^& @7 a
JRajWCZ6k3KcbDko.jpg
( W* z7 B/ C9 G+ a1 l2 g视觉Token之间采用双向注意力(Bidirectional Attention),保持全局感知能力,类似于ViT。3 A. M7 r, v& W* M; H% r
而查询Token则采用因果注意力(Causal Attention),每一个查询Token只能看到它之前的Token。
) ?1 D' f( U; z7 j5 F1 Y- o; ]4 e2 ^通过这种设计,DeepEncoder V2实现了两级级联的因果推理:& h+ T8 B, |& v) B1 O+ N* W
编码器通过可学习的查询对视觉Token进行语义重排,随后的LLM解码器则在这个有序序列上进行自回归推理。0 W) ]8 W3 Y# }$ l, ?
这意味着,DeepSeek-OCR2在编码阶段就已经把图像里的信息「理顺」了,而不是一股脑地扔给解码器。
: d5 ~+ w5 O, pToken更少,精度更高9 {! H" C# Z! i6 Y
实验数据显示,DeepSeek-OCR2在保持极高压缩率的同时,性能显著提升。3 M5 S1 }5 U/ n9 }6 I) N- q
在OmniDocBench v1.5基准测试中,DeepSeek-OCR2在使用最少视觉Token(仅256-1120个)的情况下,综合得分高达91.09%,相比前代提升了3.73%。4 G  n$ y( N3 y" C
R7t89H111s1x2gSx.jpg
5 R# Y) L) q; K( Q特别值得一提的是,在阅读顺序(R-order)的编辑距离(Edit Distance)指标上,DeepSeek-OCR2从前代的0.085显著降低到了0.057。
5 k2 M+ o( i/ Q8 h4 u" V这直接证明了新模型在处理复杂版面时,逻辑性更强,更懂「阅读顺序」。
3 y  x9 Q+ ?0 D, n9 p$ B" z在和Gemini-3 Pro等闭源强模型的对比中,DeepSeek-OCR2也丝毫不落下风。
$ L; R6 O4 [* Q8 s% p3 `$ {在均使用约1120个视觉Token的情况下,DeepSeek-OCR2的文档解析编辑距离(0.100)优于Gemini-3 Pro(0.115)。0 @) J7 q" f% c( x& `8 h$ d$ u( G% w
XJzoAIj7QsAOW07h.jpg
2 _' n& V; N' ]+ ^( s# ^: K gm916YMt2699x19y.jpg ' @  w' i: L" E3 I
不仅是刷榜,DeepSeek-OCR2在实际生产环境中也非常能打。
, |* a: V0 {) v1 C2 C5 b; h+ y, sDeepSeek披露,在处理在线用户日志图像时,OCR结果的重复率从6.25%降到了4.17%;在PDF数据生产场景中,重复率从3.69%降到了2.88%。
7 R. b2 Z" v* v$ s, w8 K1 A ieZy45N94MyMInie.jpg   s1 `6 p7 h- ?
这意味着模型生成的文本更加干净、准确,对于作为LLM训练数据的清洗流水线来说,价值巨大。3 p  t5 G: H  ?" G
迈向真正的多模态统一5 q# Z8 U6 ^- I* J( m
DeepSeek在论文最后提到,DeepSeek-OCR2通过DeepEncoder V2验证了「LLM作为视觉编码器」的可行性。
  W" t! z! O4 w; w% {" w这不仅是一个OCR模型的升级,更是迈向原生多模态(Native Multimodality)的重要一步。
; H5 L  x" h& w7 m  N未来,同一个编码器只要配备不同的模态查询嵌入(Query Embeddings),就能处理文本、图片、音频等多种模态的数据,真正实现万物皆可Token,万物皆可因果推理。
: X1 G3 R) s0 `4 sDeepSeek表示,虽然目前光学文本识别(OCR)是LLM时代最实用的视觉任务之一,但这只是视觉理解宏大图景的一小部分。
, F3 p1 R% Y! Z( PDeepSeek将继续探索,向着更通用的多模态智能进发。
集群智慧云科服专利申请服务

30

主题

440

回帖

1420

积分

等待验证会员

积分
1420
发表于 2026-2-15 23:06:34 | 显示全部楼层
DeepSeek总能不断给我们惊喜!
集群智慧云科服SCI/SSCI/EI期刊发表服务

30

主题

440

回帖

1420

积分

等待验证会员

积分
1420
发表于 2026-2-15 23:36:40 | 显示全部楼层
好样的,DeepSeek!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


快速回复 返回顶部 返回列表