找回密码
 立即注册
查看: 981|回复: 2

DeepSeek又拿第一!首创“因果流”视觉推理,超越Gemini ...

[复制链接]

4077

主题

535

回帖

1万

积分

论坛元老

积分
12921
发表于 2026-2-15 22:36:29 | 显示全部楼层 |阅读模式
pTu3q38MncMnVIXM.jpg . Z4 X! S. R7 o2 N7 T: d
编辑:定慧 好困
( R$ j9 F* q) a$ r+ M% t【新智元导读】DeepSeek开源DeepSeek-OCR2,引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。- J5 h. X9 {( m* s1 {
DeepSeek又双叒叕更新了!7 I" B+ C$ \) o) z2 m
这次是DeepSeek-OCR模型的重磅升级:DeepSeek-OCR2。1 B( O7 D; r( E
lBk6gIFs7RsgrY1b.jpg
  ?1 h% j. C' H- w' i6 V4 i还记得上一代DeepSeek-OCR吗?那个用视觉方式压缩一切的模型。' L* Z# n. ]7 q% m
这一次,DeepSeek更进一步,对视觉编码器下手了,提出了一种全新的DeepEncoder V2架构,实现了视觉编码从「固定扫描」向「语义推理」的范式转变!- S' g. H& Z$ ]+ |! I0 x: B5 a
v70qZD1igDIdciso.jpg
$ p8 {4 C4 |; I/ S3 W7 ODeepSeek-OCR2不仅能像人类一样按逻辑顺序阅读复杂文档,还在多项基准测试中刷新了SOTA。
- X& a% F! z' z* M2 m. Z6 _当然,按照DeepSeek的惯例,Paper、Code、Model全开源!( P/ _. Z2 a5 j
zNW7921h1xV1QXq9.jpg
! g* c- U) d9 `6 b+ A: ]( k7 uDeepSeek-OCR2的核心创新在于通过DeepEncoder V2,赋予了模型因果推理能力(Causal Reasoning)。
8 k- L! v/ u: `' O6 c这就像是给机器装上了「人类的阅读逻辑」,让AI不再只是死板地从左上到右下扫描图像,而是能根据内容语义灵活调整阅读顺序。# j4 ~: ~! s$ \) v4 i- c
DeepSeek-OCR2: n$ H" P& `# q, H
视觉因果流
* `6 t" s6 V1 ?, ~4 ^DeepSeek在论文中指出,传统的视觉语言模型(VLM)通常采用光栅扫描(Raster-Scan)顺序处理图像,即固定地从左到右、从上到下。
9 i* K5 y% ?  j( u这种方式强行将2D图像拍扁成1D序列,忽略了图像内部的语义结构。
# H* b1 v9 A. r% w fa88RVr9fv8P9eRs.jpg * L( V* u. P6 _  o; ]
这显然与人类的视觉习惯背道而驰。* i( g) E) Z6 s% w1 i$ N. e( X
人类在看图或阅读文档时,目光是随着逻辑流动的:先看标题,再看正文,遇到表格会按列或按行扫视,遇到分栏会自动跳跃。
+ G# H1 F- [! L& d4 n为了解决这个问题,DeepSeek-OCR2引入了DeepEncoder V2。# r% s0 g. ?9 ~, V
它最大的特点是用一个轻量级的大语言模型(Qwen2-0.5B)替换了原本的CLIP编码器,并设计了一种独特的「因果流查询」(Causal Flow Query)机制。" w( b# \# y/ }
DeepEncoder V2架构详解
- I9 G3 y/ a1 b+ {DeepEncoder V2主要由两部分组成:
9 p; n2 a6 ?0 n% Z# M7 k* }3 f% |1. 视觉分词器(Vision Tokenizer)
% `- L& I& o* q* ]沿用了SAM-base(80M参数)加卷积层的设计,将图像转换为视觉Token。( u& E4 e: W8 h# B9 O
Y55Bb2fgzgFG0f11.jpg
: o) C, H( l1 l5 `/ l& R2. 作为视觉编码器的LLM
& v4 ~7 I$ N, l8 q! X这里DeepSeek使用了一个Qwen2-0.5B模型。3 u$ ^" |6 e* a* E
它不仅处理视觉Token,还引入了一组可学习的「查询Token」(Query Tokens)。; d- s& O- k8 ]" q
LbGsl23S6dlMVn63.jpg ! D' o' X0 @/ ^# f; a+ a& z
关键的创新点在于注意力掩码(Attention Mask)的设计:2 }' S$ v2 @& s4 w
JRajWCZ6k3KcbDko.jpg
; O- j2 e+ d! s! ^8 F% I0 a3 E/ R视觉Token之间采用双向注意力(Bidirectional Attention),保持全局感知能力,类似于ViT。+ n! T% x8 t6 u
而查询Token则采用因果注意力(Causal Attention),每一个查询Token只能看到它之前的Token。( J# l& o6 N& X, X1 |6 _* K
通过这种设计,DeepEncoder V2实现了两级级联的因果推理:& O4 h7 t2 @# ~+ j/ R
编码器通过可学习的查询对视觉Token进行语义重排,随后的LLM解码器则在这个有序序列上进行自回归推理。( ^1 Q4 X  }3 V, T
这意味着,DeepSeek-OCR2在编码阶段就已经把图像里的信息「理顺」了,而不是一股脑地扔给解码器。
; o+ Q3 O6 `2 r& @Token更少,精度更高0 [- ?# `* u" T) P0 Y, ]! ~
实验数据显示,DeepSeek-OCR2在保持极高压缩率的同时,性能显著提升。
- B; _; S, |! i在OmniDocBench v1.5基准测试中,DeepSeek-OCR2在使用最少视觉Token(仅256-1120个)的情况下,综合得分高达91.09%,相比前代提升了3.73%。% b3 b# G! B8 j2 i: W$ }& n( f: v
R7t89H111s1x2gSx.jpg & f; W: q3 I& l
特别值得一提的是,在阅读顺序(R-order)的编辑距离(Edit Distance)指标上,DeepSeek-OCR2从前代的0.085显著降低到了0.057。
# \3 k# {! s! @* D; b  ^这直接证明了新模型在处理复杂版面时,逻辑性更强,更懂「阅读顺序」。; W# i$ n% I6 x: R3 k
在和Gemini-3 Pro等闭源强模型的对比中,DeepSeek-OCR2也丝毫不落下风。, m! l7 E# @$ ^+ y
在均使用约1120个视觉Token的情况下,DeepSeek-OCR2的文档解析编辑距离(0.100)优于Gemini-3 Pro(0.115)。
5 }$ z! e% o. T& C) A+ {4 o XJzoAIj7QsAOW07h.jpg
: |  b# B) O6 c gm916YMt2699x19y.jpg
! t  b! Z0 B: A不仅是刷榜,DeepSeek-OCR2在实际生产环境中也非常能打。
1 o" O$ W. d3 ~# [$ `DeepSeek披露,在处理在线用户日志图像时,OCR结果的重复率从6.25%降到了4.17%;在PDF数据生产场景中,重复率从3.69%降到了2.88%。+ d5 n% |4 w% \7 u! Y
ieZy45N94MyMInie.jpg / x6 N) m4 C) f$ J% a) @' [& o
这意味着模型生成的文本更加干净、准确,对于作为LLM训练数据的清洗流水线来说,价值巨大。6 G* j0 C1 y. I3 ^
迈向真正的多模态统一
, D/ y2 `  y' ~: G1 ?' vDeepSeek在论文最后提到,DeepSeek-OCR2通过DeepEncoder V2验证了「LLM作为视觉编码器」的可行性。+ a( ^  X+ p" _! \
这不仅是一个OCR模型的升级,更是迈向原生多模态(Native Multimodality)的重要一步。! H) A5 T' D# |8 B& y7 A8 G9 s( T
未来,同一个编码器只要配备不同的模态查询嵌入(Query Embeddings),就能处理文本、图片、音频等多种模态的数据,真正实现万物皆可Token,万物皆可因果推理。$ C7 n& k% i" J; }6 X
DeepSeek表示,虽然目前光学文本识别(OCR)是LLM时代最实用的视觉任务之一,但这只是视觉理解宏大图景的一小部分。1 Y6 y5 B+ M7 y: ~( ~( i4 b
DeepSeek将继续探索,向着更通用的多模态智能进发。
集群智慧云科服专利申请服务

30

主题

440

回帖

1420

积分

等待验证会员

积分
1420
发表于 2026-2-15 23:06:34 | 显示全部楼层
DeepSeek总能不断给我们惊喜!
集群智慧云科服SCI/SSCI/EI期刊发表服务

30

主题

440

回帖

1420

积分

等待验证会员

积分
1420
发表于 2026-2-15 23:36:40 | 显示全部楼层
好样的,DeepSeek!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


快速回复 返回顶部 返回列表