|
|
3 t; L1 H, q, W }& b
1 U7 J9 j5 S% u0 ?$ E% U; _; J" C& L3 \8 o: y/ |6 E
在长期以来的 AI 研究版图中,具身智能虽然在机器人操作、自动化系统与现实应用中至关重要,却常被视为「系统工程驱动」的研究方向,鲜少被认为能够在 AI 核心建模范式上产生决定性影响。
4 c7 q6 H+ H/ n: E6 W4 S+ d) t而 ReconVLA 获得 AAAIOutstandingPaper Awards,释放了一个清晰而重要的信号:让智能体在真实世界中「看、想、做」的能力,已经成为人工智能研究的核心问题之一。) i& u, }% }7 ^3 d j
这是具身智能(Embodied Intelligence / Vision-Language-Action)方向历史上,首次获得 AI 顶级会议 Best Paper 的研究工作。这是一次真正意义上的 community-level 认可:不仅是对某一个模型、某一项指标的认可,更是对具身智能作为通用智能核心范式之一的肯定。
6 w8 F6 Z& F7 V c
6 C# h& a7 V4 ? W S
. a, N# u3 s/ g, I: @, }2 g
3 w' ?: G. P3 i' @& |
' r" G; X; q2 u5 `$ S; p
; B& a0 S" w7 r2 p7 Q* v$ x: b- 论文标题:ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot PercEIver9 U) E* k4 I& W+ ] h( K
- 论文地址:https://arxiv.org/abs/2508.103330 z) |" h( \3 {0 q9 A( P
- 论文代码:https://github.com/Chowzy069/Reconvla) @# A3 D1 f- ?
1 R& K* b. T+ [6 G
VLA 模型关键瓶颈:机器人真「看准」了吗?
* u. x& Z& |* e; |3 P( k
7 H# g# G$ q2 }" r8 E% a0 N
9 c& Y3 p8 P# D( a0 [
) L8 g. N5 X2 M! R- b
近年来,Vision-Language-Action(VLA)模型在多任务学习与长时序操作中取得了显著进展。然而,我们在大量实验中发现,一个基础但被长期忽视的问题严重制约了其性能上限:视觉注意力难以稳定、精准地聚焦于任务相关目标。
# ?9 w, S0 W) W/ S: z& ^! X, U% w以指令「将蓝色积木放到粉色积木上」为例,模型需要在复杂背景中持续锁定「蓝色积木」和「粉色积木」。但现实中,许多 VLA 模型的视觉注意力呈现为近似均匀分布,不同于人类行为专注于目标物体,VLA 模型容易被无关物体或背景干扰,从而导致抓取或放置失败。
A2 i0 z* R: v1 v已有工作主要通过以下方式尝试缓解这一问题:+ k4 U( G) u: r8 |% x1 H
1 ]% \" V+ \) ^' G8 J P8 }( \
+ n1 w) q" j+ O
- 显式裁剪或检测目标区域(Explicit Grounding)
Q. K) S# _# W - 预测目标边界框作为中间输出(COT Grounding)
9 H5 Q$ d; X( u
* o$ W" X' |$ r5 v b. j9 a然而,这些方法并未从根本上改变模型自身的视觉表征与注意力分配机制,提升效果有限。
; a: U( p% ^7 |* R7 u g' c, FReconVLA:重建式隐式视觉定位的新范式
9 _+ A5 \2 x5 b
" C" W% V* R7 _; m# @9 Q
: Q& K: f, K% X$ i2 x" x为解决上述瓶颈,我们提出ReconVLA,一种重建式(Reconstructive)Vision-Language-Action 模型。其核心思想是:2 \7 w; p5 e" \7 V
不要求模型显式输出「看哪里」,而是通过「能否重建目标区域」,来约束模型必须学会精准关注关键物体。: p2 R% }. q9 P$ {) X/ n4 U
在 ReconVLA 中,动作预测不再是唯一目标。在生成动作表征的同时,模型还需要完成一项辅助任务:
' ^# Z7 B$ J9 U$ J: o* F0 {重建当前时刻所「凝视」的目标区域 ----- 我们称之为 Gaze Region。
; O2 B8 b! \6 H2 A( c; J/ I! _这一重建过程由轻量级扩散变换器(Diffusion Transformer)完成,并在潜在空间中进行高保真复原。由于要最小化重建误差,模型被迫在其内部视觉表示中编码关于目标物体的精细语义与结构信息,从而在注意力层面实现隐式而稳定的对齐。
0 m4 K& G6 [3 w( y: I3 B这一机制更接近人类的视觉凝视行为,而非依赖外部检测器或符号化坐标监督。
0 Z% v. b1 H) S& k/ F$ q6 V O
+ v& K- W5 c: E/ d& J
+ @6 n3 k3 r7 s8 f
3 L/ X/ X* Q; z" B2 S# b
方法概览 . b; K$ o0 ]' ^7 o2 E* f' k
8 e5 l6 J+ o5 \+ {' G' p
3 B* x1 [; W! I$ |# F7 gReconVLA 的整体框架由两个协同分支组成:
) T" w, T3 z8 v( ?4 ], ]1. 动作预测分支: 模型以多视角图像、自然语言指令与机器人本体状态为输入,生成动作 token,直接驱动机器人执行操作。
! c3 ^9 o# R, y2 D3 L& M2. 视觉重建分支: 利用冻结的视觉 tokenizer,将指令关注的目标区域(Gaze region)编码为高保真潜在 token。主干网络额外输出同维度的重建 token,并以此作为条件,引导扩散去噪过程逐步复原目标区域的视觉表示。
3 i! M* c, G6 H9 B: L重建损失在像素与潜在空间层面为模型提供了隐式监督,使视觉表征与动作决策在训练过程中紧密耦合。1 \1 y# L: s/ q0 ]9 O
( j' X; G* ?5 P
8 W+ `/ x. n" \1 {
+ z5 O9 \" _1 U6 Q8 Z大规模重建预训练
7 a+ d; j* X" D. k9 `+ F- P
6 f. p0 E9 h; k3 l- q
9 m( s. G' |& [# l$ r7 d' A. U- f为赋予 ReconVLA 稳定的视觉重建与泛化能力,我们构建了一个大规模机器人预训练数据集:" k* p$ B E4 W$ R
h( r! a: T: J& z$ [6 w
9 `* _: I' R% D* C n6 S
- 数据规模:超过 10 万条交互轨迹,约 200 万张图像。& w8 e( K9 J2 T- H
- 数据来源:BridgeData V2、LIBERO、CALVIN 等开源机器人数据集。
) {/ I0 B$ z! O- S4 z) _ - 自动化标注:利用微调后的 Grounding DINO 或 Yolo 等方式,从原始图像中自动生成指令对应的目标物体区域(Gaze region),用于重建监督。
+ r. P# ~! E; G/ L * B7 O9 u2 B+ ?. K; |3 @0 L! J
该预训练过程不依赖动作标签,却显著提升了模型在视觉重建、隐式 Grounding 以及跨场景泛化方面的能力,并为未来扩展至互联网级视频数据奠定了一定基础。# p6 W/ w1 h- d$ _' k5 H0 U$ C
实验结果 ; b6 m6 q" E+ G# b& x
# M% y0 J3 R b3 l* }" q N7 W
- Z" |$ T, F4 S- G: `2 [, _9 G9 q# O& H+ n$ j( t- ~
在 CALVIN 仿真基准上,ReconVLA 在长时序任务中显著优于现有方法:
. f1 | ^% [ [/ `! k j, Z5 o+ A2 ?) }4 I, l I$ @$ A, p' n
6 t: U& s c5 r- g' h$ A! d/ ?- ABC→D 泛化任务:平均完成长度达到3.95,全面领先同期所有对比方法。0 f5 }# E* W V
- ABCD→D 长程任务:平均完成长度为4.23,完整任务成功率达70.5%。0 {3 L8 }, l/ y4 ~1 x& x, y
) y, Y5 w/ `, @7 ^& K值得一提的是,在 CALVIN 极具挑战的长程任务「stack block」上我们的方法成功率达到 79.5%,远高于 Baseline 的 59.3%,这说明我们的局部重建作为隐式监督的方法可以在复杂长程任务中实现更灵活的运动规划。! X3 D5 U5 j; G, W8 l
" }; K3 h5 B+ Q6 H: a
4 t6 L4 U# U/ g+ ]" q
! {; E v/ ~. G7 i9 ?4 |在真实机器人实验中,我们基于 AgileX PiPer 六自由度机械臂,测试了叠碗、放水果、翻杯与清理餐桌等任务。ReconVLA 在所有任务上均显著优于 OpenVLA 与 PD-VLA,并在未见物体条件下仍保持 40% 以上的成功率,展现出强大的视觉泛化能力。
! S; R# z' {2 F6 f9 c! i/ r/ S( H
; F, t$ K# K2 u/ z7 N
$ m& D; @- T% a
# a j' t6 ?2 V$ D2 T) X( I' W对比于 Explicit Grounding 和 COT Grounding,ReconVLA 在 CALVIN 上获得了远高于前两者的成功率,由此可分析出:9 H6 A- f0 L3 G3 ~) ]: b$ j; `! M
仅用精细化的目标区域作为模型隐式监督可以实现更加精确的注意力,更高的任务成功率以及更简单的模型夹构。5 M; D D/ \: f0 x
& D" K1 L- F/ B q* [, |( K4 S {- A, c+ [' Z( v' O
! H& l6 O! v7 s4 |- d5 d: {+ k5 X o: h( A
而消融实验表明:" ]: K9 n' Q' s! g @
1. 全图重建仍然由于仅有动作监督的基线,因为全图重建提升了模型的全局感知和理解能力。但由于视觉冗余使得在未知环境下难以展现更好的效果。5 r, D g. R0 Z( c, f( Z8 ?
2. 重建目标区域(Gaze region)具有显著效果,这个机制使得模型专注于目标物体,避免被无关背景干扰。4 U' X: i# C1 f& N" {
3. 大规模预训练显著提升了模型在视觉重建,隐式 Grounding 及跨场景泛化的能力。! W; k3 W8 Y' h, ^% V A! P
总结
5 J% Q' L% t$ _' P* X8 M( D2 `* V
, n) V$ G* ], |( h ' H1 Z1 U1 |' _) _9 U- y8 ^
ReconVLA 的核心贡献并非引入更复杂的结构,而是重新审视了一个基础问题:机器人是否真正理解了它正在注视的世界。/ v$ y+ L" V* j2 a' [0 o
通过重建式隐式监督,我们为 VLA 模型提供了一种更自然、更高效的视觉对齐机制,使机器人在复杂环境中做到「看得准、动得稳」。# l: G" d$ t0 t6 x6 I( X& v, \& s
我们期待这一工作能够推动具身智能从经验驱动的系统设计,迈向更加扎实、可扩展的通用智能研究范式。 |
|