|
|
金磊 发自 凹非寺7 X5 ^7 R" m% v- Q9 o
量子位 | 公众号 QbitAI
2 i& W# f0 ]$ R* C& z0 Q* a# d 0 k. R4 v% L6 y# ?
不得了,机器人现在开始学会脑补未来了。
, p' K- {" D" b3 z$ P9 D0 Y6 s这就是蚂蚁灵波又又又又(连续第4天)开源的狠活儿——# b9 d/ W. F: X' H' j0 n6 O
全球首个用于通用机器人控制的因果视频-动作世界模型,LingBot-VA
* `7 q @0 _, j
/ ]" O$ b6 ?3 f+ b; Q6 w6 m3 Z
0 [1 G6 k' ]) A$ \& M& N
! L/ E6 B- \7 }* i
怎么个脑补法?, m+ }9 _' l+ {3 ?
简单来说啊,以前的机器人(尤其是基于VLA的)干活儿,主打一个条件反射:眼睛看到什么,手立刻就动一下。
; l) H5 m0 s" W' M, d/ q3 F7 v7 `3 A+ x& V这叫“观察-反应”模式。
4 D" a {& v% O4 S6 n但LingBot-VA就不一样了,它通过自回归视频预测打破了这种思考方式,在动手之前,脑子里先把未来几秒的画面推演出来。1 b8 A- p Y% w9 X
说实话,用想象力做决策,在机器人控制这块还是相当新鲜的。
* C( y3 p0 F5 p但这不是LingBot-VA唯一的亮点,还包括:6 u7 ^3 }- z- o X/ U7 k* A# R/ N
6 G0 g/ ~: b* z1 q7 ~# W% Z8 W# X, J, _ N- @
- 记忆不丢失:做长序列任务(比如做早餐)时,它会记得自己刚才干了什么,状态感知极强。
7 o. p* b$ ~" N7 c - 高效泛化:只要给几十个演示样本,它就能适应新任务;换个机器人本体,也能hold住。0 o/ s; B* I+ B% r4 m4 X5 U
% |# v( c; G8 {9 s0 h' s! k
- D$ ^( n9 J/ v
4 I1 l. w* o. \8 \" w6 Q/ ]' I3 m# X
) }& l/ n' x# l" b# ?9 i
因此在LingBot-VA的加持下,像清洗细小的透明试管这种高精度任务,机器人已经是可以轻松拿捏:
. f1 q/ P" A8 t2 }" m8 l
! c) k: @! j+ T
4 K/ D) i* P" z) K( l! o
) a6 d/ \ ~5 l" m' S2 b视频地址:https://mp.wEIxin.qq.com/s/xqE6C72usddKMc4EH89myA# M1 J1 {# c. \6 O$ H$ @
正如我们刚才提到的,今天是蚂蚁灵波连续第四天开源。/ G2 A6 S0 @- e& Y8 h
如果说前几天的开源是给机器人加强了眼睛(LingBot-Depth)、大脑(LingBot-VLA)和世界模拟器(LingBot-World),那么今天的LingBot-VA,就是让这具躯壳真正拥有了灵魂7 d( ?' ]: `% K0 ?: I4 }
一个行动中的世界模型,让想象真正落到执行层面。* j9 J9 b0 O! N. T
如此一来,通用机器人的天花板,算是被蚂蚁灵波往上顶了一截。
- h& `, Y- Y7 J0 G; P' f% S正如网友所述:: [. s" W8 B. ~1 V4 F
. j# K0 X2 {/ K/ C" z5 a6 t; G3 }+ @0 S7 A% n
1 a; y5 F( N3 S, d8 ]3 V- B X
- 从预测到执行;说实话这是巨大的飞跃。& K3 Z) \+ W3 w4 f' l7 E+ F
4 x5 A1 O) Q! W* x+ n+ L* S5 a9 c
?& U- i3 _- `' r3 t: X
+ R2 I( [* d, |0 Z
7 M4 ~7 X. }0 k3 K- s, X0 r
X' C! w# \1 a0 e& h让想象力先行一步5 u ^) ]1 r' O& G8 c9 \
U9 j. _+ h8 _- u2 h1 z# M! ~$ B7 g# {
LingBot-VA在架构设计上选择了一条更进一步的路径。6 f0 R# K7 z, D) H, ~
在传统的VLA(视觉-语言-动作)范式中,模型通常会将视觉理解、物理变化推理、低层动作控制这三项复杂任务放在同一个神经网络中处理,这在学术界被称为表征缠绕(Representation Entanglement)。$ f% S1 x1 ?* I a0 h# U, P
为了追求更高的样本效率和更强的泛化能力,LingBot-VA选择把这团乱麻解开,提出了一套全新的解题思路:先想象世界,再反推动作。
; }$ _( w8 I9 `' w' D; i为了实现这个想法,蚂蚁灵波团队采用了一个两步走的策略:1 G5 z& ~4 k: E) @4 Q
9 D5 m! o6 l! K/ T' |7 v4 P8 }2 c
9 l! b$ f* N1 i3 q/ O
- 视频世界模型:先预测未来的视觉状态(接下来会发生什么)。
( l" R8 S! f* y; B$ ~3 p% { - 逆向动力学(Inverse Dynamics):基于视觉的变化,反推出应该执行什么动作(为了达到这个画面,手该怎么动)。+ L5 f! u0 l1 E" L. d0 Y
3 c' u# n2 ^# ?9 h5 X
这与传统VLA有着本质区别:它不直接从“现在”跳到“动作”,而是要经过一下“未来”这个步骤。
5 t; _# Y. w2 g" g如何实现?蚂蚁灵波团队主要将三个架构层面作为突破口。& j, v( q( U% d% Z' }& Y, E1 b
0 _; l4 ], Z! K2 [" V$ N; h0 v
7 f [+ M _: N F) {/ ]
V M& T9 W1 |% P: n6 f
首先就是视频与动作的自回归交错序列
5 ^$ c; i& x6 K \. n在LingBot-VA的模型里,视频Token和动作Token被放进了同一条时间序列里。
6 l8 Q( O& ~. B4 I- D& l5 o为了保证逻辑严密,团队引入了因果注意力(Causal Attention)。这就像给模型定了一条死规矩:只能用过去的信息,绝对不能偷看未来。6 @- J" w4 ~$ O8 }* R, s
同时,借助KV-cache技术,模型拥有了超强的长期记忆。它清楚地知道自己三步之前做了什么,任务绝对不会失忆。$ o$ F# `; r7 w& V& A* a4 Z" W! u
& y* f6 a0 p$ ?) A) e, |, Q8 d; s# b4 Y5 f; y/ G' U& ?5 b& P: K
- _% X) \( {& H+ u
其次是Mixture-of-Transformers (MoT) 的分工协作
1 @1 m5 p# |$ V5 h. |这一步主要是为了解决我们前面提到的表征缠绕的问题。
: m0 m, r' ^9 }3 ~我们可以把过程理解为“左右互搏”,但又很默契的一种配合:
& }- ^. P! ]* v+ E0 g5 h) c
! R- z: m: I3 J0 ^2 D) f
# N+ @ c* r3 w- 视频流:宽而深,负责繁重的视觉推演。
7 J" O! z& x% f& @, C - 动作流:轻而快,负责精准的运动控制。! E: c9 X( Q6 D% k
5 p% m* B9 ]* i l5 n8 G
这两个流共享注意力机制,信息互通,但在各自的表征空间里保持独立。8 a9 [! l0 ]8 w0 w
这样一来,视觉的复杂性不会干扰动作的精准度,动作的简单性也不会拉低视觉的丰富度。
- o) Q4 a# {" F8 s, a: P$ ]最后就是工程设计相关的工作。
+ t- Q" t' @& v y3 T毕竟光有理论是不好使的,“实践才是检验真理的唯一标准”:4 y1 o% ?8 r% q- N
" G p( v, L k( h7 `8 {: b
$ ^7 ~% ~: I. s
- 部分去噪(Partial Denoising):做动作预测时,其实不需要每一次都把未来画面渲染得高清无码。模型学会了从带有噪点的中间状态里提取关键信息,计算效率大大提升。' f6 s; J4 }# _ A1 u) f U
- 异步推理(Asynchronous Inference):机器人在执行当前动作的时候,模型已经在后台疯狂计算下一步了。推理和执行并行,延迟感几乎消失。
* L8 L o1 Z6 r0 H/ t$ n - FDM 接地(Grounding):为了防止模型想象力脱离现实,系统会用真实的观测数据不断校正想象,避免出现开放式的幻觉漂移。
: z/ K6 v: B" H( {9 K 实验结果与能力验证$ [1 c# {, o- i2 {& {: D5 J
& j4 L' D; }5 s
9 G$ w% P7 H- v7 T0 l8 L. G2 p- q在了解完理论之后,我们再来看实验效果。* c, Q U+ W; n5 p4 v K6 `
蚂蚁灵波团队在真机实验和仿真基准上,对LingBot-VA进行了全方位的实测。
( l7 I6 b. b2 `8 |1 ?' o( n在真机测试中,LingBot-VA覆盖了三类最具挑战性的任务。
9 c: g1 i, S6 z7 ` |% z首先是长时序任务,比如准备早餐(烤面包、倒水、摆盘)、拆快递(拿刀、划箱、开盖)。
- C! H& {2 Q- O6 Y4 ]
8 |/ h7 W0 g& }/ H: ]
* U4 z- [( _# @9 G [. v1 a1 q) x2 O5 d
视频地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA' L" y3 r/ Y5 }
这些任务步骤繁多,但凡中间有一步有误,那可以说是满盘皆输。从LingBot-VA的表现来看,一个字,
1 W( t% i. l" S* P. S. ?即便是不小心失败了,机器人也会记得进度,尝试重来。
3 ?2 q( |3 q% T5 v4 T0 h第二类是高精度任务,比如擦试管、拧螺丝。" I1 P: c% V+ K- M
5 z N( O* o# k# E! ]
7 S6 ]9 S* l& B* T) v
y! W$ ?1 f* M& X# Q. R6 O k! ~5 Z& b视频地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA( k9 U4 q9 U" Q! Y0 z: N' R4 D
这要求动作精度达到毫米级,得益于MoT架构,动作流不再受视觉噪声的干扰,手极稳。
7 L+ _/ z7 K' J" R; c8 ]9 n8 p刚才我们已经看了擦拭管的案例,再来看个拧螺丝的:
0 _5 S( {- Y5 R1 x1 Y第三类任务是针对可变形物体,例如折衣服、折裤子。* A( O0 S' b7 n
) _: y- R' q* \5 J! ~& `8 t- {4 w9 @7 s) M
* c0 J' A! ^1 F& A! v
视频地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA# T4 e3 P. x1 V& s7 m9 I% w/ @
这些任务的难点在于物体处于一个随时变化的状态,但LingBot-VA通过视频推演,预判了布料的形变,操作行云流水。, O- w% H+ V: C; t* a" v
除此之外,LingBot-VA在RoboTwin 2.0和LIBERO这两个硬核仿真基准上,也是很能打的。0 m/ B# E N" }7 C/ |% B
尤其是在RoboTwin 2.0的双臂协作任务中,无论是简单的固定场景(Easy),还是复杂的随机场景(Hard),LingBot-VA都展现出了不错的实力:6 G6 l( g' @+ y
+ F. W' M% j) @% T+ B$ ~ A
2 y2 k# N9 n' Q5 @: Y- RoboTwin 2.0 (Easy):成功率92.93%,比第二名高出4.2%。
$ t/ `/ |+ r# @1 _0 W! | - RoboTwin 2.0 (Hard):成功率91.55%,比第二名高出4.6%。! p$ n, k$ m3 P) o, P' l7 [
9 g$ I- Q; g2 W: Y% f0 C) E
1 M! p0 h) G" ^" }
- z8 d8 W' A9 m8 a3 U. s) I, o1 f! J, T& {( n1 u
而且有一个趋势非常明显:
; u, u1 s# J9 H任务越难、序列越长(Horizon变大),LingBot-VA的领先优势就越大。 O! _8 U% J+ T) Q1 b7 x
在 Horizon=3 的长任务中,它的优势甚至扩大到了9%以上。, }! |0 I+ J! F) {) w
而在LIBERO基准测试中,LingBot-VA更是拿下了98.5%的平均成功率,刷新了SOTA记录。) p: Y& N0 ]/ g7 i
, A+ s6 _$ m4 h2 @/ u
0 ~4 y4 r: z) J
: R. N- r. K+ ]; I% p% j
总结一下,通过这些实验,我们可以清晰地看到LingBot-VA的三个核心特质:" Q" D* w, K3 Y" _
5 {& I! r* p5 J; U; Y! v; L) M! H
9 b* N0 I2 {1 a/ C
- 长期记忆:在一个来回擦盘子的计数任务中,普通VLA模型擦着擦着就忘了擦了几下,开始乱擦;LingBot-VA 则精准计数,擦完即停。这就是KV-cache的起到的作用。
' w: G2 p/ X8 D" u+ }% ]* Y - 少样本适应:面对全新的任务,只需提供50条左右的演示数据,稍微微调一下,它就能学会。这比那些动辄需要成千上万条数据的模型,效率高了几个数量级。
# r3 ^+ j8 G- g4 h. l7 {& C! O# E - 泛化能力:训练时用的是某种杯子,测试时换个形状、换个颜色,或者把杯子随便摆个位置,它依然能准确识别并操作。. I% Q0 ^& a, [9 s+ Y4 Z& D
/ H6 E9 K f) b/ w" [ s, }3 P# R- O
I: `" s; w6 `( s3 V0 P! J6 c, Z$ c
& d6 }% V) W6 k5 @
$ Y7 u7 B% g9 j3 x# n" m& h) k/ X
连续四天开源,已经产生影响5 Y. C2 y7 ~: b: M
0 o. I" ^& y, t* m- N
' T. D6 m2 t: b* B: P# h把时间轴拉长,回看这四天的连续开源,我们会发现蚂蚁灵波下了一盘大棋。# C# N) I- B6 i, X7 p4 K
因为这四个开源项目拼凑在一起,就会形成一条非常清晰的技术主线:* \) c% m" A/ `* g
+ _& K3 d- P. Y1 O( A( Z$ Y1 k
3 U9 @; n6 r; L8 b) p# |! V) S- Day 1: LingBot-Depth——解决“看清”的问题。让感知能够更加清晰。5 I% |5 r" | E
- Day 2: LingBot-VLA——解决“连接”的问题。打通语言、视觉到动作的通用接口。
- l. W( u2 v9 e/ X- J* _( c - Day 3: LingBot-World——解决“理解”的问题。构建可预测、可想象的世界模型。" p2 @5 x) ?# X! x3 o
- Day 4: LingBot-VA——解决“行动”的问题。把世界模型真正嵌入控制闭环,让想象指导行动。
: q' ]7 E! o! r. M & C' q2 x) C0 @% b
这四块拼图凑在一起,释放了一个强烈的信号:
U2 L2 Z/ L8 h5 T1 G) @通用机器人正在全面走向视频时代。# z ~# X0 G0 L$ t: _
视频,不再仅仅是训练用的数据素材,它正在成为推理的媒介,成为连接感知、记忆、物理和行动的统一表征。 ~# @- \. s' ]; Y5 n1 p3 ?
这对于整个行业来说,价值是巨大的。3 J* p, J) h1 N. B
对通用机器人来说,长任务、复杂场景、非结构化环境,这些曾经的硬伤,现在有了系统性的解法。
8 S( W- o1 X5 ]$ \% l从具身智能路线来看,世界模型不再是一个可选项,它正式成为了机器人的中枢能力,从“能动”进化到“会想再动”。2 f5 x! F- Z9 s
并且蚂蚁灵波的持续不断地开源动作,不仅仅是提供了代码、模型这么简单,更是一条可复现、可扩展的技术范式。4 t0 I2 p1 n' M9 H# @
而蝴蝶效应也在行业中开始显现。
0 W% l( j& D* r* ]# j( O就在这两天,谷歌宣布通过Project Genie项目让更多人体验Genie 3;宇树科技宣布开源UnifoLM-VLA-0……
4 x7 k6 t$ g- c5 `& B0 f5 |海外媒体也对蚂蚁灵波的开源动作有了不小关注,点评道:
; E1 ?7 G# p' Z7 Q; I
) D Y t: ~5 u' D, \( |
0 X# u6 O$ c$ x/ Y o8 z, Q6 l7 l6 f- }
- 蚂蚁集团发布了名为LingBot-World的高质量机器人AI模拟环境。这家中国金融科技公司完善了一套完整的开源工具包,用于物理AI系统的开发。这也是在全球机器人领域主导权争夺战中的一项战略性举措。
$ k' ^5 v N. T' g2 d8 b# z" ^
5 |5 g% v: _+ {! e* W
! }9 w' V( M2 S7 X, ^( ]6 h
! j' x. W! N6 r5 ~/ n7 T* w& R* |0 o# T8 _6 E
嗯,蚂蚁灵波的压力是给到位了。) e; ?9 q" s& \! m2 @
总而言之,LingBot-VA的出现,标志着世界模型第一次真正站上了机器人控制的主舞台。) L2 O7 a0 h7 I& J: G7 f
项目地址:* W* ]- ~- U3 u) Q& V% q# }
https://technology.robbyant.com/lingbot-va; V# p" m1 v! T5 }- W) Y
GitHub地址:, z( O& }9 s' ^' q/ @
https://github.com/robbyant/lingbot-va! G* o) l) @) B- Y7 I0 c
项目权重:6 `+ Z6 J/ Y: P1 Y
https://huggingface.co/robbyant/lingbot-va( |2 H& K2 u( d1 ]! g& X
https://www.modelscope.cn/collections/Robbyant/LingBot-va |
|