|
|
金磊 发自 凹非寺% c( P* r8 D ^9 R7 a. ]
量子位 | 公众号 QbitAI
8 t# {6 K2 b1 v) Y4 E/ _
3 k2 ^2 P9 z3 t) ?* O2 T不得了,机器人现在开始学会脑补未来了。
0 }% V# v( a! H$ M3 {5 `+ N. l这就是蚂蚁灵波又又又又(连续第4天)开源的狠活儿——
0 G! N- O' s& f8 Q/ }- z全球首个用于通用机器人控制的因果视频-动作世界模型,LingBot-VA
2 N! N. j1 x2 A6 Z
; ]$ O# ^( _3 d5 E& u; v4 \& Q( H5 b6 [7 j
4 u+ S4 H- m) h8 l7 m
怎么个脑补法?
9 t d! D$ v8 r8 O% x6 Z简单来说啊,以前的机器人(尤其是基于VLA的)干活儿,主打一个条件反射:眼睛看到什么,手立刻就动一下。
! _4 y% J4 H, C) w) N. w3 i这叫“观察-反应”模式。
# A* _* j* N1 |. b" I但LingBot-VA就不一样了,它通过自回归视频预测打破了这种思考方式,在动手之前,脑子里先把未来几秒的画面推演出来。: r! s/ |7 @5 j0 O ? e
说实话,用想象力做决策,在机器人控制这块还是相当新鲜的。
! A7 y& i' ~5 ]% }* q但这不是LingBot-VA唯一的亮点,还包括:# d7 {. ]/ [8 u8 |( L' _
( L& t2 N9 B9 g- ]1 [8 ^* Y0 s R) J9 j9 @6 t" k
- 记忆不丢失:做长序列任务(比如做早餐)时,它会记得自己刚才干了什么,状态感知极强。" z- r9 C) W8 M
- 高效泛化:只要给几十个演示样本,它就能适应新任务;换个机器人本体,也能hold住。7 L0 C) }. v7 q* |7 K% V
( H. S, I! u& r% \
7 k% u/ @" ?& l7 A" J1 Y0 W7 \
" f) m A$ G" e+ ?5 p5 i5 @8 `9 L- ]5 s3 z* {# a" N
因此在LingBot-VA的加持下,像清洗细小的透明试管这种高精度任务,机器人已经是可以轻松拿捏:
; s5 ]* W% U) u% b
* |7 P. _' s$ I
- ?! x; c. \" ^9 `7 o; k
- |6 b' a: G% R+ G视频地址:https://mp.wEIxin.qq.com/s/xqE6C72usddKMc4EH89myA
/ l* y# w( ^. C- h; @" D- z" A/ o1 m正如我们刚才提到的,今天是蚂蚁灵波连续第四天开源。
' w; _; Y5 `2 T+ o& A# }如果说前几天的开源是给机器人加强了眼睛(LingBot-Depth)、大脑(LingBot-VLA)和世界模拟器(LingBot-World),那么今天的LingBot-VA,就是让这具躯壳真正拥有了灵魂
3 J" i) M( {2 c3 g' U4 F* `3 w$ _1 P一个行动中的世界模型,让想象真正落到执行层面。
: I! r- ~/ i: z7 M如此一来,通用机器人的天花板,算是被蚂蚁灵波往上顶了一截。' D$ d1 ^/ P3 Z' P- p9 y: t+ o
正如网友所述:5 ]7 X- f7 u9 P9 \0 h
. c" L" e2 ^5 h' l/ ~: L
, ~$ G) P0 L" T# P
" `6 p) N& S& z4 d- O( s
- 从预测到执行;说实话这是巨大的飞跃。- C/ d) V- G* v5 i
( v ^$ I" R' n0 j, ?! K+ F
, O) s" a5 U$ k+ W, c; p3 t' }& n6 J) ^- c
8 X4 k0 @/ _: ?+ f
1 ?4 {3 G3 b9 ? F& E让想象力先行一步7 f/ o* C; s/ h
0 D) T# X4 W. D- S8 l
, ^" J+ }9 k5 k. c; p
LingBot-VA在架构设计上选择了一条更进一步的路径。0 q- a5 Z8 n" }5 [6 q+ r
在传统的VLA(视觉-语言-动作)范式中,模型通常会将视觉理解、物理变化推理、低层动作控制这三项复杂任务放在同一个神经网络中处理,这在学术界被称为表征缠绕(Representation Entanglement)。
1 V3 s) I: E5 V9 T为了追求更高的样本效率和更强的泛化能力,LingBot-VA选择把这团乱麻解开,提出了一套全新的解题思路:先想象世界,再反推动作。
$ x! s" s# Y0 N$ ]! H为了实现这个想法,蚂蚁灵波团队采用了一个两步走的策略:) O- z/ z. I' x ?
# W0 M6 @3 P, r$ K _1 N
: e3 E! |, N7 ?5 M; [5 Z- 视频世界模型:先预测未来的视觉状态(接下来会发生什么)。, T9 [; e% [3 I8 {
- 逆向动力学(Inverse Dynamics):基于视觉的变化,反推出应该执行什么动作(为了达到这个画面,手该怎么动)。5 N4 U" Q4 M2 B' B) I# m
0 v6 m7 w! x+ N ]( U7 r0 N7 I
这与传统VLA有着本质区别:它不直接从“现在”跳到“动作”,而是要经过一下“未来”这个步骤。
) J5 v$ \. u( O如何实现?蚂蚁灵波团队主要将三个架构层面作为突破口。
1 o5 |/ [ ?- R' K9 `9 a8 s' F
1 }. A( W( S1 g" p$ g1 ]3 X; W( D& D/ T X$ j8 N
! W/ D5 n1 t+ d: X+ o- m# \2 ^. e) h" A
首先就是视频与动作的自回归交错序列
4 M! S2 U9 O/ d5 v: |在LingBot-VA的模型里,视频Token和动作Token被放进了同一条时间序列里。' @- }. [' B; m' Z3 O8 B+ @0 i
为了保证逻辑严密,团队引入了因果注意力(Causal Attention)。这就像给模型定了一条死规矩:只能用过去的信息,绝对不能偷看未来。
% ]. x( n8 d: P4 y. O同时,借助KV-cache技术,模型拥有了超强的长期记忆。它清楚地知道自己三步之前做了什么,任务绝对不会失忆。
" I" r) Z: ~' k( l0 {6 J0 F
$ T# U$ s) s" ?- J I( L: {5 ?: Q
* s" ~' `" R& [ H2 A其次是Mixture-of-Transformers (MoT) 的分工协作
7 x2 j+ r/ L7 t; O1 R' g. i这一步主要是为了解决我们前面提到的表征缠绕的问题。2 f H5 W7 z7 u- R6 V$ d& b8 j5 j
我们可以把过程理解为“左右互搏”,但又很默契的一种配合:7 K, S3 @( O4 b
& j, p6 Q9 Z/ ]5 G
7 M0 K ]2 i: B) L- _3 B- 视频流:宽而深,负责繁重的视觉推演。5 \* J+ A1 I; E: I3 a
- 动作流:轻而快,负责精准的运动控制。
0 l* s/ ?* G$ o7 }) ]
3 Z5 r# o1 v5 o Q/ @' v这两个流共享注意力机制,信息互通,但在各自的表征空间里保持独立。/ z* N9 s" H: Y; {
这样一来,视觉的复杂性不会干扰动作的精准度,动作的简单性也不会拉低视觉的丰富度。$ E: K& T1 r3 a' @! @. l1 @/ \3 i
最后就是工程设计相关的工作。
; `" e d, k, }" L, Q7 j, l6 Q; B毕竟光有理论是不好使的,“实践才是检验真理的唯一标准”:) |7 o. Z. k1 P' p
6 ?( B: j! Y- P! @3 n
& j* K' u6 T, q/ h5 |# f1 Y
- 部分去噪(Partial Denoising):做动作预测时,其实不需要每一次都把未来画面渲染得高清无码。模型学会了从带有噪点的中间状态里提取关键信息,计算效率大大提升。& X4 c4 `/ A, J- g8 c
- 异步推理(Asynchronous Inference):机器人在执行当前动作的时候,模型已经在后台疯狂计算下一步了。推理和执行并行,延迟感几乎消失。$ ~7 W( Y& _' c# B( f5 \
- FDM 接地(Grounding):为了防止模型想象力脱离现实,系统会用真实的观测数据不断校正想象,避免出现开放式的幻觉漂移。
5 e& G. r' i. z M- q ^4 { 实验结果与能力验证
) s- H) b8 q" l9 _7 X/ q% \% G2 M* e, W$ L
d$ @4 _0 u, t* e. N
在了解完理论之后,我们再来看实验效果。7 i2 Y# g7 Z8 W8 w0 i1 b
蚂蚁灵波团队在真机实验和仿真基准上,对LingBot-VA进行了全方位的实测。
3 O& \" {6 f- u2 n1 g. R在真机测试中,LingBot-VA覆盖了三类最具挑战性的任务。% t& x! f) {! U4 S6 d
首先是长时序任务,比如准备早餐(烤面包、倒水、摆盘)、拆快递(拿刀、划箱、开盖)。
" L& C, y Q) }- f$ I8 r+ K
9 c; d' r' g, n4 F$ a- p0 D4 e+ y/ w. T
7 L/ B- x# G9 e2 z. v5 f7 Q9 t- B视频地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA
* z9 M# L6 T+ M( y& f+ Q9 i- {, `这些任务步骤繁多,但凡中间有一步有误,那可以说是满盘皆输。从LingBot-VA的表现来看,一个字,$ n* P: G! [3 L. k) A4 [/ p
即便是不小心失败了,机器人也会记得进度,尝试重来。: d- z8 X r) N. ~5 [ W& k
第二类是高精度任务,比如擦试管、拧螺丝。
5 T2 u. v7 ^+ v5 y
! _4 q( N- k5 J$ A
8 h) Q: b/ `7 ]4 w# A0 j7 \$ T6 H `, |1 V. A7 N( \6 l. S
视频地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA* }4 W- N/ G0 @( X; M
这要求动作精度达到毫米级,得益于MoT架构,动作流不再受视觉噪声的干扰,手极稳。7 p/ p$ s# u: f9 \
刚才我们已经看了擦拭管的案例,再来看个拧螺丝的:
7 Z' B1 j5 |" d8 T! H, [- v第三类任务是针对可变形物体,例如折衣服、折裤子。" z# ]9 z. m* m. U& M. {- U) u
3 r9 p! C& @+ X. ^( P- z
% K* L. j% s) r- W" P% P# J4 `) h% J, q
视频地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA
Z" F: v2 d y/ `! I这些任务的难点在于物体处于一个随时变化的状态,但LingBot-VA通过视频推演,预判了布料的形变,操作行云流水。* j* b1 ^2 E, e2 Z7 r
除此之外,LingBot-VA在RoboTwin 2.0和LIBERO这两个硬核仿真基准上,也是很能打的。8 x( P+ C2 m: S1 g3 J& `
尤其是在RoboTwin 2.0的双臂协作任务中,无论是简单的固定场景(Easy),还是复杂的随机场景(Hard),LingBot-VA都展现出了不错的实力:
7 [8 y9 g6 s) L3 P8 Q0 U
" Z8 P3 |. j0 [0 k
* ]$ b1 M) j9 k# N* _6 k+ y- RoboTwin 2.0 (Easy):成功率92.93%,比第二名高出4.2%。4 J, {, ?2 w- {& C# |4 E% J9 ~
- RoboTwin 2.0 (Hard):成功率91.55%,比第二名高出4.6%。
& a" T: B! r3 j0 L3 H+ J$ v ! A a' [! {' ^* B; y/ J7 ^9 U- @
/ N7 u% z+ r/ g" H: |
0 q$ i9 r) @( t+ W! W! F
, P) h) w: S5 V% p而且有一个趋势非常明显:
) s% I9 Y) I3 Q E0 g" C任务越难、序列越长(Horizon变大),LingBot-VA的领先优势就越大。
/ w5 d0 w' F. Z" S8 E4 o+ ?0 t在 Horizon=3 的长任务中,它的优势甚至扩大到了9%以上。$ H! C( K% b: w- D j
而在LIBERO基准测试中,LingBot-VA更是拿下了98.5%的平均成功率,刷新了SOTA记录。% g5 B' Z) ^+ C/ S
; E* K, [4 s" _! K
& l, s0 e: U$ W+ ]! r% L
$ W$ O$ T1 G) n/ e2 P5 A
总结一下,通过这些实验,我们可以清晰地看到LingBot-VA的三个核心特质:! ~9 N8 Q ?7 M$ C
* `$ u( T% H- H1 [+ X& S
7 i7 ^& L, R$ a3 z E P- 长期记忆:在一个来回擦盘子的计数任务中,普通VLA模型擦着擦着就忘了擦了几下,开始乱擦;LingBot-VA 则精准计数,擦完即停。这就是KV-cache的起到的作用。; k, a( C; O% C w6 q+ r3 S9 U' g
- 少样本适应:面对全新的任务,只需提供50条左右的演示数据,稍微微调一下,它就能学会。这比那些动辄需要成千上万条数据的模型,效率高了几个数量级。
0 {. E4 k% f- A$ u+ D5 a. G. g - 泛化能力:训练时用的是某种杯子,测试时换个形状、换个颜色,或者把杯子随便摆个位置,它依然能准确识别并操作。5 w) S* t6 s" A& n$ S4 E
/ T @! F: u: W% k' n$ ^* S9 l) ^
* N2 Y. F5 v7 G! p" z* k; o
( O1 H# l* E2 M8 F
) p, G3 x0 S& a; e6 r
4 N R! R; [! v; s( l5 ]
连续四天开源,已经产生影响+ ~+ Y& |8 _$ @; |. ` l+ d) q5 F
. P7 r S. A3 D. U0 j
1 L- Z' x, y/ g* i( F
把时间轴拉长,回看这四天的连续开源,我们会发现蚂蚁灵波下了一盘大棋。# g7 D: P$ v" i& F* A5 o
因为这四个开源项目拼凑在一起,就会形成一条非常清晰的技术主线:% U4 y- C! q- _3 l1 v
; B' x6 O: j2 F9 p9 S3 T& y: D4 d, Y8 W" t2 h6 V3 K
- Day 1: LingBot-Depth——解决“看清”的问题。让感知能够更加清晰。
; k7 S* z! [/ J) Y( I - Day 2: LingBot-VLA——解决“连接”的问题。打通语言、视觉到动作的通用接口。
w V% m5 B, c \! k - Day 3: LingBot-World——解决“理解”的问题。构建可预测、可想象的世界模型。9 V0 Z l0 `3 A+ O* [
- Day 4: LingBot-VA——解决“行动”的问题。把世界模型真正嵌入控制闭环,让想象指导行动。
; B1 x, u8 U# A 1 D0 |8 ^' P, O1 H7 x* @0 O2 k
这四块拼图凑在一起,释放了一个强烈的信号:' L; q$ P6 ^9 d8 E+ P
通用机器人正在全面走向视频时代。# j3 G2 h# a0 E% p5 P- r3 q" K0 O
视频,不再仅仅是训练用的数据素材,它正在成为推理的媒介,成为连接感知、记忆、物理和行动的统一表征。7 F( f& _) q# m. A F
这对于整个行业来说,价值是巨大的。
/ o1 U- Z$ r2 ?! u对通用机器人来说,长任务、复杂场景、非结构化环境,这些曾经的硬伤,现在有了系统性的解法。
! y2 u% z1 n0 T' ?# Q, N# _0 N, X J从具身智能路线来看,世界模型不再是一个可选项,它正式成为了机器人的中枢能力,从“能动”进化到“会想再动”。
+ ?+ [( O% v4 p( s3 k并且蚂蚁灵波的持续不断地开源动作,不仅仅是提供了代码、模型这么简单,更是一条可复现、可扩展的技术范式。) d4 ?; R( o) |
而蝴蝶效应也在行业中开始显现。- R' e: _1 I. l1 k
就在这两天,谷歌宣布通过Project Genie项目让更多人体验Genie 3;宇树科技宣布开源UnifoLM-VLA-0……
' T$ s0 `1 X* Z5 K/ ]5 L海外媒体也对蚂蚁灵波的开源动作有了不小关注,点评道:
( b# q( Y1 p& r/ V
7 \' k" P' k' n7 A5 |) M, e" d+ b: y. V0 J; e3 S; n* |! }) @) f
* x0 R5 L1 f, {: \1 r- V% e
- 蚂蚁集团发布了名为LingBot-World的高质量机器人AI模拟环境。这家中国金融科技公司完善了一套完整的开源工具包,用于物理AI系统的开发。这也是在全球机器人领域主导权争夺战中的一项战略性举措。5 T1 O9 _& r3 C0 O5 ]
' U" p$ M5 e1 Z# S8 I/ R: O
- H& T9 F' l9 p: c
- e) W$ O3 x. t* j+ c
9 ], ?9 `7 H2 K2 H/ T
嗯,蚂蚁灵波的压力是给到位了。
& y$ T9 C+ G! I3 V1 S( d" i总而言之,LingBot-VA的出现,标志着世界模型第一次真正站上了机器人控制的主舞台。0 Y: q( w/ ]8 z+ S: b( U8 L0 v' U
项目地址:
$ ^" }" s9 @& q) u$ [+ Y; Q }3 shttps://technology.robbyant.com/lingbot-va. V' s5 W' N& s3 M. [2 N3 s7 x9 O
GitHub地址:' V! V& O7 l2 i8 s( ^5 S+ m) v1 N
https://github.com/robbyant/lingbot-va
3 c; l; t. Y2 z2 y6 p7 ?项目权重:2 Q4 F* d6 {# [% q- v
https://huggingface.co/robbyant/lingbot-va. _; Y% x* O+ i" o7 p6 t
https://www.modelscope.cn/collections/Robbyant/LingBot-va |
|