找回密码
 立即注册
查看: 371|回复: 0

大事不好!机器人学会预测未来了

[复制链接]

4077

主题

535

回帖

1万

积分

论坛元老

积分
12921
发表于 2026-2-15 21:00:37 | 显示全部楼层 |阅读模式
金磊 发自 凹非寺" q6 j5 r- D1 j& f- @
量子位 | 公众号 QbitAI
2 z0 V  n, x% P, [1 L
7 w  x  r, i7 O7 \6 |3 F7 g  y  F
不得了,机器人现在开始学会脑补未来了。5 T' x/ C9 j3 K/ r
这就是蚂蚁灵波又又又又(连续第4天)开源的狠活儿——  d$ p0 H* I* d8 A: l
全球首个用于通用机器人控制的因果视频-动作世界模型,LingBot-VA
, y6 }* P# K% b5 ^. l4 Q0 Y* J) v lIiZiXBTgq8ZMik3.jpg
, L- E3 E3 P: t- o! h6 d- z
' f1 T4 [  k2 H
0 F; \- m" m, c7 @- Q5 J* {: w怎么个脑补法?) p, S9 ~9 r, W! G
简单来说啊,以前的机器人(尤其是基于VLA的)干活儿,主打一个条件反射:眼睛看到什么,手立刻就动一下。$ _: i6 U. y/ l  q7 T: \
这叫“观察-反应”模式。. l4 [" G, C' k7 q6 A3 k$ I; P
但LingBot-VA就不一样了,它通过自回归视频预测打破了这种思考方式,在动手之前,脑子里先把未来几秒的画面推演出来。
: o( w2 J) Y! H; [6 V说实话,用想象力做决策,在机器人控制这块还是相当新鲜的。
3 e9 G4 C3 N/ v6 I2 p8 |6 k( ]/ M但这不是LingBot-VA唯一的亮点,还包括:
. r. o) M* G; G( d4 K6 C" l
: I% ]+ `/ e2 u3 T! n( ~  H0 K6 ?

    ) @% E" [( M- O  M# q  u9 t% k. h
  • 记忆不丢失:做长序列任务(比如做早餐)时,它会记得自己刚才干了什么,状态感知极强。* r! t9 y9 A: r! ~; ^
  • 高效泛化:只要给几十个演示样本,它就能适应新任务;换个机器人本体,也能hold住。% G8 Z9 r" P( m
# u; Y0 |8 o7 S% H: x
O8G7Z3Y88Ym0AgAY.jpg
0 c) L8 |' Y, x) S) ~
) [2 p! i' ?8 a) a/ K7 H
8 A( s7 d) c' h6 Q因此在LingBot-VA的加持下,像清洗细小的透明试管这种高精度任务,机器人已经是可以轻松拿捏:) p, }; r( e. ]7 B$ ^
M5m7T5505W3cg4Wc.jpg $ i5 p* _2 m" e, y) O" u9 u8 J6 M( W  I
% [( [0 L2 Q5 R1 H

2 c5 {% P1 v% M9 \$ y+ {: h( r! K视频地址:https://mp.wEIxin.qq.com/s/xqE6C72usddKMc4EH89myA6 ]/ q% ^7 m% F& L( A0 O. \
正如我们刚才提到的,今天是蚂蚁灵波连续第四天开源。# {0 s: u$ M5 m/ I1 O; X$ D
如果说前几天的开源是给机器人加强了眼睛(LingBot-Depth)、大脑(LingBot-VLA)和世界模拟器(LingBot-World),那么今天的LingBot-VA,就是让这具躯壳真正拥有了灵魂$ x& c! Q3 Q0 {  c- r
一个行动中的世界模型,让想象真正落到执行层面。
. }4 w4 }; u6 s1 d$ e如此一来,通用机器人的天花板,算是被蚂蚁灵波往上顶了一截。
0 l9 b0 i6 u: S8 \% v正如网友所述:
! u! q" j, \) B/ I! l4 g- P2 y3 S3 V. {( s
6 C& b/ L# o5 I* G1 j

    4 F4 k; i6 H+ f9 m: N& B
  • 从预测到执行;说实话这是巨大的飞跃。
    ! W5 y+ j4 K& P2 T) \) c; F! N
3 p5 Y4 ^3 C7 }. r
UkQZbMvba5MhQLsw.jpg
3 [5 b  m/ v5 `# d3 Y) Z4 ~; e  j- n  Y" n- \5 ]6 ~6 J
. I9 Z- ]! u8 ]* N2 X
+ H: d0 ^7 Y: m3 n
让想象力先行一步9 l- {/ K$ D0 J5 k0 J) h
( h1 B; W$ Y: k- r( S# |8 d" R

; O6 f; P" \/ vLingBot-VA在架构设计上选择了一条更进一步的路径。
& b2 \- D% _; S" v# ~5 q在传统的VLA(视觉-语言-动作)范式中,模型通常会将视觉理解、物理变化推理、低层动作控制这三项复杂任务放在同一个神经网络中处理,这在学术界被称为表征缠绕(Representation Entanglement)。  j5 E) Y$ Z: Y2 H
为了追求更高的样本效率和更强的泛化能力,LingBot-VA选择把这团乱麻解开,提出了一套全新的解题思路:先想象世界,再反推动作。: J& l5 {' Z4 {, e. B
为了实现这个想法,蚂蚁灵波团队采用了一个两步走的策略:- d  b$ U4 @# u% h0 F
# G: r. p  E$ e
    1 s7 {( }9 ?5 {, N2 n% \- R3 G
  • 视频世界模型:先预测未来的视觉状态(接下来会发生什么)。# e6 G2 g! g" i. s$ r9 Z, u
  • 逆向动力学(Inverse Dynamics):基于视觉的变化,反推出应该执行什么动作(为了达到这个画面,手该怎么动)。
    ( ?, p4 }9 k4 ]1 c! k
$ I4 A0 u* n, G8 c( F9 s% a
这与传统VLA有着本质区别:它不直接从“现在”跳到“动作”,而是要经过一下“未来”这个步骤。! o, v8 ?" x0 e% g- {) K0 N
如何实现?蚂蚁灵波团队主要将三个架构层面作为突破口。
( k1 k: I5 }$ H# M, h! W uCcqC7xs7zSi538w.jpg
/ Y, g2 d- p' ?7 s0 O+ G; Q
1 u9 U' Q# I/ N! s- A0 Z" i* A. m' p& h0 n) v: e. R9 I
首先就是视频与动作的自回归交错序列
, n: s" o# l) e0 H: Z8 _) |3 d6 q在LingBot-VA的模型里,视频Token和动作Token被放进了同一条时间序列里。
( d% p' |/ S7 `4 z4 B" J6 A为了保证逻辑严密,团队引入了因果注意力(Causal Attention)。这就像给模型定了一条死规矩:只能用过去的信息,绝对不能偷看未来。
  _2 _: P6 m! b. n- Y' k% l同时,借助KV-cache技术,模型拥有了超强的长期记忆。它清楚地知道自己三步之前做了什么,任务绝对不会失忆。
7 @) K' F( i  p; R! V) ?$ L po1MA3kS2KTo2nso.jpg
+ E3 p# r  B' ~+ |
9 }9 \2 L& R" c! {  P4 E
, V. `$ ?$ _9 A# A$ |% f- N其次是Mixture-of-Transformers (MoT) 的分工协作
# _! H; D& v! t# j- @这一步主要是为了解决我们前面提到的表征缠绕的问题。! U; O8 \' I, s4 J" b
我们可以把过程理解为“左右互搏”,但又很默契的一种配合:. B; g5 i& G( p' X1 U6 z# _/ x# ~

, L8 A0 z5 O9 ]( b& w5 o
    , G& x8 w: T3 D: v
  • 视频流:宽而深,负责繁重的视觉推演。% W- X5 [3 I+ g' L  X0 _+ {  g
  • 动作流:轻而快,负责精准的运动控制。5 \- j0 c' B& i

1 x& K* s1 v6 m5 U0 g. }& O/ k; b这两个流共享注意力机制,信息互通,但在各自的表征空间里保持独立。3 \' [' y% O% k  q' H- s
这样一来,视觉的复杂性不会干扰动作的精准度,动作的简单性也不会拉低视觉的丰富度。
2 u+ c7 h3 P" z3 G. }8 B* h最后就是工程设计相关的工作。
# Q* D' F3 Z6 Z6 B# Z毕竟光有理论是不好使的,“实践才是检验真理的唯一标准”:
! |7 s/ Y9 Q( `5 ]+ t
4 H% y9 u, O( f4 o' c
    5 \: d3 W* g5 M! j: u8 O5 g
  • 部分去噪(Partial Denoising):做动作预测时,其实不需要每一次都把未来画面渲染得高清无码。模型学会了从带有噪点的中间状态里提取关键信息,计算效率大大提升。
    ) B; @+ ]- r  h* L2 @+ z
  • 异步推理(Asynchronous Inference):机器人在执行当前动作的时候,模型已经在后台疯狂计算下一步了。推理和执行并行,延迟感几乎消失。
    6 ^% D! r- d# M' k* F
  • FDM 接地(Grounding):为了防止模型想象力脱离现实,系统会用真实的观测数据不断校正想象,避免出现开放式的幻觉漂移。
    ) L9 S1 a. ~0 R" v
实验结果与能力验证
' w. ]" Y- _' L8 P5 e# W% r
# ~' o- ]5 _% p" W0 Z
& Z8 K9 }1 [' M* Y9 o9 Q0 n在了解完理论之后,我们再来看实验效果。
/ M) m. c! @5 y* R/ S: A! r蚂蚁灵波团队在真机实验和仿真基准上,对LingBot-VA进行了全方位的实测。
6 c8 H: V! I) U5 ^: z8 |! E在真机测试中,LingBot-VA覆盖了三类最具挑战性的任务。
+ E2 c0 C5 C  P7 E9 R4 p5 h# ]首先是长时序任务,比如准备早餐(烤面包、倒水、摆盘)、拆快递(拿刀、划箱、开盖)。. ]. Q. U& E' _1 k% h* }4 P
UzhchDLkele8AVnz.jpg $ p- ~! ^' e& s* m' O& b
; l/ m0 r; }5 ~4 Y

* _' [- l1 o0 e; L视频地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA9 Y( N+ Y  D4 F
这些任务步骤繁多,但凡中间有一步有误,那可以说是满盘皆输。从LingBot-VA的表现来看,一个字,
! D! M$ S6 i, W即便是不小心失败了,机器人也会记得进度,尝试重来。
4 u) u5 f+ G, ~第二类是高精度任务,比如擦试管、拧螺丝。
! Q# Q# C, V& W! y- \9 v j6u2WDrWWhQu65wu.jpg
( t: R' l0 A" q/ m+ g( |! |: n! R* X# b1 F4 \" @( H- _

6 J# u; j6 ?0 [, v视频地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA
% W' Q9 S. c9 K: T这要求动作精度达到毫米级,得益于MoT架构,动作流不再受视觉噪声的干扰,手极稳。3 x  a/ M/ U9 Z* f# C8 J
刚才我们已经看了擦拭管的案例,再来看个拧螺丝的:
' D7 K4 q- W" B第三类任务是针对可变形物体,例如折衣服、折裤子。- W/ ?. i5 f! H+ l
RFy2a5FyU3g2yVgU.jpg 3 x) R& B+ C- K' ^2 s0 e

" t5 ^: _/ Y; ?1 u) t7 l7 l. M& L  a# _9 z3 U$ `! w
视频地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA
9 Z) Y* H2 ]1 g这些任务的难点在于物体处于一个随时变化的状态,但LingBot-VA通过视频推演,预判了布料的形变,操作行云流水。1 U! O+ m  D/ t0 T
除此之外,LingBot-VA在RoboTwin 2.0和LIBERO这两个硬核仿真基准上,也是很能打的。, e  }+ J2 K) V1 l1 l
尤其是在RoboTwin 2.0的双臂协作任务中,无论是简单的固定场景(Easy),还是复杂的随机场景(Hard),LingBot-VA都展现出了不错的实力:
! X6 \% G6 u% |; l7 l; n2 x+ ^6 @7 `6 p9 G2 Y

    6 ]/ [; H6 C5 M1 d. H
  • RoboTwin 2.0 (Easy):成功率92.93%,比第二名高出4.2%。* L0 J: A( ?& |* g* G
  • RoboTwin 2.0 (Hard):成功率91.55%,比第二名高出4.6%。
    ; P$ x' e4 B+ a+ m! x7 Y7 Y
7 \5 x, X" X7 q! y- A
m0uLHx8KIYtblITY.jpg 5 v$ i0 u8 O% x7 ?7 S' m
0 i: m. G  j: @# C' Y5 S
5 e1 N% v6 ?1 k4 C# m1 _6 J
而且有一个趋势非常明显:- d  k: S+ o- d  w
任务越难、序列越长(Horizon变大),LingBot-VA的领先优势就越大。
6 B7 T4 ]6 W2 z1 V在 Horizon=3 的长任务中,它的优势甚至扩大到了9%以上。
4 E) W  L4 X& X# `' j6 E6 W, m6 t而在LIBERO基准测试中,LingBot-VA更是拿下了98.5%的平均成功率,刷新了SOTA记录。
) L+ \1 g9 l( e2 e7 T; ` S1c993tnn7RIc9Ts.jpg ; u9 j- Q$ s/ ~; h

- D9 b8 O1 U7 S3 i( N5 Y9 R) p# \+ n- A4 d" j: J* R
总结一下,通过这些实验,我们可以清晰地看到LingBot-VA的三个核心特质:
7 x  U4 z$ G9 \( u' n
/ E# N( D6 _3 L* y% e

    ) q- ~$ h$ i, G; v. [6 m* R& s
  • 长期记忆:在一个来回擦盘子的计数任务中,普通VLA模型擦着擦着就忘了擦了几下,开始乱擦;LingBot-VA 则精准计数,擦完即停。这就是KV-cache的起到的作用。
    0 h; g0 L  a3 B
  • 少样本适应:面对全新的任务,只需提供50条左右的演示数据,稍微微调一下,它就能学会。这比那些动辄需要成千上万条数据的模型,效率高了几个数量级。
    + i  ^" u1 ]3 c0 k
  • 泛化能力:训练时用的是某种杯子,测试时换个形状、换个颜色,或者把杯子随便摆个位置,它依然能准确识别并操作。
    * @: M) }5 U' `6 p
, c, y, O4 j/ O2 m
ULiyol7i1rZrOO2S.jpg 3 v/ v# v$ u% j
: w' S4 [8 ^4 U; t

' D9 ^" ]6 ~% t& a0 d5 e1 W% l# v+ j2 N5 U( S
连续四天开源,已经产生影响4 f- P7 ^& m4 l

/ [. p  W& k) D" O1 Z9 c4 `- B' Q  U4 w
把时间轴拉长,回看这四天的连续开源,我们会发现蚂蚁灵波下了一盘大棋。
0 s+ _, S9 Q; F2 s9 d$ l因为这四个开源项目拼凑在一起,就会形成一条非常清晰的技术主线:  H0 _" W2 ^6 R$ H

/ w0 C; q4 G7 M$ m& Q

    . {7 x5 ^5 |' ]
  • Day 1: LingBot-Depth——解决“看清”的问题。让感知能够更加清晰。
    * Y% |: F: i* W" F. Z
  • Day 2: LingBot-VLA——解决“连接”的问题。打通语言、视觉到动作的通用接口。
    ' p% Q( ^0 u6 A6 R2 W. L' H
  • Day 3: LingBot-World——解决“理解”的问题。构建可预测、可想象的世界模型。
    5 p6 M# O7 I8 N2 H/ P
  • Day 4: LingBot-VA——解决“行动”的问题。把世界模型真正嵌入控制闭环,让想象指导行动。) W9 Y8 r& ~# t$ I0 W5 B9 Q+ e

8 k2 D. o/ Z: N2 V* h, d) x这四块拼图凑在一起,释放了一个强烈的信号:
7 V# H# e' S* ^( F2 ?. Y5 }通用机器人正在全面走向视频时代。
; ?  n: ?0 n: A7 K" O4 C视频,不再仅仅是训练用的数据素材,它正在成为推理的媒介,成为连接感知、记忆、物理和行动的统一表征。
6 b2 `% i5 @$ _( F  ^8 y, L  N0 q这对于整个行业来说,价值是巨大的。
# O, w$ R# c$ X- ]: T' q对通用机器人来说,长任务、复杂场景、非结构化环境,这些曾经的硬伤,现在有了系统性的解法。
2 h5 s0 ~; H! I* Q' n) x( p5 e1 ]从具身智能路线来看,世界模型不再是一个可选项,它正式成为了机器人的中枢能力,从“能动”进化到“会想再动”。; k! Y$ @( q0 I* c" ], i
并且蚂蚁灵波的持续不断地开源动作,不仅仅是提供了代码、模型这么简单,更是一条可复现、可扩展的技术范式。7 E/ |8 s4 U# _# \
而蝴蝶效应也在行业中开始显现。
8 v- E$ C% ]( c5 ?) d! }就在这两天,谷歌宣布通过Project Genie项目让更多人体验Genie 3;宇树科技宣布开源UnifoLM-VLA-0……
% Q2 ^  g" m7 W% a海外媒体也对蚂蚁灵波的开源动作有了不小关注,点评道:, v. d1 S7 w) S9 Y$ ?- l
8 r) A, ?7 O' \; w3 d7 N

0 `$ P. B: P( |$ V  C9 ]
    . f3 V+ n& l8 t9 B' Z
  • 蚂蚁集团发布了名为LingBot-World的高质量机器人AI模拟环境。这家中国金融科技公司完善了一套完整的开源工具包,用于物理AI系统的开发。这也是在全球机器人领域主导权争夺战中的一项战略性举措。- \# ^( `3 J1 \$ o* I. ?3 \
) K; \8 }- a9 ?9 ]9 C  `( b
e3KRKkGX3fCCeCEy.jpg
: B6 b+ V* e! u9 r5 E3 ~9 S% \4 k; j" b
& i6 R8 d, q. w# P/ F
嗯,蚂蚁灵波的压力是给到位了。
' {' k9 k/ I+ ~8 W/ [+ K% v4 q总而言之,LingBot-VA的出现,标志着世界模型第一次真正站上了机器人控制的主舞台。
. q1 a7 ^6 A" b9 x项目地址:
4 t# {2 W7 |* U( B4 Q6 {5 g5 |https://technology.robbyant.com/lingbot-va; ?# t: K: v( J
GitHub地址:! t% r; f( m' x, ^, ~# b' T
https://github.com/robbyant/lingbot-va
, C8 |* S* p/ K( q0 t项目权重:; u- T2 j- t* y* I- x
https://huggingface.co/robbyant/lingbot-va
0 o+ P  ]9 ~* u& E: @5 Bhttps://www.modelscope.cn/collections/Robbyant/LingBot-va
集群智慧云科服专利申请服务
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


快速回复 返回顶部 返回列表