找回密码
 立即注册
查看: 302|回复: 0

大事不好!机器人学会预测未来了

[复制链接]

1869

主题

290

回帖

5700

积分

论坛元老

积分
5700
发表于 前天 21:00 | 显示全部楼层 |阅读模式
金磊 发自 凹非寺% i; g- B  [$ c
量子位 | 公众号 QbitAI+ a/ V, ^3 ^4 ^
: V! F( I* N, d7 J) p' r) [- J
不得了,机器人现在开始学会脑补未来了。1 b* K( t2 E) f2 H& M& G
这就是蚂蚁灵波又又又又(连续第4天)开源的狠活儿——
( }( s6 N: d4 [" [' f全球首个用于通用机器人控制的因果视频-动作世界模型,LingBot-VA6 f8 @* U) B# ^. f" }) U" Q
lIiZiXBTgq8ZMik3.jpg : |+ `1 P5 [  a* {# B7 v

# ~2 ~7 e# P- L) Z' W, U) k( ^2 [- r
怎么个脑补法?
4 ], o% p' O& o+ Y7 V简单来说啊,以前的机器人(尤其是基于VLA的)干活儿,主打一个条件反射:眼睛看到什么,手立刻就动一下。
  ^% C" E! G& h5 x& l3 [) z这叫“观察-反应”模式。- c& i% F' ?8 a5 }+ ^0 S
但LingBot-VA就不一样了,它通过自回归视频预测打破了这种思考方式,在动手之前,脑子里先把未来几秒的画面推演出来。
. a0 s  ?. K; b, H说实话,用想象力做决策,在机器人控制这块还是相当新鲜的。3 {. `1 p# R* Q  t4 Y3 J/ t
但这不是LingBot-VA唯一的亮点,还包括:
$ p2 y. d% c' {$ w; m! G$ ?) _5 D4 W' V" }$ W" F
    7 d/ _" X$ M; N
  • 记忆不丢失:做长序列任务(比如做早餐)时,它会记得自己刚才干了什么,状态感知极强。
    : S2 n& m- M4 c; M- [: j
  • 高效泛化:只要给几十个演示样本,它就能适应新任务;换个机器人本体,也能hold住。( g  \/ J' @5 O: R( g8 V

8 {1 o+ S& ^4 c* j; }) r! ^ O8G7Z3Y88Ym0AgAY.jpg - a% @- W. G# G8 }! |
! ], y& v; V) r+ q3 |; V( G) V5 A

, W, V! ]+ p0 t8 m因此在LingBot-VA的加持下,像清洗细小的透明试管这种高精度任务,机器人已经是可以轻松拿捏:. h. N8 a$ j0 m
M5m7T5505W3cg4Wc.jpg " I! W* U5 j1 A3 K- Y( r; C0 B' a. v
! ~  B0 {, q, w( Q. {- C
* r( B7 ~$ {. o; o: a7 \" R; D; x' P
视频地址:https://mp.wEIxin.qq.com/s/xqE6C72usddKMc4EH89myA+ S: X2 @- P& Y" [7 k
正如我们刚才提到的,今天是蚂蚁灵波连续第四天开源。7 x1 s" n, ?5 ~% ^- D0 Q$ O/ h, _0 h1 ?
如果说前几天的开源是给机器人加强了眼睛(LingBot-Depth)、大脑(LingBot-VLA)和世界模拟器(LingBot-World),那么今天的LingBot-VA,就是让这具躯壳真正拥有了灵魂
- `' \5 g4 Y1 v; U: h1 p* v! m一个行动中的世界模型,让想象真正落到执行层面。) I6 w, y* N, e) l9 a+ N. T
如此一来,通用机器人的天花板,算是被蚂蚁灵波往上顶了一截。( @# m6 c# p0 z" A, ~( `
正如网友所述:& I  D# T* Q8 Q; T6 _
5 E9 S2 ?. p  E5 A- L, L/ E
4 Z4 t' H# ?# B9 L9 J& s
    + R4 I  E: e+ w! `2 @$ i
  • 从预测到执行;说实话这是巨大的飞跃。: S1 _1 S6 c) d' m: I- m

7 \- X+ z' [4 V: B, U: u6 a2 D UkQZbMvba5MhQLsw.jpg
7 G' _/ |: v" X8 ^& M* W! l6 D2 h# Q1 D5 ~8 G
5 l& A7 R7 f7 S: x: x" F8 D! Y3 O

: x# f' a  l' |; w8 U让想象力先行一步
8 ?# D7 h% `' Q
: g$ Z, h! B) g* Y$ e' }
5 a. c2 S6 t7 a. l: q/ DLingBot-VA在架构设计上选择了一条更进一步的路径。
; e. s; N* [: W/ A. n: [' L在传统的VLA(视觉-语言-动作)范式中,模型通常会将视觉理解、物理变化推理、低层动作控制这三项复杂任务放在同一个神经网络中处理,这在学术界被称为表征缠绕(Representation Entanglement)。
# a$ g* K2 G0 T7 L: G5 l为了追求更高的样本效率和更强的泛化能力,LingBot-VA选择把这团乱麻解开,提出了一套全新的解题思路:先想象世界,再反推动作。, L. f- V- ^1 C+ g1 ^+ L# w
为了实现这个想法,蚂蚁灵波团队采用了一个两步走的策略:  @* n+ E  Y* ^2 j

3 _1 P: _$ W7 h, q! ~
    7 p3 E0 L# x7 n  d% V$ H7 A
  • 视频世界模型:先预测未来的视觉状态(接下来会发生什么)。/ \4 {/ F, p/ p8 j: D: `7 @5 i
  • 逆向动力学(Inverse Dynamics):基于视觉的变化,反推出应该执行什么动作(为了达到这个画面,手该怎么动)。
    4 P& w  X6 U. _! z
$ _8 s! b: b* U/ k2 ]1 X9 A
这与传统VLA有着本质区别:它不直接从“现在”跳到“动作”,而是要经过一下“未来”这个步骤。
) l8 ]; I3 @% X& ?如何实现?蚂蚁灵波团队主要将三个架构层面作为突破口。) v/ x- Q, E+ J5 B
uCcqC7xs7zSi538w.jpg
: [2 m% a/ {% B' S( U5 h5 U: {- \9 [* v7 M. R
$ f6 l$ D9 X) a4 K* G4 D
首先就是视频与动作的自回归交错序列
+ p& U* M5 T2 r$ r1 ], U% n在LingBot-VA的模型里,视频Token和动作Token被放进了同一条时间序列里。9 C! a) p  {, _$ L
为了保证逻辑严密,团队引入了因果注意力(Causal Attention)。这就像给模型定了一条死规矩:只能用过去的信息,绝对不能偷看未来。
. N' A' b6 h+ w$ L. F同时,借助KV-cache技术,模型拥有了超强的长期记忆。它清楚地知道自己三步之前做了什么,任务绝对不会失忆。  k6 g/ y4 F4 B+ z; ?
po1MA3kS2KTo2nso.jpg : ?, L/ W& ~6 |6 Z2 D
( X( ]" E3 Q8 `

% q* v6 X  b9 a/ `其次是Mixture-of-Transformers (MoT) 的分工协作9 h, X. {; u" F# c! Q
这一步主要是为了解决我们前面提到的表征缠绕的问题。. R2 ^4 O3 ~, {* W: k3 t
我们可以把过程理解为“左右互搏”,但又很默契的一种配合:& s. Z2 o5 j/ _& ?+ g5 {
, W. }0 L- Z) y

    $ i' ^% @5 Z- M! a' a
  • 视频流:宽而深,负责繁重的视觉推演。
    , d' S+ V  J+ P0 v1 x) S
  • 动作流:轻而快,负责精准的运动控制。
    ! y6 ?" d9 ?: ?) B7 r& ?3 M

! {) f* r! p# [4 \6 O. \这两个流共享注意力机制,信息互通,但在各自的表征空间里保持独立。
+ h0 S! ~- ~2 t( V$ e( V' k这样一来,视觉的复杂性不会干扰动作的精准度,动作的简单性也不会拉低视觉的丰富度。& n2 G: N( M2 x5 M" X
最后就是工程设计相关的工作。' |$ c; H# Y+ A3 |3 q* G& E& x
毕竟光有理论是不好使的,“实践才是检验真理的唯一标准”:. j8 O8 j9 s8 {* C* q

( [4 {8 }: f/ Q# U; y5 z7 b
    6 S5 u  \5 B5 Z( a: R
  • 部分去噪(Partial Denoising):做动作预测时,其实不需要每一次都把未来画面渲染得高清无码。模型学会了从带有噪点的中间状态里提取关键信息,计算效率大大提升。
    % n' K. w. w: [7 U5 v
  • 异步推理(Asynchronous Inference):机器人在执行当前动作的时候,模型已经在后台疯狂计算下一步了。推理和执行并行,延迟感几乎消失。
    ' n. `0 Q8 ^; k  f' b. u: B
  • FDM 接地(Grounding):为了防止模型想象力脱离现实,系统会用真实的观测数据不断校正想象,避免出现开放式的幻觉漂移。& p8 ^' f( O& P$ c2 k
实验结果与能力验证
" I# q9 I+ l9 h2 P6 e% z1 J/ P) O. u5 \# H( b. o+ @4 B* S* \; s! P
$ r/ {9 J0 C9 Z  M' W
在了解完理论之后,我们再来看实验效果。/ G: {0 |) T% d
蚂蚁灵波团队在真机实验和仿真基准上,对LingBot-VA进行了全方位的实测。7 J8 T4 [, W: y0 y" t/ _
在真机测试中,LingBot-VA覆盖了三类最具挑战性的任务。' G+ B/ [' b6 ~8 ?
首先是长时序任务,比如准备早餐(烤面包、倒水、摆盘)、拆快递(拿刀、划箱、开盖)。4 x3 W6 `2 Q- A, R' j' Z% `
UzhchDLkele8AVnz.jpg
: P2 g" e% l  R7 C" C4 C
( I% C6 |& M1 t0 w2 _! S' e4 D1 }/ _2 S8 n& T& Q
视频地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA+ U. e" r  V% q" C
这些任务步骤繁多,但凡中间有一步有误,那可以说是满盘皆输。从LingBot-VA的表现来看,一个字,% r2 o; Y" P3 g& r
即便是不小心失败了,机器人也会记得进度,尝试重来。5 N5 J; S- H/ M  ^1 x
第二类是高精度任务,比如擦试管、拧螺丝。1 T6 C- U9 p1 Q: ~! Q' o
j6u2WDrWWhQu65wu.jpg
0 m0 d, p0 p3 ]8 T; O7 L* k( T* E! D8 o
; X; H! Y# a  Q0 L* ^/ F% y  e
视频地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA
9 p8 @3 X# F. [# U& r" H" \" t这要求动作精度达到毫米级,得益于MoT架构,动作流不再受视觉噪声的干扰,手极稳。7 a( ~6 i7 }* |! g
刚才我们已经看了擦拭管的案例,再来看个拧螺丝的:9 u% ]3 K/ {5 f; Q
第三类任务是针对可变形物体,例如折衣服、折裤子。
  F8 z% J$ k9 K2 U0 g RFy2a5FyU3g2yVgU.jpg
3 d) D* E( z0 o% A7 v- P, Z* c; X5 j

1 g( X$ x* _' `. }) I视频地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA8 L, A( ^3 q* d. p$ S) `2 r
这些任务的难点在于物体处于一个随时变化的状态,但LingBot-VA通过视频推演,预判了布料的形变,操作行云流水。9 `7 F/ X5 p' j# z5 A) T( s
除此之外,LingBot-VA在RoboTwin 2.0和LIBERO这两个硬核仿真基准上,也是很能打的。$ V; x1 T0 k/ E# I9 i. f. T& ?
尤其是在RoboTwin 2.0的双臂协作任务中,无论是简单的固定场景(Easy),还是复杂的随机场景(Hard),LingBot-VA都展现出了不错的实力:
$ |7 d3 V) \1 v. c0 v# h* n3 {: C) z& U' m: X0 F
    $ H8 [& `# c% ^1 ~; u4 \0 v% M
  • RoboTwin 2.0 (Easy):成功率92.93%,比第二名高出4.2%。
    - g4 S+ G9 a% n/ Z" T. u! a+ d& o2 E, H
  • RoboTwin 2.0 (Hard):成功率91.55%,比第二名高出4.6%。
    $ m. C9 T- k4 d; X$ \9 p2 z4 \

+ z$ t4 d( m. F m0uLHx8KIYtblITY.jpg
/ ?9 m3 o4 L: m0 c+ r8 Q& {* l$ ]) K% \  Y& r8 {- w1 O5 r
, {# O! l- `8 I% c
而且有一个趋势非常明显:  t& j( i9 ?9 s# p- ]
任务越难、序列越长(Horizon变大),LingBot-VA的领先优势就越大。
8 r) v( X. m; x3 R- s7 m在 Horizon=3 的长任务中,它的优势甚至扩大到了9%以上。2 \, D+ b$ s; y) x! t4 R6 e
而在LIBERO基准测试中,LingBot-VA更是拿下了98.5%的平均成功率,刷新了SOTA记录。
  h9 M' F  y3 e) d5 s5 G. n S1c993tnn7RIc9Ts.jpg
: M+ K% t8 {! K2 p: E* a3 c9 N/ U, A
  J0 P) `, _. ~$ J% N& o
总结一下,通过这些实验,我们可以清晰地看到LingBot-VA的三个核心特质:
" z: z- Y- c- P5 m' `# i" ~
! J4 l+ a* y9 {6 i0 z: }4 y9 E
    8 w! y9 h! U+ T$ J% g
  • 长期记忆:在一个来回擦盘子的计数任务中,普通VLA模型擦着擦着就忘了擦了几下,开始乱擦;LingBot-VA 则精准计数,擦完即停。这就是KV-cache的起到的作用。/ w1 e1 U# l# Z. R! F2 n9 g' M
  • 少样本适应:面对全新的任务,只需提供50条左右的演示数据,稍微微调一下,它就能学会。这比那些动辄需要成千上万条数据的模型,效率高了几个数量级。
    / R, v3 |5 e& ?% K) R& _6 ]5 r
  • 泛化能力:训练时用的是某种杯子,测试时换个形状、换个颜色,或者把杯子随便摆个位置,它依然能准确识别并操作。
    / S& M  g. W4 N3 I( J7 X; w5 }
" R+ E- C0 N8 P2 o: D5 q  Q
ULiyol7i1rZrOO2S.jpg
1 i, ]' r" i: n8 a1 H  }* `5 H! j! v
& s; q5 L8 w! W- ]4 ]8 h
5 T9 r! U7 e1 X* r5 y9 d
- x$ ?! p2 ^2 q# m) a连续四天开源,已经产生影响
  R% |0 }; X) p3 Y9 j8 i
! \+ Y) r: \  ~" s$ U
, ^9 x, p) w) o9 Z( p把时间轴拉长,回看这四天的连续开源,我们会发现蚂蚁灵波下了一盘大棋。: r5 X; \' u) ~3 R  [
因为这四个开源项目拼凑在一起,就会形成一条非常清晰的技术主线:' ~% K5 Q1 Z; v$ g) c' C
- k) h) |! h( p7 U. k) i4 O8 ^
    ; n* S; `, r; @  Q
  • Day 1: LingBot-Depth——解决“看清”的问题。让感知能够更加清晰。5 [8 Q7 I* ^$ d- n' q' j
  • Day 2: LingBot-VLA——解决“连接”的问题。打通语言、视觉到动作的通用接口。
    $ A2 Z# g/ v9 Q+ ~' \' q
  • Day 3: LingBot-World——解决“理解”的问题。构建可预测、可想象的世界模型。) A# y' R0 f1 P  D- X+ |
  • Day 4: LingBot-VA——解决“行动”的问题。把世界模型真正嵌入控制闭环,让想象指导行动。
    ; U8 c- ^' ?3 J1 z! ^2 d
' W  Q! b  }! N
这四块拼图凑在一起,释放了一个强烈的信号:
- B9 v+ ^' J7 ]4 q0 k通用机器人正在全面走向视频时代。! @1 @6 L2 N% w. [& x$ p# Q% C3 |
视频,不再仅仅是训练用的数据素材,它正在成为推理的媒介,成为连接感知、记忆、物理和行动的统一表征。
( W% o5 S+ I6 U/ H这对于整个行业来说,价值是巨大的。
+ j5 @1 n" q0 u9 {8 G. m对通用机器人来说,长任务、复杂场景、非结构化环境,这些曾经的硬伤,现在有了系统性的解法。
& H, P6 f1 [+ G0 X3 _8 K- {$ i2 ?从具身智能路线来看,世界模型不再是一个可选项,它正式成为了机器人的中枢能力,从“能动”进化到“会想再动”。! M/ q- n1 d5 r1 W: k2 v
并且蚂蚁灵波的持续不断地开源动作,不仅仅是提供了代码、模型这么简单,更是一条可复现、可扩展的技术范式。7 b; ~# W# O6 l6 T" w, X
而蝴蝶效应也在行业中开始显现。
8 m: h9 q/ V- h就在这两天,谷歌宣布通过Project Genie项目让更多人体验Genie 3;宇树科技宣布开源UnifoLM-VLA-0……
& e- J. [# \  R0 `6 C! Q海外媒体也对蚂蚁灵波的开源动作有了不小关注,点评道:
# u3 ]$ k8 x0 F5 \5 L8 D! f, Q# |) m  x1 N( ]) i9 ?- j" J% ~
3 N+ f) n* b/ l& M4 y7 d# V; H2 |
    + P! l9 T. s8 |0 L7 o
  • 蚂蚁集团发布了名为LingBot-World的高质量机器人AI模拟环境。这家中国金融科技公司完善了一套完整的开源工具包,用于物理AI系统的开发。这也是在全球机器人领域主导权争夺战中的一项战略性举措。
      f- r1 C- G/ Q5 w$ I9 o

6 S( @. _1 ~# O1 {/ ` e3KRKkGX3fCCeCEy.jpg
3 G/ I; P+ D5 x" N* W' ~! ?0 b; j! Z* e7 U$ `/ @; `' o$ h

. t3 t" j$ Y5 X# l, V" I7 R嗯,蚂蚁灵波的压力是给到位了。* }% H# s2 H" ]/ c
总而言之,LingBot-VA的出现,标志着世界模型第一次真正站上了机器人控制的主舞台。
6 T# o" ^7 v; E: V! m6 g! X项目地址:, ~  [' z7 Z: X3 n
https://technology.robbyant.com/lingbot-va3 `: K- c/ i: J6 O! ]+ h, I
GitHub地址:9 \1 @9 ~: h7 e0 }' ~% S
https://github.com/robbyant/lingbot-va
. h5 a4 C/ \" s" o4 k项目权重:0 j( B8 l1 T5 j
https://huggingface.co/robbyant/lingbot-va2 Z, {/ Y5 ]7 [) o
https://www.modelscope.cn/collections/Robbyant/LingBot-va
集群智慧云科服专利申请服务
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


快速回复 返回顶部 返回列表