大事不好！机器人学会预测未来了

集群智慧张老师 · 发表于前天 21:00

金磊发自凹非寺% i; g- B [$ c
量子位 | 公众号 QbitAI+ a/ V, ^3 ^4 ^

不得了，机器人现在开始学会脑补未来了。
这就是蚂蚁灵波又又又又（连续第4天）开源的狠活儿——
全球首个用于通用机器人控制的因果视频-动作世界模型，LingBot-VA

怎么个脑补法？
简单来说啊，以前的机器人（尤其是基于VLA的）干活儿，主打一个条件反射：眼睛看到什么，手立刻就动一下。
这叫“观察-反应”模式。
但LingBot-VA就不一样了，它通过自回归视频预测打破了这种思考方式，在动手之前，脑子里先把未来几秒的画面推演出来。
说实话，用想象力做决策，在机器人控制这块还是相当新鲜的。
但这不是LingBot-VA唯一的亮点，还包括：

记忆不丢失：做长序列任务（比如做早餐）时，它会记得自己刚才干了什么，状态感知极强。
: S2 n& m- M4 c; M- [: j
高效泛化：只要给几十个演示样本，它就能适应新任务；换个机器人本体，也能hold住。( g \/ J' @5 O: R( g8 V

因此在LingBot-VA的加持下，像清洗细小的透明试管这种高精度任务，机器人已经是可以轻松拿捏：

视频地址：https://mp.wEIxin.qq.com/s/xqE6C72usddKMc4EH89myA
正如我们刚才提到的，今天是蚂蚁灵波连续第四天开源。
如果说前几天的开源是给机器人加强了眼睛（LingBot-Depth）、大脑（LingBot-VLA）和世界模拟器（LingBot-World），那么今天的LingBot-VA，就是让这具躯壳真正拥有了灵魂
一个行动中的世界模型，让想象真正落到执行层面。
如此一来，通用机器人的天花板，算是被蚂蚁灵波往上顶了一截。
正如网友所述：

4 Z4 t' H# ?# B9 L9 J& s

+ R4 I E: e+ w! `2 @$ i

从预测到执行；说实话这是巨大的飞跃。: S1 _1 S6 c) d' m: I- m

让想象力先行一步

LingBot-VA在架构设计上选择了一条更进一步的路径。
在传统的VLA（视觉-语言-动作）范式中，模型通常会将视觉理解、物理变化推理、低层动作控制这三项复杂任务放在同一个神经网络中处理，这在学术界被称为表征缠绕（Representation Entanglement）。
为了追求更高的样本效率和更强的泛化能力，LingBot-VA选择把这团乱麻解开，提出了一套全新的解题思路：先想象世界，再反推动作。
为了实现这个想法，蚂蚁灵波团队采用了一个两步走的策略：

视频世界模型：先预测未来的视觉状态（接下来会发生什么）。/ \4 {/ F, p/ p8 j: D: `7 @5 i
逆向动力学（Inverse Dynamics）：基于视觉的变化，反推出应该执行什么动作（为了达到这个画面，手该怎么动）。
4 P& w X6 U. _! z

这与传统VLA有着本质区别：它不直接从“现在”跳到“动作”，而是要经过一下“未来”这个步骤。
如何实现？蚂蚁灵波团队主要将三个架构层面作为突破口。

首先就是视频与动作的自回归交错序列
在LingBot-VA的模型里，视频Token和动作Token被放进了同一条时间序列里。
为了保证逻辑严密，团队引入了因果注意力（Causal Attention）。这就像给模型定了一条死规矩：只能用过去的信息，绝对不能偷看未来。
同时，借助KV-cache技术，模型拥有了超强的长期记忆。它清楚地知道自己三步之前做了什么，任务绝对不会失忆。

其次是Mixture-of-Transformers (MoT) 的分工协作
这一步主要是为了解决我们前面提到的表征缠绕的问题。
我们可以把过程理解为“左右互搏”，但又很默契的一种配合：

视频流：宽而深，负责繁重的视觉推演。
, d' S+ V J+ P0 v1 x) S
动作流：轻而快，负责精准的运动控制。
! y6 ?" d9 ?: ?) B7 r& ?3 M

这两个流共享注意力机制，信息互通，但在各自的表征空间里保持独立。
这样一来，视觉的复杂性不会干扰动作的精准度，动作的简单性也不会拉低视觉的丰富度。
最后就是工程设计相关的工作。
毕竟光有理论是不好使的，“实践才是检验真理的唯一标准”：

部分去噪（Partial Denoising）：做动作预测时，其实不需要每一次都把未来画面渲染得高清无码。模型学会了从带有噪点的中间状态里提取关键信息，计算效率大大提升。
% n' K. w. w: [7 U5 v
异步推理（Asynchronous Inference）：机器人在执行当前动作的时候，模型已经在后台疯狂计算下一步了。推理和执行并行，延迟感几乎消失。
' n. `0 Q8 ^; k f' b. u: B
FDM 接地（Grounding）：为了防止模型想象力脱离现实，系统会用真实的观测数据不断校正想象，避免出现开放式的幻觉漂移。& p8 ^' f( O& P$ c2 k

实验结果与能力验证

在了解完理论之后，我们再来看实验效果。
蚂蚁灵波团队在真机实验和仿真基准上，对LingBot-VA进行了全方位的实测。
在真机测试中，LingBot-VA覆盖了三类最具挑战性的任务。
首先是长时序任务，比如准备早餐（烤面包、倒水、摆盘）、拆快递（拿刀、划箱、开盖）。

视频地址：https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA
这些任务步骤繁多，但凡中间有一步有误，那可以说是满盘皆输。从LingBot-VA的表现来看，一个字，
即便是不小心失败了，机器人也会记得进度，尝试重来。
第二类是高精度任务，比如擦试管、拧螺丝。

视频地址：https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA
这要求动作精度达到毫米级，得益于MoT架构，动作流不再受视觉噪声的干扰，手极稳。
刚才我们已经看了擦拭管的案例，再来看个拧螺丝的：
第三类任务是针对可变形物体，例如折衣服、折裤子。

视频地址：https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA
这些任务的难点在于物体处于一个随时变化的状态，但LingBot-VA通过视频推演，预判了布料的形变，操作行云流水。
除此之外，LingBot-VA在RoboTwin 2.0和LIBERO这两个硬核仿真基准上，也是很能打的。
尤其是在RoboTwin 2.0的双臂协作任务中，无论是简单的固定场景（Easy），还是复杂的随机场景（Hard），LingBot-VA都展现出了不错的实力：

RoboTwin 2.0 (Easy)：成功率92.93%，比第二名高出4.2%。
- g4 S+ G9 a% n/ Z" T. u! a+ d& o2 E, H
RoboTwin 2.0 (Hard)：成功率91.55%，比第二名高出4.6%。
$ m. C9 T- k4 d; X$ \9 p2 z4 \

而且有一个趋势非常明显：
任务越难、序列越长（Horizon变大），LingBot-VA的领先优势就越大。
在 Horizon=3 的长任务中，它的优势甚至扩大到了9%以上。
而在LIBERO基准测试中，LingBot-VA更是拿下了98.5%的平均成功率，刷新了SOTA记录。

总结一下，通过这些实验，我们可以清晰地看到LingBot-VA的三个核心特质：

长期记忆：在一个来回擦盘子的计数任务中，普通VLA模型擦着擦着就忘了擦了几下，开始乱擦；LingBot-VA 则精准计数，擦完即停。这就是KV-cache的起到的作用。/ w1 e1 U# l# Z. R! F2 n9 g' M
少样本适应：面对全新的任务，只需提供50条左右的演示数据，稍微微调一下，它就能学会。这比那些动辄需要成千上万条数据的模型，效率高了几个数量级。
/ R, v3 |5 e& ?% K) R& _6 ]5 r
泛化能力：训练时用的是某种杯子，测试时换个形状、换个颜色，或者把杯子随便摆个位置，它依然能准确识别并操作。
/ S& M g. W4 N3 I( J7 X; w5 }

连续四天开源，已经产生影响

把时间轴拉长，回看这四天的连续开源，我们会发现蚂蚁灵波下了一盘大棋。
因为这四个开源项目拼凑在一起，就会形成一条非常清晰的技术主线：

Day 1: LingBot-Depth——解决“看清”的问题。让感知能够更加清晰。5 [8 Q7 I* ^$ d- n' q' j
Day 2: LingBot-VLA——解决“连接”的问题。打通语言、视觉到动作的通用接口。
$ A2 Z# g/ v9 Q+ ~' \' q
Day 3: LingBot-World——解决“理解”的问题。构建可预测、可想象的世界模型。) A# y' R0 f1 P D- X+ |
Day 4: LingBot-VA——解决“行动”的问题。把世界模型真正嵌入控制闭环，让想象指导行动。
; U8 c- ^' ?3 J1 z! ^2 d

这四块拼图凑在一起，释放了一个强烈的信号：
通用机器人正在全面走向视频时代。
视频，不再仅仅是训练用的数据素材，它正在成为推理的媒介，成为连接感知、记忆、物理和行动的统一表征。
这对于整个行业来说，价值是巨大的。
对通用机器人来说，长任务、复杂场景、非结构化环境，这些曾经的硬伤，现在有了系统性的解法。
从具身智能路线来看，世界模型不再是一个可选项，它正式成为了机器人的中枢能力，从“能动”进化到“会想再动”。
并且蚂蚁灵波的持续不断地开源动作，不仅仅是提供了代码、模型这么简单，更是一条可复现、可扩展的技术范式。
而蝴蝶效应也在行业中开始显现。
就在这两天，谷歌宣布通过Project Genie项目让更多人体验Genie 3；宇树科技宣布开源UnifoLM-VLA-0……
海外媒体也对蚂蚁灵波的开源动作有了不小关注，点评道：

3 N+ f) n* b/ l& M4 y7 d# V; H2 |

+ P! l9 T. s8 |0 L7 o

蚂蚁集团发布了名为LingBot-World的高质量机器人AI模拟环境。这家中国金融科技公司完善了一套完整的开源工具包，用于物理AI系统的开发。这也是在全球机器人领域主导权争夺战中的一项战略性举措。
f- r1 C- G/ Q5 w$ I9 o

嗯，蚂蚁灵波的压力是给到位了。
总而言之，LingBot-VA的出现，标志着世界模型第一次真正站上了机器人控制的主舞台。
项目地址：
https://technology.robbyant.com/lingbot-va
GitHub地址：
https://github.com/robbyant/lingbot-va
项目权重：
https://huggingface.co/robbyant/lingbot-va
https://www.modelscope.cn/collections/Robbyant/LingBot-va

		自动登录	找回密码
密码			立即注册

大事不好！机器人学会预测未来了

浏览过的版块