种花、叠被、打果汁！一脑多机，神秘机器人模型Motubrain曝光！- 大数跨境

首页

种花、叠被、打果汁！一脑多机，神秘机器人模型Motubrain曝光！

具身涌现

2026-05-05

导读：直到4月底，生数科技正式认领 —— 这款名为Motubrain的通用世界行动模型，不仅是双料冠军，更在工业级Demo里跑通了具身智能多年悬而未决的感知 - 行动闭环，让机器人从 “会跳舞” 真正走向

点击关注

已关注公众号

具身智能 I 人形机器人 I 具身智能融资 I 机器人

过去几个月，机器人圈被一个匿名模型搅得天翻地覆：它零宣发登顶两大国际权威榜单，把世界建模与动作执行的天花板双双抬高，却始终不肯露出真身。

直到4月底，生数科技正式认领 —— 这款名为Motubrain的通用世界行动模型，不仅是双料冠军，更在工业级Demo里跑通了具身智能多年悬而未决的感知 - 行动闭环，让机器人从 “会跳舞” 真正走向 “能干活”。

这不是一次简单的分数超越，而是物理AI从实验室走向家庭、商超的关键一跃。当一个模型能同时看懂世界、预测变化、精准执行、跨本体适配，机器人普及的逻辑，正在被彻底改写。

为什么感知与行动割裂，是具身智能迈不过的坎？

很长一段时间里，机器人AI都在走两条互不相交的路。

一类是世界模型，擅长理解物理规则、预测物体运动，能精准判断 “杯子快掉了”“勺子捞空了”，却没法指挥机械臂做出接住、重捞的连贯动作；另一类是行动模型，能把单个动作做得丝滑流畅，却对环境变化迟钝，遇到光照偏移、物体移位、外力干扰就频繁 “卡壳”。

两者的割裂，带来三个致命问题：一是误差累积，感知偏差传导到执行层，一步错步步错，长程任务几乎做不下来；二是架构冗余，一个机器人要堆叠感知、规划、控制多套模型，训练成本高、推理延迟大；三是无法泛化，换个机身、换个场景就得重新训练，离 “通用” 差得太远。

行业不是没试过融合，但大多是简单拼接，要么牺牲理解能力，要么降低动作精度，始终做不到知行合一。而Motubrain的出现，第一次用统一建模把这个死结解开了。

双榜第一意味着什么？看懂世界，还能顺手把事干完

Motubrain的实力，不是靠宣传话术堆出来的，而是两份硬核榜单直接盖章。

在WorldArena —— 这个由清华、北大、普林斯顿等机构联合打造、主打世界建模的评测里，它的EWM综合得分达到63.77，动作质量、流畅度、平滑度等核心维度全部第一，比第二名高出一大截，证明它对物理世界的理解深度，已经站上行业顶端。

更夸张的是RoboTwin2.0，这是考验真实任务执行的 “魔鬼考场”：不仅有50种操作任务，还设置随机扰动 —— 物体乱摆、光线突变、桌面微倾，模拟最混乱的现实环境。Motubrain直接拿下96.1分，是全球唯一一个在随机环境中突破95分的系统，断层领先所有对手。

两个榜单，一个考 “脑力”，一个考 “动手能力”。Motubrain双榜屠榜，说明同一款模型，既能精准预判环境变化，又能立刻生成稳定动作，真正实现边想边干、实时闭环。放到现实里，就是机器人不会再愣在原地 “思考人生”，也不会盲目执行导致失误。

U‑ViT + 三流MoT：统一世界 - 行动模型，到底强在哪？

亮眼成绩的背后，是生数科技原创的U‑ViT架构与三流混合Transformer（MoT）这套完全自研的技术底座，它把世界模型与行动模型彻底揉成了一个整体。

传统方案是 “先感知、再规划、后执行”的串行流程，而Motubrain用UniDiffuser统一建模视频与动作两大连续模态，一次训练就能覆盖VLA、世界模型、视频生成、逆动力学、视频 - 动作联合预测五大能力，相当于把过去五套系统的功能，装进一个模型里。

它的技术突破集中在三点：第一，从视频帧直接推关节运动。不靠死记固定轨迹，而是在连续画面变化里学习因果关系 —— 看到物体位置变化，直接算出机械臂该怎么动，动态适应能力大幅提升；第二，潜动作机制提升数据效率。能从无标注视频里提取通用运动规律，不用依赖大量人工标注机器人演示数据，训练成本只有行业同类项目的1/3，周期缩短一半以上；第三，三流MoT协同。视频、语言、动作三路信息共享注意力机制，既能听懂指令、看懂场景，又能实时生成动作，全程无断点、无延迟，闭环纠错毫秒级完成。

简单说，Motubrain让机器人拥有了类似人类的 “直觉”：不用一步步拆解任务，也能预判后果、灵活调整，这才是物理AI该有的样子。

一脑多型、长程连贯：机器人真能包揽家务活？

比榜单更有说服力的，是公开Demo里的真实表现。Motubrain直接打出三张落地王牌，每一张都戳中家庭服务机器人的痛点。

首先是一脑多型。同一套模型，同时适配多款不同构型的人形机器人与机械臂，彻底打破 “一个机器人一个大脑” 的旧模式。对厂商来说，不用再重复研发AI系统，直接接入通用大脑就能快速落地，研发成本与周期直接腰斩；对用户来说，未来家里不同功能的机器人，能用同一套智能体系，协同干活更顺畅。

其次是长程任务一气呵成。过去机器人只能做抓取、摆放这类单步动作，而Motubrain能直接跑完完整任务链：插花要完成抓取、定位、插入、浇水、转移；整理沙发要收衣物、摆靠枕；煮火锅要捞菜、调整姿势、应对空捞。全程不需要上层拆解规划，机器人自己就能从头到尾做完，真正具备家务生产力。

最后是随机应变的闭环能力。煮火锅时勺子捞空，机器人不靠人工干预，不靠重新规划，而是基于预测立刻调整策略再捞一次；物体被挪位，能快速重新定位、修正轨迹。这种动态纠错，才是机器人走进无序家庭场景的核心门槛。

这些能力组合在一起，意味着机器人不再是展厅里的 “炫技道具”，而是能稳定处理洗衣、做饭、整理、看护等日常家务的实用工具。

Motubrain如何改写物理AI的格局？

业内共识是，具身智能正在经历一次范式转移：从追求运动控制炫酷，转向真实场景生产力落地。Motubrain 的出现，刚好踩中这个拐点。

它确立的统一世界 - 行动建模范式，有三层行业价值：第一，降低规模化门槛。“统一大脑 + 多本体” 模式，让机器人不用再为每款机身定制AI，研发、部署、维护成本大幅下降，加速走进家庭、商超、养老院等场景；第二，打通技术生态。生数科技已经与无界动力、深朴智能等本体厂商达成合作，从模型到机身形成完整链条，推动技术从Demo快速走向量产；第三，定义下一代路线。过去大家纠结做世界模型还是行动模型，现在Motubrain证明，两者统一才是物理AI的正确方向，后续研发会全面转向这种一体化架构。