点击关注
已关注公众号
过去几个月,机器人圈被一个匿名模型搅得天翻地覆:它零宣发登顶两大国际权威榜单,把世界建模与动作执行的天花板双双抬高,却始终不肯露出真身。
直到4月底,生数科技正式认领 —— 这款名为Motubrain的通用世界行动模型,不仅是双料冠军,更在工业级Demo里跑通了具身智能多年悬而未决的感知 - 行动闭环,让机器人从 “会跳舞” 真正走向 “能干活”。
这不是一次简单的分数超越,而是物理AI从实验室走向家庭、商超的关键一跃。当一个模型能同时看懂世界、预测变化、精准执行、跨本体适配,机器人普及的逻辑,正在被彻底改写。
为什么感知与行动割裂,是具身智能迈不过的坎?
很长一段时间里,机器人AI都在走两条互不相交的路。
一类是世界模型,擅长理解物理规则、预测物体运动,能精准判断 “杯子快掉了”“勺子捞空了”,却没法指挥机械臂做出接住、重捞的连贯动作;另一类是行动模型,能把单个动作做得丝滑流畅,却对环境变化迟钝,遇到光照偏移、物体移位、外力干扰就频繁 “卡壳”。
两者的割裂,带来三个致命问题:一是误差累积,感知偏差传导到执行层,一步错步步错,长程任务几乎做不下来;二是架构冗余,一个机器人要堆叠感知、规划、控制多套模型,训练成本高、推理延迟大;三是无法泛化,换个机身、换个场景就得重新训练,离 “通用” 差得太远。
行业不是没试过融合,但大多是简单拼接,要么牺牲理解能力,要么降低动作精度,始终做不到知行合一。而Motubrain的出现,第一次用统一建模把这个死结解开了。
双榜第一意味着什么?看懂世界,还能顺手把事干完
Motubrain的实力,不是靠宣传话术堆出来的,而是两份硬核榜单直接盖章。
在WorldArena —— 这个由清华、北大、普林斯顿等机构联合打造、主打世界建模的评测里,它的EWM综合得分达到63.77,动作质量、流畅度、平滑度等核心维度全部第一,比第二名高出一大截,证明它对物理世界的理解深度,已经站上行业顶端。
更夸张的是RoboTwin2.0,这是考验真实任务执行的 “魔鬼考场”:不仅有50种操作任务,还设置随机扰动 —— 物体乱摆、光线突变、桌面微倾,模拟最混乱的现实环境。Motubrain直接拿下96.1分,是全球唯一一个在随机环境中突破95分的系统,断层领先所有对手。
两个榜单,一个考 “脑力”,一个考 “动手能力”。Motubrain双榜屠榜,说明同一款模型,既能精准预判环境变化,又能立刻生成稳定动作,真正实现边想边干、实时闭环。放到现实里,就是机器人不会再愣在原地 “思考人生”,也不会盲目执行导致失误。
U‑ViT + 三流MoT:统一世界 - 行动模型,到底强在哪?
亮眼成绩的背后,是生数科技原创的U‑ViT架构与三流混合Transformer(MoT)这套完全自研的技术底座,它把世界模型与行动模型彻底揉成了一个整体。
传统方案是 “先感知、再规划、后执行”的串行流程,而Motubrain用UniDiffuser统一建模视频与动作两大连续模态,一次训练就能覆盖VLA、世界模型、视频生成、逆动力学、视频 - 动作联合预测五大能力,相当于把过去五套系统的功能,装进一个模型里。
它的技术突破集中在三点:第一,从视频帧直接推关节运动。不靠死记固定轨迹,而是在连续画面变化里学习因果关系 —— 看到物体位置变化,直接算出机械臂该怎么动,动态适应能力大幅提升;第二,潜动作机制提升数据效率。能从无标注视频里提取通用运动规律,不用依赖大量人工标注机器人演示数据,训练成本只有行业同类项目的1/3,周期缩短一半以上;第三,三流MoT协同。视频、语言、动作三路信息共享注意力机制,既能听懂指令、看懂场景,又能实时生成动作,全程无断点、无延迟,闭环纠错毫秒级完成。
简单说,Motubrain让机器人拥有了类似人类的 “直觉”:不用一步步拆解任务,也能预判后果、灵活调整,这才是物理AI该有的样子。
一脑多型、长程连贯:机器人真能包揽家务活?
比榜单更有说服力的,是公开Demo里的真实表现。Motubrain直接打出三张落地王牌,每一张都戳中家庭服务机器人的痛点。
首先是一脑多型。同一套模型,同时适配多款不同构型的人形机器人与机械臂,彻底打破 “一个机器人一个大脑” 的旧模式。对厂商来说,不用再重复研发AI系统,直接接入通用大脑就能快速落地,研发成本与周期直接腰斩;对用户来说,未来家里不同功能的机器人,能用同一套智能体系,协同干活更顺畅。
其次是长程任务一气呵成。过去机器人只能做抓取、摆放这类单步动作,而Motubrain能直接跑完完整任务链:插花要完成抓取、定位、插入、浇水、转移;整理沙发要收衣物、摆靠枕;煮火锅要捞菜、调整姿势、应对空捞。全程不需要上层拆解规划,机器人自己就能从头到尾做完,真正具备家务生产力。
最后是随机应变的闭环能力。煮火锅时勺子捞空,机器人不靠人工干预,不靠重新规划,而是基于预测立刻调整策略再捞一次;物体被挪位,能快速重新定位、修正轨迹。这种动态纠错,才是机器人走进无序家庭场景的核心门槛。
这些能力组合在一起,意味着机器人不再是展厅里的 “炫技道具”,而是能稳定处理洗衣、做饭、整理、看护等日常家务的实用工具。
Motubrain如何改写物理AI的格局?
业内共识是,具身智能正在经历一次范式转移:从追求运动控制炫酷,转向真实场景生产力落地。Motubrain 的出现,刚好踩中这个拐点。
它确立的统一世界 - 行动建模范式,有三层行业价值:第一,降低规模化门槛。“统一大脑 + 多本体” 模式,让机器人不用再为每款机身定制AI,研发、部署、维护成本大幅下降,加速走进家庭、商超、养老院等场景;第二,打通技术生态。生数科技已经与无界动力、深朴智能等本体厂商达成合作,从模型到机身形成完整链条,推动技术从Demo快速走向量产;第三,定义下一代路线。过去大家纠结做世界模型还是行动模型,现在Motubrain证明,两者统一才是物理AI的正确方向,后续研发会全面转向这种一体化架构。
对比国际同行,特斯拉Optimus主打人形机身,谷歌DeepMind聚焦模型研究,而Motubrain走的是通用大脑 + 多本体协同的中间路线,兼顾通用性与落地性,更适合快速渗透真实场景。
机器人进家干活,真的不远了
榜单纪录总会被刷新,但Motubrain带来的范式突破,会长期影响物理AI的走向。
它解决的不只是技术问题,更是信任问题 —— 让行业与用户相信,机器人真的能稳定、安全、高效地处理现实中的复杂任务,而不是只能在实验室里完美运行。
从“看懂世界”到“干完事情”,从“一个机器人一个大脑”到“一个大脑适配多类机身”,Motubrain撕开了物理AI规模化落地的口子。接下来的一两年,我们会看到越来越多搭载通用大脑的机器人走进生活,包揽繁琐家务,解放人的时间。
具身智能的下一场竞赛,不再是谁的动作更花哨,而是谁能更稳、更快、更便宜地走进千家万户。而这一次,国产AI,已经站在了起跑线的最前面。
往期推荐
融资10亿!上海国资重仓AMD前员工
吴夏青是谁?为什么离职英伟达创业?
点赞鼓励一下
图片来源:网络
本文不作为投资建议

