大数跨境

种花、叠被、打果汁!一脑多机,神秘机器人模型Motubrain曝光!

种花、叠被、打果汁!一脑多机,神秘机器人模型Motubrain曝光! 具身涌现
2026-05-05
0
导读:直到4月底,生数科技正式认领 —— 这款名为Motubrain的通用世界行动模型,不仅是双料冠军,更在工业级Demo里跑通了具身智能多年悬而未决的感知 - 行动闭环,让机器人从 “会跳舞” 真正走向

点击关注

已关注公众号


具身智能 I 人形机器人 I 具身智能融资 I 机器人

过去几个月,机器人圈被一个匿名模型搅得天翻地覆:它零宣发登顶两大国际权威榜单,把世界建模与动作执行的天花板双双抬高,却始终不肯露出真身。

直到4月底,生数科技正式认领 —— 这款名为Motubrain的通用世界行动模型,不仅是双料冠军,更在工业级Demo里跑通了具身智能多年悬而未决的感知 - 行动闭环,让机器人从 “会跳舞” 真正走向 “能干活”。

这不是一次简单的分数超越,而是物理AI从实验室走向家庭、商超的关键一跃。当一个模型能同时看懂世界、预测变化、精准执行、跨本体适配,机器人普及的逻辑,正在被彻底改写。

01

为什么感知与行动割裂,是具身智能迈不过的坎?

很长一段时间里,机器人AI都在走两条互不相交的路。

一类是世界模型擅长理解物理规则、预测物体运动,能精准判断 “杯子快掉了”“勺子捞空了”,却没法指挥机械臂做出接住、重捞的连贯动作;另一类是行动模型能把单个动作做得丝滑流畅,却对环境变化迟钝,遇到光照偏移、物体移位、外力干扰就频繁 “卡壳”。

两者的割裂,带来三个致命问题:一是误差累积,感知偏差传导到执行层,一步错步步错,长程任务几乎做不下来;二是架构冗余,一个机器人要堆叠感知、规划、控制多套模型,训练成本高、推理延迟大;三是无法泛化,换个机身、换个场景就得重新训练,离 “通用” 差得太远。

行业不是没试过融合,但大多是简单拼接,要么牺牲理解能力,要么降低动作精度,始终做不到知行合一。而Motubrain的出现,第一次用统一建模把这个死结解开了。

02

双榜第一意味着什么?看懂世界,还能顺手把事干完

Motubrain的实力,不是靠宣传话术堆出来的,而是两份硬核榜单直接盖章。

WorldArena —— 这个由清华、北大、普林斯顿等机构联合打造、主打世界建模的评测里,它的EWM综合得分达到63.77,动作质量、流畅度、平滑度等核心维度全部第一,比第二名高出一大截,证明它对物理世界的理解深度,已经站上行业顶端。

更夸张的是RoboTwin2.0这是考验真实任务执行的 “魔鬼考场”:不仅有50种操作任务,还设置随机扰动 —— 物体乱摆、光线突变、桌面微倾,模拟最混乱的现实环境。Motubrain直接拿下96.1分全球唯一一个在随机环境中突破95分的系统,断层领先所有对手。

两个榜单,一个考 “脑力”,一个考 “动手能力”。Motubrain双榜屠榜,说明同一款模型,既能精准预判环境变化,又能立刻生成稳定动作,真正实现边想边干、实时闭环放到现实里,就是机器人不会再愣在原地 “思考人生”,也不会盲目执行导致失误。

03

U‑ViT + 三流MoT:统一世界 - 行动模型,到底强在哪?

亮眼成绩的背后,是生数科技原创的U‑ViT架构三流混合Transformer(MoT)这套完全自研的技术底座,它把世界模型与行动模型彻底揉成了一个整体。

传统方案是 “先感知、再规划、后执行”的串行流程,而Motubrain用UniDiffuser统一建模视频与动作两大连续模态,一次训练就能覆盖VLA、世界模型、视频生成、逆动力学、视频 - 动作联合预测五大能力,相当于把过去五套系统的功能,装进一个模型里。

它的技术突破集中在三点:第一,从视频帧直接推关节运动不靠死记固定轨迹,而是在连续画面变化里学习因果关系 —— 看到物体位置变化,直接算出机械臂该怎么动,动态适应能力大幅提升;第二,潜动作机制提升数据效率能从无标注视频里提取通用运动规律,不用依赖大量人工标注机器人演示数据,训练成本只有行业同类项目的1/3,周期缩短一半以上;第三,三流MoT协同视频、语言、动作三路信息共享注意力机制,既能听懂指令、看懂场景,又能实时生成动作,全程无断点、无延迟,闭环纠错毫秒级完成。

简单说,Motubrain让机器人拥有了类似人类的 “直觉”:不用一步步拆解任务,也能预判后果、灵活调整,这才是物理AI该有的样子。

04

一脑多型、长程连贯:机器人真能包揽家务活?

比榜单更有说服力的,是公开Demo里的真实表现。Motubrain直接打出三张落地王牌,每一张都戳中家庭服务机器人的痛点。

首先是一脑多型同一套模型,同时适配多款不同构型的人形机器人与机械臂,彻底打破 “一个机器人一个大脑” 的旧模式。对厂商来说,不用再重复研发AI系统,直接接入通用大脑就能快速落地,研发成本与周期直接腰斩;对用户来说,未来家里不同功能的机器人,能用同一套智能体系,协同干活更顺畅。

其次是长程任务一气呵成过去机器人只能做抓取、摆放这类单步动作,而Motubrain能直接跑完完整任务链:插花要完成抓取、定位、插入、浇水、转移;整理沙发要收衣物、摆靠枕;煮火锅要捞菜、调整姿势、应对空捞。全程不需要上层拆解规划,机器人自己就能从头到尾做完,真正具备家务生产力

最后是随机应变的闭环能力火锅时勺子捞空,机器人不靠人工干预,不靠重新规划,而是基于预测立刻调整策略再捞一次;物体被挪位,能快速重新定位、修正轨迹。这种动态纠错,才是机器人走进无序家庭场景的核心门槛。

这些能力组合在一起,意味着机器人不再是展厅里的 “炫技道具”,而是能稳定处理洗衣、做饭、整理、看护等日常家务的实用工具

05

Motubrain如何改写物理AI的格局?

业内共识是,具身智能正在经历一次范式转移:从追求运动控制炫酷,转向真实场景生产力落地。Motubrain 的出现,刚好踩中这个拐点。

它确立的统一世界 - 行动建模范式,有三层行业价值:第一,降低规模化门槛。“统一大脑 + 多本体” 模式,让机器人不用再为每款机身定制AI,研发、部署、维护成本大幅下降,加速走进家庭、商超、养老院等场景;第二,打通技术生态。生数科技已经与无界动力、深朴智能等本体厂商达成合作,从模型到机身形成完整链条,推动技术从Demo快速走向量产;第三,定义下一代路线。过去大家纠结做世界模型还是行动模型,现在Motubrain证明,两者统一才是物理AI的正确方向,后续研发会全面转向这种一体化架构

对比国际同行,特斯拉Optimus主打人形机身,谷歌DeepMind聚焦模型研究,而Motubrain走的是通用大脑 + 多本体协同的中间路线,兼顾通用性与落地性,更适合快速渗透真实场景。

06

机器人进家干活,真的不远了

榜单纪录总会被刷新,但Motubrain带来的范式突破,会长期影响物理AI的走向。

它解决的不只是技术问题,更是信任问题 —— 让行业与用户相信,机器人真的能稳定、安全、高效地处理现实中的复杂任务,而不是只能在实验室里完美运行。

从“看懂世界”到“干完事情”,从“一个机器人一个大脑”到“一个大脑适配多类机身”,Motubrain撕开了物理AI规模化落地的口子。接下来的一两年,我们会看到越来越多搭载通用大脑的机器人走进生活,包揽繁琐家务,解放人的时间。

具身智能的下一场竞赛,不再是谁的动作更花哨,而是谁能更稳、更快、更便宜地走进千家万户。而这一次,国产AI,已经站在了起跑线的最前面。

往期推荐

融资10亿!上海国资重仓AMD前员工

more >

吴夏青是谁?为什么离职英伟达创业?

more >


点赞鼓励一下

免责声明:本文通过参考公众媒体内容,整理、翻译、编辑而成,仅供读者参考。文中的观点和内容不具有任何指导作用,对读者不构成任何项目建议或承诺!如果本文不慎侵犯您的权益,请与我们联系,我们将及时处理。

图片来源:网络

本文不作为投资建议

【声明】内容源于网络
0
0
具身涌现
具身涌现是密切关注并报道具身智能技术、智能时代产业和全链路机器人发展的科技创新平台,引领中国具身智能产业发展,推动变革式内容平台。
内容 0
粉丝 0
具身涌现 具身涌现是密切关注并报道具身智能技术、智能时代产业和全链路机器人发展的科技创新平台,引领中国具身智能产业发展,推动变革式内容平台。
总阅读0
粉丝0
内容0