嘻疯 发自 凹非寺
量子位 | 公众号 QbitAI
国产具身智能基座模型再获突破!
在RoboChallenge真机评测榜单中,自变量机器人发布的端到端具身智能基础模型WALL-OSS以46.43分位列全球第二,超越美国Physical Intelligence公司闭源模型pi0(π0),成为当前全球排名最高的开源具身智能模型。
在叠洗碗巾、挂口杯、按按钮、浇盆栽、移物入盒、开瓶器进抽屉等单任务测试中,WALL-OSS全部斩获单项第一。
RoboChallenge由Dexmal原力灵机联合Hugging Face发起,是首个面向真实物理环境、由真实机器人执行操作的大规模多任务基准测试。与传统LLM测评不同,该测试采用“开卷”模式:任务描述与场景环境完全公开;参赛方仅需提供可驱动机器人的算法,所有执行过程均在统一真机平台完成,最终以动作视频与任务完成率作为评分依据。
尤为关键的是,WALL-OSS为全开源模型——开放预训练权重、完整训练代码、数据集接口及详尽部署文档,仅需RTX 4090级别消费级显卡即可完成从训练到推理部署的全流程。相较闭源模型可能存在的微调套壳、接口特化或黑箱优化,开源模型的成绩建立在完全透明、可复现、可验证的基础之上。
当前榜单前三名(pi0、pi0.5、WALL-OSS)均为开源模型,印证具身智能前沿正由开源生态共同推动。
“机器人脑”物理世界大PK
RoboChallenge首发Table 30任务集,涵盖30个真实日常操作任务,远超行业常见的3–5项评测规模。任务设计覆盖VLA方案难点、机器人类型、任务场景环境及目标物体属性四大维度,全面检验模型在复杂物理世界中的泛化能力。
以高难度“叠抹布”任务为例,WALL-OSS以41分领先pi0;其10%的任务成功率虽仍较低,但已是当前所有参赛模型最优表现,而pi0该项成功率为0%。
平台集成UR5、Franka Panda、Aloha、ARX-5等主流机器人,支持远程真机评测,并全程公开任务演示视频、中间状态数据及执行监控记录。
任务详情页左侧为多视角执行视频;右侧上方显示机械臂6关节(joint1–joint6)角度变化曲线,下方展示夹爪开合状态;最右栏呈现任务ID、执行时长等元信息;底部时间轴支持毫秒级同步定位,便于快速定位异常环节。
公开视频显示,WALL-OSS成功完成抹布抓取与对折操作;在“连续按下三个按钮”等任务中,得分显著领先其他模型。
在“将不同形状杂物收纳至筐中”任务中,WALL-OSS在得分与成功率上均优于pi0。
在“拉开抽屉并放入杂物”等需连续空间规划任务中,亦能稳定完成全流程操作。
RoboChallenge规则不限制针对性微调,开发者可使用官方示范数据训练模型;训练完成后通过标准化API接入平台,经模拟验证后进入人工调度队列,在真实环境中执行评估。该机制下,开源模型成绩的含金量尤为突出。
自变量团队表示,WALL-OSS复现示例、微调代码与模型权重将于近期全部开源,供研究者基于源码与任务级微调脚本完成复现与迭代。
拆解背后技术突破
针对VLM向VLA演进过程中的两大核心挑战——“灾难性遗忘”与“模态解耦”,WALL-OSS在架构与训练范式上实现双重突破。
在架构层面,摒弃传统模块拼接方案,采用共享注意力+专家分流(FFN)设计:语言、视觉与动作嵌入同一表征空间,通过共享注意力实现深度跨模态交互,并借由专家FFN适配不同任务需求,最终构建紧耦合的认知—行动闭环。
在训练策略上,采用“启发阶段(Inspiration)→整合阶段(Integration)”两段式范式:
- 启发阶段:通过具身VQA、指令跟随等任务强化空间推理能力,结合FAST tokenization离散动作训练,在保留原有认知能力基础上建立空间与动作关联;
- 整合阶段:先冻结VLM主干,仅训练Action FFN下的流匹配(Flow Matching)头,精修高频动作生成;再解冻VLM进行联合优化,实现认知与执行能力的稳定融合。
该“先离散、后连续、再联合”的路径,避免了端到端训练中的能力塌缩,使模型既保有深度语义理解能力,又具备高精度物理动作执行能力。
此外,WALL-OSS将思维链(Chain-of-Thought)内化为具身决策机制,构建统一跨层级推理框架:从指令理解、中间推理、子任务拆解与规划,到连续物理动作映射,全部在可微分框架内完成。这使其能自主拆解未知任务、动态调整策略,胜任长程、复杂具身任务。
实测表明,WALL-OSS在Embodied VQA基准及6类机器人操作任务中均表现优异。
开源破壁,真正推动具身智能发展的路径
WALL-OSS由成立不久但发展迅速的明星公司自变量机器人研发。团队长期深耕机器人与多模态智能,聚焦“通用具身智能基座”长期目标。
创始人兼CEO王潜,清华大学本硕、美国南加州大学博士,早期开展Robotics Learning研究,是Attention机制在神经网络中应用的先行探索者之一。
联合创始人兼CTO王昊,北京大学计算物理博士,曾任粤港澳大湾区数字经济研究院(IDEA研究院)大模型团队负责人,主导多个开源大模型研发,在基础模型与系统工程方面积淀深厚。
团队已完成多轮融资,数月前宣布近10亿元A+轮融资,由阿里云、国科投资领投,国开金融、红杉中国、渶策资本、美团、联想之星、君联资本跟投。
自变量不满足于单点Demo或垂直场景优化,而是致力于构建可反复验证、持续演化的“机器人通用大脑”。WALL-OSS自立项起即定位为面向真实物理世界的端到端统一基座模型。
榜单名次之外,更值得重视的是其以开源方式参与真实物理世界能力验证的选择。在RoboChallenge第三方评测中,WALL-OSS的表现难以归因于调参、特化或运气——它是一次赤裸而直接的证明:一个可复现、可检验的开源具身基础模型,确能在真实世界任务中展现强竞争力。
长期以来,具身智能领域存在结构性矛盾:高校与中小团队缺算力、缺数据、缺机器人;大公司则难将底层能力全面开放。在此背景下,WALL-OSS作为可在消费级显卡上完成全栈训练与部署的开源模型,实质性地降低了行业创新门槛。
研究者无需从零构建,创业团队不必重复造轮子,更多精力得以聚焦于泛化能力提升、长程复杂任务处理、不可控环境可靠性等真正有价值的问题——这正是开源生态的理想状态:在统一高起点上竞争真正的创新。
正如王昊所言:“开源意味着我们可以站在巨人的肩膀上继续前进。社区反馈会帮助开源公司深化技术路线思考。”
对自变量而言,开源并非短期品牌露出或技术展示,而是一项行业基础设施级的长期投入。他们关注的是:模型是否足够先进、稀缺,能否真正成为“基座”;是否能被社区用起来,经得起复现、质疑与改造,在真实任务中持续暴露问题,并通过生态反哺实现自我进化。
在高度依赖真实世界反馈的具身智能领域,开源社区的持续检验,是最残酷也最有效的进化动力。
WALL-OSS的开源,本质上是一种姿态:愿意把模型交给世界,用真实应用检验技术路线是否成立。拥抱开源,或许不是理想主义,而是一条绕不开的现实路径。
至少,它已用一次真实世界的大考,交出了一份有分量的示范答案。

