大数跨境

宇树公布开源机器人“大脑”UnifoLM-VLA-0:单一策略完成十二项任务

宇树公布开源机器人“大脑”UnifoLM-VLA-0:单一策略完成十二项任务 具身涌现
2026-01-29
0
导读:2026年1月29日,宇树科技正式开源其通用人形机器人操作大模型UnifoLM-VLA-0。该模型的核心是让机器人用一个统一的“大脑”,理解指令并完成多种操作。
2026年1月29日,宇树科技正式开源其通用人形机器人操作大模型UnifoLM-VLA-0。该模型的核心是让机器人用一个统一的“大脑”,理解指令并完成多种操作。
01 准确性:在标准测试中位列第一

衡量模型性能需要公认的基准。在机器人操作领域的LIBERO仿真基准测试中,UnifoLM-VLA-0接受了评估。

该测试从四个维度进行:空间、物体、目标识别和长序列任务。根据测试结果数据,UnifoLM-VLA-0在“物体”子项获得100分,在“空间”和“目标”子项分别获得99.0分和99.4分,在“长序列”任务获得96.2分。其平均分为98.7分。

在同一测试中,其他主流模型如OpenVLA-OFT的平均分为97.1分,GR00T-N1.6为97.0分。此组数据表明,UnifoLM-VLA-0在该仿真测试中的综合准确性处于当前领先水平。

02 运行速度:在快速响应模式下达到对标水平

对于需要与物理世界实时交互的机器人,处理速度与准确性同样关键。模型响应越快,机器人动作越流畅。

根据其技术文档,研发团队在UnifoLM-VLA-0的前身模型上,构建了涵盖2D/3D感知与空间推理数据的训练集,以增强其空间理解能力。评测显示,增强后的模型在“no thinking”模式下,在ERQA、RoboSpatial、Where2Place三个空间理解基准上的表现,与谷歌的Gemini Robotics ER 1.5模型相当。

“no thinking”模式指模型不进行复杂链式思考,直接输出结果。这意味着该模型在特定模式下,能以更低的延迟做出空间判断,满足实时操作需求。

03 真机验证:统一模型处理多类任务

仿真结果需真机验证。宇树在G1人形机器人平台上进行了测试。

测试基于一个覆盖12类复杂操作任务的真机数据集。关键之处在于,研究人员使用该数据集对UnifoLM-VLA-0进行了“单一策略网络的统一端到端训练”。实验结果表明,训练后的同一个模型,能够在“同一策略检查点下”稳定完成全部12项任务,并在外部干扰下保持执行稳定性。

这证明了该模型的多任务泛化能力。传统方案可能需为不同任务训练不同模型,而UnifoLM-VLA-0用一个统一模型实现了多项操作。

04 实现路径:从视觉模型到机器人操作模型

UnifoLM-VLA-0的开发路径清晰。它并非从零开始,而是基于开源的Qwen2.5-VL-7B视觉-语言模型演化而来。

首先,团队构建了一个多任务数据集进行持续预训练,使模型从“看图理解”进化为具备物理空间常识的“具身大脑”。

随后,团队为该模型集成了“动作预测头”,使其能输出控制机器人的具体动作指令。整个过程中,用于训练的真机操作数据仅为约340小时。相对较小的数据需求,反映了其学习效率。

最终成果是一个开源的、统一的机器人操作模型。这为开发者提供了一个可直接测试和应用的基础工具,降低了人形机器人智能化的开发门槛。

项目主页:https://unigen-x.github.io/unifolm-vla.github.io/ 

开源代码网址:https://github.com/unitreerobotics/unifolm-vla

【声明】内容源于网络
0
0
具身涌现
具身涌现是密切关注并报道具身智能技术、智能时代产业和全链路机器人发展的科技创新平台,引领中国具身智能产业发展,推动变革式内容平台。
内容 0
粉丝 0
具身涌现 具身涌现是密切关注并报道具身智能技术、智能时代产业和全链路机器人发展的科技创新平台,引领中国具身智能产业发展,推动变革式内容平台。
总阅读0
粉丝0
内容0