衡量模型性能需要公认的基准。在机器人操作领域的LIBERO仿真基准测试中,UnifoLM-VLA-0接受了评估。
该测试从四个维度进行:空间、物体、目标识别和长序列任务。根据测试结果数据,UnifoLM-VLA-0在“物体”子项获得100分,在“空间”和“目标”子项分别获得99.0分和99.4分,在“长序列”任务获得96.2分。其平均分为98.7分。
在同一测试中,其他主流模型如OpenVLA-OFT的平均分为97.1分,GR00T-N1.6为97.0分。此组数据表明,UnifoLM-VLA-0在该仿真测试中的综合准确性处于当前领先水平。
02 运行速度:在快速响应模式下达到对标水平
对于需要与物理世界实时交互的机器人,处理速度与准确性同样关键。模型响应越快,机器人动作越流畅。
根据其技术文档,研发团队在UnifoLM-VLA-0的前身模型上,构建了涵盖2D/3D感知与空间推理数据的训练集,以增强其空间理解能力。评测显示,增强后的模型在“no thinking”模式下,在ERQA、RoboSpatial、Where2Place三个空间理解基准上的表现,与谷歌的Gemini Robotics ER 1.5模型相当。
“no thinking”模式指模型不进行复杂链式思考,直接输出结果。这意味着该模型在特定模式下,能以更低的延迟做出空间判断,满足实时操作需求。
03 真机验证:统一模型处理多类任务
仿真结果需真机验证。宇树在G1人形机器人平台上进行了测试。
测试基于一个覆盖12类复杂操作任务的真机数据集。关键之处在于,研究人员使用该数据集对UnifoLM-VLA-0进行了“单一策略网络的统一端到端训练”。实验结果表明,训练后的同一个模型,能够在“同一策略检查点下”稳定完成全部12项任务,并在外部干扰下保持执行稳定性。
这证明了该模型的多任务泛化能力。传统方案可能需为不同任务训练不同模型,而UnifoLM-VLA-0用一个统一模型实现了多项操作。
04 实现路径:从视觉模型到机器人操作模型
UnifoLM-VLA-0的开发路径清晰。它并非从零开始,而是基于开源的Qwen2.5-VL-7B视觉-语言模型演化而来。
首先,团队构建了一个多任务数据集进行持续预训练,使模型从“看图理解”进化为具备物理空间常识的“具身大脑”。
随后,团队为该模型集成了“动作预测头”,使其能输出控制机器人的具体动作指令。整个过程中,用于训练的真机操作数据仅为约340小时。相对较小的数据需求,反映了其学习效率。
最终成果是一个开源的、统一的机器人操作模型。这为开发者提供了一个可直接测试和应用的基础工具,降低了人形机器人智能化的开发门槛。
项目主页:https://unigen-x.github.io/unifolm-vla.github.io/
开源代码网址:https://github.com/unitreerobotics/unifolm-vla


