大数跨境
0
0

Figure抛弃10万行C++代码!用1000小时人类数据训练神经网络,实现全身控制基础模型

Figure抛弃10万行C++代码!用1000小时人类数据训练神经网络,实现全身控制基础模型 量子位
2026-01-28
6
导读:当全身控制成为入场门槛,人形机器人开始真正走出桌面
henry 发自 凹非寺
量子位 | 公众号 QbitAI

美国机器人公司Figure发布最新具身智能系统Helix 02,并同步公开其在家庭厨房中完成洗碗机取盘并归位的全流程自主操作演示。

Figure创始人Brett Adcock表示:“机器人跳舞不难,真正的挑战在于智能控制。我们最强的模型来了,能完成复杂、长时序任务。”

机器人跳舞没什么难的,真正的难点在智能控制。
我们最强的模型来了,能完成复杂和长时序的任务。

视频显示,搭载Helix 02的Figure 03在普通家庭厨房中,全程自主完成从洗碗机取出餐具、行走至橱柜、精准放置的整套流程。整个任务持续近4分钟,全程无重置、无人工干预、无遥操作,包含行走、抓取、搬运、放置等61个连续动作。

Figure称,这是截至目前人形机器人自主完成的时间跨度最长、复杂度最高的真实场景任务。

与此前上下半身分离控制不同,Helix 02首次实现端到端全身统一控制:视觉、触觉、本体感知等多模态输入直接接入单一系统,输出全身关节级动作指令。

新引入的System 0基于超1000小时人类运动数据训练,替代了此前10.95万行手写C++控制代码。

Figure终于抛弃了他们过时的全身MPC,并使用我们现代的人类到类人的RL全身控制。

Helix 02首次将手掌摄像头与指尖触觉传感器(灵敏度达3克)纳入控制策略,显著提升接触感知与力控精度。

多位业内人士评价称,该系统代表当前人形机器人全身控制的最高水平。Sunday机器人工程师Alper直言:“这是我迄今见过最好的机器人全身控制。”

Helix 02:加入System 0的VLA架构

Helix 02核心目标是实现厨房场景下的长程loco-manipulation(移动-操作协同),为此构建了统一的视觉—运动神经网络,即“端到端全身行走—操作一体化VLA模型”。该模型将全部传感器、视觉、触觉与本体感知直连执行器,实现“感觉—思考—行动”闭环。

其底层依托Helix双系统架构,并新增System 0,形成三级协同控制系统:

  • System 2(S2):慢系统,负责高层语义推理——理解语言与场景,将任务拆解为行为目标。
  • System 1(S1):快系统,以200 Hz频率运行,将感知结果转化为全身关节目标。
  • System 0(S0):以1 kHz频率执行,专注平衡维持、接触处理与全身协调控制。

System 0:基于人类数据的全身控制基础模型

System 0是一个学习型全身控制器,基于1000+小时关节级人类运动数据训练,并结合仿真到现实(sim-to-real)强化学习。它用一个约1000万参数神经网络,替代10.95万行手工C++代码,实现稳定、自然、可控的动作执行。

S0不针对特定动作(如走路或伸手),而是学习人类在动态平衡前提下的一般运动先验,使上层规划动作可被身体稳定落地。

关键细节包括:

  • 训练数据:超1000小时关节级重定向人类运动数据。
  • 模型架构:约1000万参数神经网络,输入为全身关节状态与基座运动信息,1 kHz输出关节级控制指令。
  • 仿真训练:在20万+并行仿真环境中完成,采用大规模域随机化(domain randomization),确保对真实机器人群体具备强泛化能力。

System 1:从像素到全身的感知—动作映射

System 1负责将多源感知转化为全身动作指令。Helix 02中,S1首次接入全部传感器并控制整机:

  • 输入:头部摄像头、手掌摄像头、指尖触觉传感器及全身本体感知。
  • 输出:覆盖双腿、躯干、头部、手臂、手腕与五指的完整关节级控制。

该“像素到全身”(pixels-to-whole-body)架构使S1能将机器人自身状态与环境视为强耦合系统进行联合推理。

手掌摄像头可在头部视野遮挡时提供手内视觉反馈;指尖触觉传感器可感知微小受力,实现可调控力度的灵巧抓取,释放五指手潜力。

S1仍为以S2隐变量为条件的Transformer模型,输出全身关节目标,并由S0以kHz级频率跟踪执行。

System 2:场景理解与语言驱动

System 2承担语义级推理,负责理解语言指令、解析场景,并生成S1可执行的语义隐变量目标。

相比前代仅支持“拿起番茄酱”类简单指令,Helix 02 S2已能理解并拆解“走到洗碗机前并打开它”“把碗端到台面上”“回到上层架取杯子”等复合行为指令。

S2无需规划步态或协调手脚,仅需生成语义目标,交由S1翻译、S0稳定执行。

结合触觉与手内视觉的灵巧操作

Helix 02通过手掌摄像头与触觉传感器,首次实现纯视觉策略难以胜任的精细操作任务。典型案例如下:

拧开瓶盖

需双手协同,在稳定固定瓶身的同时施加连续、可控旋转力,兼顾防滑与防压损。

从药盒中取出单颗药片

药丸常被头部摄像头遮挡,依赖手掌摄像头提供手内视觉,结合触觉引导高精度抓取。

用注射器精确推出5ml液体

在阻力变化大、容错空间小条件下,需多指协同与实时力控,持续微调姿态与压力。

从杂乱箱中取出金属零件

在相互遮挡、叠放且易位移的金属件中精准识别并取出目标部件,需视觉决策+触觉确认稳固接触。该演示基于Figure BotQ工厂真实卸货场景。

Loco-Manipulation:从割裂控制到全身协同

此前Helix虽提出快慢双系统,但仅解决上半身控制(whole upper-body control);Helix 02则首次将loco-manipulation作为主线,推动上下半身从“接口对齐”走向统一建模与联合优化。

传统方案将行走与操作拆分为两个独立控制器,再以状态机“缝合”,导致行为链条为“走→停→稳定→伸手→抓取→再走”。该模式在桌面操作尚可,但在真实空间中难以应对移动与操作的强耦合关系——抬物影响重心、迈步改变臂展、肢体间持续制约。

多数现有方案依赖离线规划+动作回放,反馈链路浅,环境稍有偏差即崩溃,且行为生硬不自然。

真正自主性需一个能持续感知、推理、执行的统一学习系统:在行走中搬运、在伸手时动态调衡、在偏差出现时实时恢复。这正是loco-manipulation的核心价值。

Sunday机器人创始人Tony Zhao评价:“恭喜@Figure_robot完成这个长时程的洗碗机卸载任务!全身控制(WBC)真的非常惊艳。”

多位观察者指出:面向人形机器人的全身控制VLA,已成为行业新入场门槛;Figure对Helix 02的技术拆解,标志着机器人正从“工具感”向“具身感”演进。

需注意,loco-manipulation并非Figure独创方向。此前智元科技已在Agibot X2上实现WholeBodyVLA驱动的大尺度端到端移动—操作任务。

整体趋势表明,具身智能主战场正加速从静态桌面转向需持续平衡、移动与操作协同的真实世界。

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14681
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读117.8k
粉丝0
内容14.7k