大数跨境

【具身智能】具身多模态大模型HY-Embodied-0.5-X开源,从“看懂”走向“干活”

【具身智能】具身多模态大模型HY-Embodied-0.5-X开源,从“看懂”走向“干活” 人工智能产业链union
2026-04-28
2

腾讯发布开源具身智能大模型HY-Embodied-0.5-X

4月24日,腾讯Robotics X实验室联合混元团队正式发布并开源多模态具身大模型HY-Embodied-0.5-X。该模型基于HY-Embodied-0.5-MoT-2B架构,聚焦机器人在真实环境中的“看得懂、想得清、做得到”三大核心能力,专为具身任务落地优化。

模型在10个主流具身复杂任务规划评测集上达到业内先进水平,其中7项位居端侧领域模型第一。

聚焦真实交互,强化五大关键能力

在4月18日中国电子信息年会上,腾讯首席科学家、Robotics X实验室主任张正友介绍,相比通用多模态模型,HY-Embodied-0.5-X更聚焦机器人在物理世界中的实际交互需求,重点增强以下能力:

  • 精细操作理解
  • 空间推理
  • 动作预测
  • 风险判断
  • 多模态指代理解与长程规划

推动AI从“看懂”迈向“干活”。

双模型底座:MoT-2B与MoE-32B协同演进

HY-Embodied-0.5系列包含两款主力基础模型:

  • MoT-2B(总参4B,激活2B):采用混合Transformer(MoT)架构,面向端侧部署与实时响应;
  • MoE-32B(总参407B,激活32B):追求复杂推理与极致性能。

团队在架构设计、数据组织与训练流程上持续创新,提升模型对物理空间的理解与响应能力。

质量数据构建:覆盖三大核心场景

HY-Embodied-0.5-X融合自采机器人第一视角操作数据、机械臂操作数据及优质开源具身数据,构建覆盖以下场景的高质量训练集:

  • 操作理解
  • 第一人称任务推理
  • 多模态交互指代理解

具体包括:

  • 机械臂与人手操作轨迹数据:覆盖状态理解、下一步动作预测、操作风险判断、失败诊断及候选动作优劣评估;
  • 第一视角具身任务数据:涵盖细粒度动作识别、子任务进度判断、手部空间定位、深度估计、相对空间关系推理、相机位姿推断等;
  • 多模态交互指代数据:针对“把这个放到那里”等模糊指令,融合语音与手势,提升真实人机协作适应性。

系统化数据质量闭环

所有核心数据均配备思维链(Chain-of-Thought)标注,支持模型逐步推理;团队建立“生成—校验—修正—评测反跑验证”全流程闭环,对结构化字段完整性、视觉有效性、多样性分布及模型增益效果进行端到端度量。同时,将具身、互联网及3D数据纳入统一体系,构建标准化数据重构流水线,实现异构源向高质量具身推理数据的高效转化。

分阶段训练策略:“验证—扩展—全量”

HY-Embodied-0.5-X采用“验证—扩展—全量”三阶段迭代训练策略:

  1. 先用精选小规模高质量数据快速验证训练配置与数据清洗效果;
  2. 再逐步扩大数据规模与模型容量;
  3. 最终在确认最优组合后启动全量训练。

兼顾训练效率与资源利用效能,确保算力精准投入高价值数据。

三大核心能力升级

HY-Embodied-0.5-X在真实具身任务中展现出显著优势:

  • 更强的空间理解能力:精准识别物体位置、场景布局、相对空间关系与操作状态,夯实感知基础;
  • 更强的长程规划能力:支持多步骤、强依赖的复杂任务,在连续交互中稳定完成任务拆解、动作规划与执行决策;
  • 更强的具身交互能力:集成视觉理解、自然语言对话、任务解析、指代消解、动作决策、风险判断与失败反思,形成完整人机交互闭环。

10大Benchmark综合领先

在覆盖规划、空间推理、具身问答、视觉指代与轨迹理解等方向的10个主流开源评测集上,HY-Embodied-0.5-X取得6项第一、3项第二,并在CV-Bench等通用视觉空间任务中稳居第一梯队,体现其在规划、空间理解与具身交互上的均衡优势。

AI2Thor仿真基准测试表现优异

在基于AI2Thor仿真的自建具身规划基准中,模型涵盖厨房、卧室、客厅、浴室四大家居场景,共1011道任务,涉及导航、抓取、放置、开关电器、切割食材等操作。

结果显示,HY-Embodied-0.5-X在长程操作、自认知、空间理解等关键维度显著提升。综合得分位居同尺寸模型第一;在长程操作任务中,仅2B参数即超越Claude-4.0-Sonnet与GPT-5.4,仅次于TAIROS-Planning(32B)和Gemini 3.0 Pro(138B),排名第三。

团队选取厨房切菜装盘、制作冰咖啡、玄关整理、卧室贵重品收纳四大代表性任务进行实际仿真执行,标准动作序列全部成功完成,验证其在真实家居场景下处理复杂多步任务的规划与执行能力。

PlaygroundX平台接入验证:支持ReAct闭环

模型已完成Tairos PlaygroundX仿真平台接入。该平台面向人居场景,评测模型将自然语言指令转化为可执行动作序列的能力。

在“把土豆扔到垃圾桶里”“关上冰箱门”“把西红柿放进冰箱”等典型任务中,模型可生成完整规划,并基于环境反馈动态调整。例如,在“把西红柿放进冰箱”任务中,初始规划未考虑冰箱门状态导致失败后,模型能快速重规划,补充“开门—放置”动作,形成完整的ReAct闭环(推理→执行→感知失败→再规划),展现真实的失败修正与交互适应能力。

开源与展望

HY-Embodied-0.5-X的开源旨在为具身智能社区提供更具落地导向的基座模型,推动技术从“通用理解”迈向“真实执行”,持续突破空间理解、长程规划、交互闭环与具身推理等关键技术方向。

开源地址:

【声明】内容源于网络
0
0
人工智能产业链union
人工智能产业链联盟,旨在汇聚全球人工智能领域的创新力量,共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心,打造了一个完整、高效、协同的人工智能生态链。
内容 2679
粉丝 1
人工智能产业链union 人工智能产业链联盟,旨在汇聚全球人工智能领域的创新力量,共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心,打造了一个完整、高效、协同的人工智能生态链。
总阅读47.5k
粉丝1
内容2.7k