腾讯发布开源具身智能大模型HY-Embodied-0.5-X
4月24日,腾讯Robotics X实验室联合混元团队正式发布并开源多模态具身大模型HY-Embodied-0.5-X。该模型基于HY-Embodied-0.5-MoT-2B架构,聚焦机器人在真实环境中的“看得懂、想得清、做得到”三大核心能力,专为具身任务落地优化。
模型在10个主流具身复杂任务规划评测集上达到业内先进水平,其中7项位居端侧领域模型第一。
聚焦真实交互,强化五大关键能力
在4月18日中国电子信息年会上,腾讯首席科学家、Robotics X实验室主任张正友介绍,相比通用多模态模型,HY-Embodied-0.5-X更聚焦机器人在物理世界中的实际交互需求,重点增强以下能力:
- 精细操作理解
- 空间推理
- 动作预测
- 风险判断
- 多模态指代理解与长程规划
推动AI从“看懂”迈向“干活”。
双模型底座:MoT-2B与MoE-32B协同演进
HY-Embodied-0.5系列包含两款主力基础模型:
- MoT-2B(总参4B,激活2B):采用混合Transformer(MoT)架构,面向端侧部署与实时响应;
- MoE-32B(总参407B,激活32B):追求复杂推理与极致性能。
团队在架构设计、数据组织与训练流程上持续创新,提升模型对物理空间的理解与响应能力。
高质量数据构建:覆盖三大核心场景
HY-Embodied-0.5-X融合自采机器人第一视角操作数据、机械臂操作数据及优质开源具身数据,构建覆盖以下场景的高质量训练集:
- 操作理解
- 第一人称任务推理
- 多模态交互指代理解
具体包括:
- 机械臂与人手操作轨迹数据:覆盖状态理解、下一步动作预测、操作风险判断、失败诊断及候选动作优劣评估;
- 第一视角具身任务数据:涵盖细粒度动作识别、子任务进度判断、手部空间定位、深度估计、相对空间关系推理、相机位姿推断等;
- 多模态交互指代数据:针对“把这个放到那里”等模糊指令,融合语音与手势,提升真实人机协作适应性。
系统化数据质量闭环
所有核心数据均配备思维链(Chain-of-Thought)标注,支持模型逐步推理;团队建立“生成—校验—修正—评测反跑验证”全流程闭环,对结构化字段完整性、视觉有效性、多样性分布及模型增益效果进行端到端度量。同时,将具身、互联网及3D数据纳入统一体系,构建标准化数据重构流水线,实现异构源向高质量具身推理数据的高效转化。
分阶段训练策略:“验证—扩展—全量”
HY-Embodied-0.5-X采用“验证—扩展—全量”三阶段迭代训练策略:
- 先用精选小规模高质量数据快速验证训练配置与数据清洗效果;
- 再逐步扩大数据规模与模型容量;
- 最终在确认最优组合后启动全量训练。
兼顾训练效率与资源利用效能,确保算力精准投入高价值数据。
三大核心能力升级
HY-Embodied-0.5-X在真实具身任务中展现出显著优势:
- 更强的空间理解能力:精准识别物体位置、场景布局、相对空间关系与操作状态,夯实感知基础;
- 更强的长程规划能力:支持多步骤、强依赖的复杂任务,在连续交互中稳定完成任务拆解、动作规划与执行决策;
- 更强的具身交互能力:集成视觉理解、自然语言对话、任务解析、指代消解、动作决策、风险判断与失败反思,形成完整人机交互闭环。
10大Benchmark综合领先
在覆盖规划、空间推理、具身问答、视觉指代与轨迹理解等方向的10个主流开源评测集上,HY-Embodied-0.5-X取得6项第一、3项第二,并在CV-Bench等通用视觉空间任务中稳居第一梯队,体现其在规划、空间理解与具身交互上的均衡优势。
AI2Thor仿真基准测试表现优异
在基于AI2Thor仿真的自建具身规划基准中,模型涵盖厨房、卧室、客厅、浴室四大家居场景,共1011道任务,涉及导航、抓取、放置、开关电器、切割食材等操作。
结果显示,HY-Embodied-0.5-X在长程操作、自认知、空间理解等关键维度显著提升。综合得分位居同尺寸模型第一;在长程操作任务中,仅2B参数即超越Claude-4.0-Sonnet与GPT-5.4,仅次于TAIROS-Planning(32B)和Gemini 3.0 Pro(138B),排名第三。
团队选取厨房切菜装盘、制作冰咖啡、玄关整理、卧室贵重品收纳四大代表性任务进行实际仿真执行,标准动作序列全部成功完成,验证其在真实家居场景下处理复杂多步任务的规划与执行能力。
PlaygroundX平台接入验证:支持ReAct闭环
模型已完成Tairos PlaygroundX仿真平台接入。该平台面向人居场景,评测模型将自然语言指令转化为可执行动作序列的能力。
在“把土豆扔到垃圾桶里”“关上冰箱门”“把西红柿放进冰箱”等典型任务中,模型可生成完整规划,并基于环境反馈动态调整。例如,在“把西红柿放进冰箱”任务中,初始规划未考虑冰箱门状态导致失败后,模型能快速重规划,补充“开门—放置”动作,形成完整的ReAct闭环(推理→执行→感知失败→再规划),展现真实的失败修正与交互适应能力。
开源与展望
HY-Embodied-0.5-X的开源旨在为具身智能社区提供更具落地导向的基座模型,推动技术从“通用理解”迈向“真实执行”,持续突破空间理解、长程规划、交互闭环与具身推理等关键技术方向。
开源地址:

