【具身智能】具身多模态大模型HY-Embodied-0.5-X开源，从“看懂”走向“干活”- 大数跨境

【具身智能】具身多模态大模型HY-Embodied-0.5-X开源，从“看懂”走向“干活”

人工智能产业链union

2026-04-28

腾讯发布开源具身智能大模型HY-Embodied-0.5-X

4月24日，腾讯Robotics X实验室联合混元团队正式发布并开源多模态具身大模型HY-Embodied-0.5-X。该模型基于HY-Embodied-0.5-MoT-2B架构，聚焦机器人在真实环境中的“看得懂、想得清、做得到”三大核心能力，专为具身任务落地优化。

模型在10个主流具身复杂任务规划评测集上达到业内先进水平，其中7项位居端侧领域模型第一。

聚焦真实交互，强化五大关键能力

在4月18日中国电子信息年会上，腾讯首席科学家、Robotics X实验室主任张正友介绍，相比通用多模态模型，HY-Embodied-0.5-X更聚焦机器人在物理世界中的实际交互需求，重点增强以下能力：

精细操作理解
空间推理
动作预测
风险判断
多模态指代理解与长程规划

推动AI从“看懂”迈向“干活”。

双模型底座：MoT-2B与MoE-32B协同演进

HY-Embodied-0.5系列包含两款主力基础模型：

MoT-2B（总参4B，激活2B）：采用混合Transformer（MoT）架构，面向端侧部署与实时响应；
MoE-32B（总参407B，激活32B）：追求复杂推理与极致性能。

团队在架构设计、数据组织与训练流程上持续创新，提升模型对物理空间的理解与响应能力。

高质量数据构建：覆盖三大核心场景

HY-Embodied-0.5-X融合自采机器人第一视角操作数据、机械臂操作数据及优质开源具身数据，构建覆盖以下场景的高质量训练集：

操作理解
第一人称任务推理
多模态交互指代理解

具体包括：

机械臂与人手操作轨迹数据：覆盖状态理解、下一步动作预测、操作风险判断、失败诊断及候选动作优劣评估；
第一视角具身任务数据：涵盖细粒度动作识别、子任务进度判断、手部空间定位、深度估计、相对空间关系推理、相机位姿推断等；
多模态交互指代数据：针对“把这个放到那里”等模糊指令，融合语音与手势，提升真实人机协作适应性。

系统化数据质量闭环

所有核心数据均配备思维链（Chain-of-Thought）标注，支持模型逐步推理；团队建立“生成—校验—修正—评测反跑验证”全流程闭环，对结构化字段完整性、视觉有效性、多样性分布及模型增益效果进行端到端度量。同时，将具身、互联网及3D数据纳入统一体系，构建标准化数据重构流水线，实现异构源向高质量具身推理数据的高效转化。

分阶段训练策略：“验证—扩展—全量”

HY-Embodied-0.5-X采用“验证—扩展—全量”三阶段迭代训练策略：

先用精选小规模高质量数据快速验证训练配置与数据清洗效果；
再逐步扩大数据规模与模型容量；
最终在确认最优组合后启动全量训练。

兼顾训练效率与资源利用效能，确保算力精准投入高价值数据。

三大核心能力升级

HY-Embodied-0.5-X在真实具身任务中展现出显著优势：

更强的空间理解能力：精准识别物体位置、场景布局、相对空间关系与操作状态，夯实感知基础；
更强的长程规划能力：支持多步骤、强依赖的复杂任务，在连续交互中稳定完成任务拆解、动作规划与执行决策；
更强的具身交互能力：集成视觉理解、自然语言对话、任务解析、指代消解、动作决策、风险判断与失败反思，形成完整人机交互闭环。

10大Benchmark综合领先

在覆盖规划、空间推理、具身问答、视觉指代与轨迹理解等方向的10个主流开源评测集上，HY-Embodied-0.5-X取得6项第一、3项第二，并在CV-Bench等通用视觉空间任务中稳居第一梯队，体现其在规划、空间理解与具身交互上的均衡优势。

AI2Thor仿真基准测试表现优异

在基于AI2Thor仿真的自建具身规划基准中，模型涵盖厨房、卧室、客厅、浴室四大家居场景，共1011道任务，涉及导航、抓取、放置、开关电器、切割食材等操作。

结果显示，HY-Embodied-0.5-X在长程操作、自认知、空间理解等关键维度显著提升。综合得分位居同尺寸模型第一；在长程操作任务中，仅2B参数即超越Claude-4.0-Sonnet与GPT-5.4，仅次于TAIROS-Planning（32B）和Gemini 3.0 Pro（138B），排名第三。

团队选取厨房切菜装盘、制作冰咖啡、玄关整理、卧室贵重品收纳四大代表性任务进行实际仿真执行，标准动作序列全部成功完成，验证其在真实家居场景下处理复杂多步任务的规划与执行能力。

PlaygroundX平台接入验证：支持ReAct闭环

模型已完成Tairos PlaygroundX仿真平台接入。该平台面向人居场景，评测模型将自然语言指令转化为可执行动作序列的能力。

在“把土豆扔到垃圾桶里”“关上冰箱门”“把西红柿放进冰箱”等典型任务中，模型可生成完整规划，并基于环境反馈动态调整。例如，在“把西红柿放进冰箱”任务中，初始规划未考虑冰箱门状态导致失败后，模型能快速重规划，补充“开门—放置”动作，形成完整的ReAct闭环（推理→执行→感知失败→再规划），展现真实的失败修正与交互适应能力。

开源与展望

HY-Embodied-0.5-X的开源旨在为具身智能社区提供更具落地导向的基座模型，推动技术从“通用理解”迈向“真实执行”，持续突破空间理解、长程规划、交互闭环与具身推理等关键技术方向。

开源地址：

Github：https://github.com/Tencent-Hunyuan/HY-Embodied-0.5-X
Hugging Face：https://huggingface.co/tencent/HY-Embodied-0.5-X

【声明】内容源于网络

人工智能产业链union

人工智能产业链联盟，旨在汇聚全球人工智能领域的创新力量，共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心，打造了一个完整、高效、协同的人工智能生态链。

内容 2679

粉丝 1

人工智能产业链union 人工智能产业链联盟，旨在汇聚全球人工智能领域的创新力量，共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心，打造了一个完整、高效、协同的人工智能生态链。

总阅读47.5k

粉丝1

内容2.7k