一、报告核心定位与核心问题
东吴证券发布的《机器人大模型行业深度报告》聚焦人形机器人智能化的核心瓶颈,围绕“为何需要高智能大模型”“当前技术进展如何”“未来发展方向是什么”三大问题,系统分析具身智能大模型的技术架构、数据支撑、产业格局与投资机会。报告指出,人形机器人产业化落地的关键在于突破传统工业机器人“控制刚、泛化弱”的局限,而具身智能大模型正是实现环境理解与适应能力的核心驱动力。目前行业整体处于L2初级阶段,迈向通用泛化智能仍需在建模方法、数据规模和训练范式等方面持续突破。
二、人形机器人为何需要高智能大模型?
(一)形态并非核心难点,通用智能是关键
人形机器人形态工程已趋成熟,如本田ASIMO、波士顿动力Atlas等产品具备出色运动能力,但依赖预设行为库,缺乏环境感知、任务理解和泛化执行能力,本质仍是“人形的机器”。本轮产业热潮的核心驱动力是对机器人“智能性”的期待。多模态大模型的发展使机器人首次具备“感知—理解—决策”的潜力,成为拥有“大脑”的起点。
(二)大模型开启智能进化,撬动 0-1 落地
大语言模型(LLM)验证了大规模文本训练的推理可行性,视觉语言模型(VLM)拓展了跨模态表征能力,动作模态的引入则赋予机器人操作执行能力。初级具身智能模型已在特定场景实现应用落地,并通过“数据收集—模型优化—产品升级—更多数据”的飞轮机制,推动从0到1再到规模化演进。
(三)当前智能水平有限,泛化能力待突破
依据《人形机器人智能化分级》标准,智能水平分为L1-L5五个等级,涵盖感知认知、决策学习、执行表现、协作交互四大维度。当前主流产品普遍处于L2阶段,仅能完成固定任务并进行微调,尚不具备自主应变与跨场景泛化能力,距离真正通用智能仍有较长发展路径,需在技术、数据体系与生态协同上持续积累。
三、具身智能大模型的技术进展:架构与数据双轮驱动
(一)架构端演进:从模块化到端到端,动作频率持续提升
具身智能大模型的架构发展沿多模态融合、动作频率提升、泛化能力增强三条主线推进,呈现代际迭代特征:
- 早期模块化架构:Google于2022年推出的SayCan模型通过LLM解析自然语言指令,结合可行性评估实现人机交互,但存在语义脱节、迁移成本高、缺乏重规划能力等问题;
- 端到端控制模型:同期发布的RT-1基于Transformer架构,联合编码图像与语言输出动作Token,在700余项任务中平均成功率高达97%,但受限于任务平台耦合性强、语义理解能力不足;
- 多模态具身模型:2023年PaLM-E融合语言、视觉与传感器状态信息,实现高层推理与复杂任务执行(如分类推积木),但模型庞大、训练成本高,底层控制仍依赖预设策略;
- 动作信息融入VLM:同年RT2将动作转化为语言Token纳入VLM训练,构建端到端VLA架构,显著提升泛化能力,但动作输出频率仅为1-5Hz,难以满足实际需求;
- 动作专家增强:2024年π0引入FlowMatch动作专家,动作频率提升至50Hz,稳定性与成功率大幅提高,适用于复杂环境处理,但仍低于100Hz的高动态场景要求;
- 快慢脑并行架构:2025年Helix采用“慢脑”(7B参数VLM负责高层分析)+“快脑”(80M参数Transformer负责实时执行)结构,动作频率突破200Hz,支持零样本多机协同,首次展现任意物品拾取能力。
此外,FiS-VLA通过双系统融合设计,重构VLM末端为执行模块,进一步提升协同效率与动作稳定性。
(二)数据端支撑:三类数据协同,动捕设备成关键
数据是具身智能大模型训练的核心基础,遵循预训练、后训练、推理三个阶段的Scaling法则,形成“互联网数据 + 仿真数据 + 真实数据”金字塔结构:
- 互联网数据位于基座,以海量未标注视频为主,获取成本低,适用于预训练,但场景泛化难、监督标注成本高;
- 仿真数据居中层,依托英伟达Isaac等平台生成,具备低成本、高效率、灵活切换场景优势,可提供完美标签,常用于模型冷启动,但面临Sim2Real Gap(仿真与现实对齐)及过拟合风险;
- 真实数据位于顶端,通过遥操作或动捕设备采集,质量最高,是提升实用性的关键,但采集效率低、成本高昂。
真机数据采集高度依赖动捕设备,主要分为光学动捕与惯性动捕两类:光学动捕精度达亚毫米级,适用于集中式训练场,代表企业包括凌云光、青瞳视觉;惯性动捕部署灵活、成本较低,适合中低精度场景,代表企业有诺亦腾、Xsens。行业普遍采用“仿真+真机”混合训练模式,数据比例差异显著——智元机器人实现100%真机驱动,北京人形机器人创新中心则采用7:3的仿真数据占比。
四、具身智能大模型的未来发展方向
(一)模态扩展:融入更多感知通道
当前主流模型以视觉、语言、动作三模态为主,未来将逐步引入触觉、温度等新模态,构建更完整的世界模型。触觉模态已成为重点方向,VTLA(视觉-触觉-语言-动作)相关技术已在戴盟、帕西尼等企业落地,有望显著提升模型泛化能力。
(二)推理机制:引入世界模型提升认知
未来架构将集成“世界模型”,实现“感知—建模—预测—决策”闭环认知。英伟达发布的Cosmos平台可通过扩散模型、自回归模型生成照片级真实合成数据,赋予机器人“想象力”,增强环境建模与复杂任务推理能力。
(三)数据构成:仿真与真实数据融合
纯真实数据采集效率低且缺乏负样本,纯仿真数据存在现实对齐难题,二者融合成为必然趋势。标准化、可扩展的机器人数据训练场加速建设,1亿条高质量行为轨迹被视为模型能力跃迁的关键门槛。优必选、特斯拉、华为等企业正积极布局“仿真-真机融合”训练体系。
五、核心企业与标的分析
(一)模型端核心企业
- 银河通用:专注具身多模态大模型,采用全仿真数据预训练(占比超99%)+少量真机微调模式,发布全球首个完全依赖合成数据预训练的VLA模型GraspVLA,训练数据达十亿帧“视觉-语言-动作”对,首款机器人Galbot(G1)具备泛化抓取能力;
- 星动纪元:源自清华大学交叉信息研究院,自研端到端模型ERA-42,采用双系统架构,为全球首个融合世界模型的全模态具身大模型,开源AIGC生成式模型VPP,利用互联网视频数据提升策略泛化性;
- 智元机器人:发布通用具身基座大模型GO-1,采用ViLLA架构融合VLM与混合专家系统,推出全球首个基于机器人动作序列驱动的具身世界模型EVAC及评测基准EWMBench,实现感知-规划-执行闭环。
(二)数据采集与训练场标的
- 数据采集领域:青瞳视觉(光学动捕系统集成Kinetiq AI解算器)、凌云光(光场重建与动捕系统国内市占率第一,服务头部机器人厂商)、奥比中光(3D视觉龙头,Gemini系列相机支持毫米级深度感知);
- 数据训练场领域:天奇股份(与优必选、银河通用合作,建设工业级数据采集与实训中心,支持50台人形机器人并行训练)。
六、投资建议与风险提示
(一)投资建议
建议关注模型端的一级市场企业银河通用、星动纪元、智元机器人;数据采集领域重点关注青瞳视觉、凌云光(688400.SH)、奥比中光(688322.SH);数据训练场领域建议关注天奇股份(002009.SZ)。
(二)风险提示
- 大模型技术进展不及预期,推理能力、泛化能力、动作输出频率等核心指标突破缓慢;
- 高质量数据获取受限,训练场建设进度、采集成本与效率难以满足模型训练需求;
- 人形机器人市场需求不及预期,商业化路径受阻,影响具身大模型产业价值空间。


