
智能汽车正成为机器人时代的首个大终端。随着大模型技术的快速发展,源自智能汽车的算法与算力正被广泛复用于具身智能领域,推动从单一任务到通用智能、从交通工具到机器人形态的跃迁。
然而,具身智能的发展仍面临多重挑战:数据采集难、模型训练复杂、硬件本体不成熟、场景落地困难等,产业链各环节亟需协同突破。单一机构难以实现全链条创新,构建多方共建的产业生态势在必行。
地平线作为机器人时代的智能计算平台,已发展为中国最大的消费类机器人计算平台,其地瓜机器人上市产品超100款,连接超100家上下游合作伙伴及10万余名开发者。
在2025地平线技术生态大会上,极客公园创始人张鹏与本末科技CEO张笛、极佳视界CEO黄冠、优必选研究院A1大模型与交互部负责人石海林、香港大学助理教授李弘扬、地瓜机器人CEO王丛等展开深度圆桌对话,围绕芯片、算法、开发平台到机器人本体的全产业链创新,探讨具身智能的技术路径、商业落地与生态潜力。
以下为对话实录精要。

形态之争:类人形态 vs 功能形态
张鹏:具身智能应追求“类人形态”的拟人化,还是“功能形态”的极致效率?
张笛(本末科技):我们更倾向于非仿生、非类人的功能形态。虽然类人形是行业入场券,但长期来看,机器人作为新物种,不应局限于模仿人类。移动与操作问题可通过轮足等更高效的结构解决。当前行业过度聚焦人形,资源集中单一方向,不利于健康多元发展。
张鹏:优必选为何坚定走人形路线?哪些场景必须由人形完成?
石海林(优必选):人形是自然进化的优化结果,适应人类社会环境。在工业场景中,大量非结构化任务如狭窄通道搬运、精密装配等,需要高泛化能力的操作系统,人形具备天然优势。此外,在商业服务与家庭陪伴场景,人形外观更利于情感交互与用户接受。
张鹏:人形是否更利于数据迁移?实际研发中有无体现?
石海林:是的。遥操作或动作捕捉时,人形结构便于高效采集和标注数据,操作员培训成本低,数据闭环迭代更快。
张鹏:“通用底盘+功能模块”与“全能一体化机器人”,哪种路径更易普及?
张笛:我们将其分为“学院派”(自上而下追求通用)与“产业派”(自下而上叠加模组)。从商业化角度看,产业派以场景驱动、循序渐进的方式更具可行性,能更快实现市场化。
石海林:认同该观点。从具体任务出发积累数据,结合算力优势快速应用基座模型,周期正在加速。感知智能耗时约十年成熟,交互智能缩短至五年,具身智能若以2023年ALOHA为起点,预计三至五年内将进入成熟期。

技术路线之争:先验模型 vs 数据驱动
张鹏:世界模型在具身智能中解决了什么问题?还有哪些瓶颈?
黄冠(极佳视界):世界模型被视为物理AGI的最后一道瓶颈,目前已见曙光。其价值体现在三方面:一是作为“数据引擎”,通过生成式AI提供无限仿真数据,缓解真实数据稀缺;二是为强化学习提供可行动驱动的闭环环境,实现可扩展的训练;三是迈向“世界行动模型”,替代依赖语言的VLA架构,实现真正自主决策。
张鹏:世界模型本身也需要数据,如何破解“数据死循环”?
黄冠:语言模型依赖海量文本,世界模型则可依托互联网视频数据。尽管视频未显式包含3D与物理信息,但运动规律隐含于像素变化中,构成构建世界基础模型的重要素材。相较而言,行动模型最难,因其缺乏大规模真实动作-反馈数据。
自动驾驶之所以能在无VLA情况下发展良好,是因为拥有充足的真实驾驶数据。而具身智能严重缺数据,无法直接端到端训练VA模型,必须依赖世界模型补足。
张鹏:具身智能是否遵循Scaling Law?与大语言模型有何不同?
李弘扬(香港大学):目前仅有Generalist AI做过系统的Scaling Law实验(Gen-0)。其他公司尚未达到可验证规模。若存在Scaling Law,大概率仍呈幂律或线性增长。关键在于构建高效数据采集体系——当前真机数据获取成本极高,例如收集30万条有效轨迹需500套ALOHA设备,现实不可行。未来需依赖低成本方案如UMI,结合算法、硬件、法律等多维度优化。

数据策略之争:仿真/合成数据 vs 真机数据
张鹏:具身智能会有ImageNet时刻吗?何时能实现真机数据爆发?
黄冠:不太可能有ImageNet那样的标准化数据集,因机器人本体、传感器、环境高度多样化。但可能迎来“ChatGPT时刻”。硅谷已有公司积累超10万小时真机数据,预计明年全球将有5-10家公司达到百万小时级别,接近GPT-3阶段,两三年内有望实现ChatGPT级突破。
李弘扬:我相对谨慎。应遵循“数据金字塔”结构:以互联网第一视角数据为基础,结合仿真、遥操作、少量真机数据互补。单一来源难以支撑通用智能发展。

场景之争:工业场景 vs 家庭场景
张鹏:机器人如何触达C端用户?需突破哪些关键节点?
张笛:通用化应是渐进过程。现有扫地机器人已从单一清洁拓展至安防巡检、物品维护等功能,逐步向通用迈进。产品可从室内走向电梯、庭院、街区,能力持续叠加。当前正处于量变到质变的前夜,类似功能机向智能机过渡时期。
王丛(地瓜机器人):C端产品必须满足价格与PMF(市场匹配度)的平衡。消费电子的成功路径是功能积累,如iPhone整合通讯、音乐与上网。当前扫地机器人即便做到极致,价格天花板受限于人工成本。唯有找到关键功能跃迁点,才能引爆市场。
张鹏:情绪价值能否转化为可落地的产品定义?
王丛:情绪需求高度非标,需拆解为具体场景。例如老人陪伴、儿童互动、减压玩具等细分需求,对应设计专用产品,而非追求全能型机器人。
张笛:情绪价值产品已在萌芽。一类是不接触物理世界的对话终端(如语音助手),依赖NLP算法;另一类是小型桌面机器人,强调互动性与趣味性,实用功能弱但情绪价值高。这些MVP产品已形成初步市场,未来有机会向通用演进。

生态模式之争:生态开放 vs 全栈自研
张鹏:为何选择生态开放而非全栈自研?
王丛:感性上,我们愿景是赋能各行各业实现智能化,而非仅打造自有机器人。理性上,机器人是非标、碎片化市场,难以形成寡头垄断。未来将是多元共存格局:既有苹果式全栈自研企业,也有英伟达式底层平台商。地瓜机器人定位为基础设施提供者,助力生态加速成熟。
张鹏:开源百万真机数据集AgiBot World对行业有何价值?
李弘扬:该数据集可用于预训练与世界模型训练,为缺乏数据的科研机构提供重要资源。但复制难度高,涉及高昂成本与完整配套体系。未来更可持续的模式或是行业共建统一测试场,避免单一数据源垄断,促进生态健康发展。

人际关系之争:亲密共生 vs 警惕控制
张鹏:人机亲密程度差异是否会催生功能型与陪伴型机器人的细分赛道?“情绪价值”如何产品化?
张笛:情绪需求可细分为多种类型(如孤独、陪伴、娱乐),针对特定场景设计专用产品更易成功。无需依赖全能机器人,只要精准匹配需求,即可形成稳定市场。
石海林:情感交互技术迭代迅速。软件层面,对话能力已趋成熟;硬件层面,续航、噪音、外观等持续优化。技术发展不可逆,目标人群将从技术爱好者逐步扩展至大众用户。与其抗拒,不如思考如何更好拥抱这一趋势。


