具身智能作为AI从数字世界迈向物理现实的关键跃迁,是通向通用人工智能(AGI)的重要路径。然而,模型泛化能力弱、高质量数据获取难、感知—决策—执行闭环难以稳定实现等核心瓶颈,仍严重制约其规模化产业落地。
近日,InfoQ《极客有约》联合QCon全球软件开发大会,邀请地瓜机器人算法副总裁隋伟博士担任主持人,与地瓜机器人具身智能负责人何泳澔博士、乐享科技CTO李元庆、北京科技大学副教授彭君然博士共同探讨具身智能在工业与消费场景中的真实卡点与突破路径。
算法之卡
工业场景并不追求AGI级别的通用性。若能在高价值工位实现稳定(零宕机)、可靠(成功率趋近100%)、高效(节拍达标),即具备百亿级商业潜力。VA(Vision-Action)模型相较VLA(Vision-Language-Action)更适配工业环境——因其省去语言模态,在高度结构化的产线中避免冗余计算与训练复杂度,专注视觉输入到动作输出的精准映射。
但VA或VLA均无法直接满足毫米级操作精度需求。高成功率工业落地需模块化架构支撑:VA算法嵌入其中,配合定制化数据采集、高保真仿真及硬件协同优化。未来工业智能更接近“模型超市”,不同任务由不同专业化模型组合解决,而非单一“大模型通吃”。
从实验室到产线失效,主因在于系统链路失控:感知层易受光照、遮挡、传感器跳变干扰;决策层对动态阴影、时延敏感;执行层微小误差经物理放大后导致失败。可控生成的前提是全链路可控——正如无人驾驶,必须在信号传输、边缘推理、运动控制等每个环节建立确定性保障。
World Model(世界模型)正成为关键突破方向。其核心价值并非完美预测下一帧,而在于构建“动作→观测→评价”的闭环评估机制,为VLA提供动态reward信号。当前主流路径分为两类:一类在像素空间建模(如World Labs Marble),另一类按LeCun JEPA范式在隐空间预测特征演化,后者更关注物理规律本质,有望降低噪声干扰、提升泛化鲁棒性。
数据之卡
数据稀缺是第二大瓶颈。传统遥操作采集的轨迹常含抖动、停顿、无意义片段等噪声,直接用于扩散模型或flow matching训练将导致模型学习偏差。地瓜机器人提出“轨迹数据标准化”方案:通过构造cost function优化运动学与动力学一致性,剔除低质量轨迹点,使策略学习更高效。实验证明,该预处理使末端操作精度提升20个百分点。
高质量数据获取正转向三类路径协同:一是真机强化学习(如SERL),依托人工示教+reward闭环迭代;二是仿真引擎生成(UE/PCG)或三维重建导入;三是视频生成模型驱动的数据合成(类Sora)。后者最具规模化潜力,尤其当结合力梯度标注(替代绝对力值)与视觉突变映射,可在不依赖隐私敏感真实场景的前提下,生成带物理语义的装配轨迹。
“模型驱动”亦不可忽视。FSD已将高精地图、WBC(Whole-Body Control)与MPC注入先验知识;GAN对抗训练、PPO中规则约束嵌入等技术,均显著降低数据依赖、加速收敛。物理规律与常识编码并非取代数据驱动,而是与之协同:规则兜底,learning突破上限。
物理交互之卡
当前机器人对物理世界的“无知”,集中体现于动力学(重量)、接触力学(摩擦系数)、稳定性(倾覆临界)等多维缺失。力觉已是工业落地刚需模态:从关节力矩粗粒度感知,到六维力传感器,再到末端高分辨率触觉传感,层级递进带来性能跃升,也同步推高采集成本与数据异构性。
纯视觉仍有上限。FSD证明强算法+大数据可逼近多模态效果,但工业场景对确定性要求更高。引入力觉并非否定视觉,而是以多模态代偿单一感知瓶颈,突破成功率天花板。
“重建”与“生成”构成空间智能双路径:“重建”服务于快速POC验证(如数字孪生产线1:1复刻);“生成”支撑鲁棒性测试(海量变体场景);而World Model代表终极scale up路径——借力大模型与视频生成生态,打通数据、reward与泛化壁垒。
系统落地之卡
企业低估的最大成本并非部署调试或环境改造,而是**决策成本**:信息不对称导致错误战略投入,杠杆效应将放大失误代价。真正落地前,需准确识别“哪些问题必须用具身解决,哪些已有更低成本自动化方案”。具身的核心优势不在全面替代,而在填补柔性作业、长链条任务、非标环境下的能力空白,并凭借边际成本递减特性,超越高度定制化方案的经济性极限。
高校教育与产业需求的断层,不在“最后一公里”,而在“第一公里”——学生亟需培养价值判断力、技术预判力与工程决策力,而非仅限于算法实现。
展望未来
工程师应打破单点技能局限,建立全栈认知:从机械臂控制、VA/VLA模型训练部署,到端到端系统设计。参与真实工业项目,方能理解约束、校准判断。
未来2–3年,Agent架构最可能突破的卡点在**Action层**:尤其是Mobility(导航与移动)与Manipulation(灵巧操作)——对真实物理对象交互的深层建模,仍是未解难题。
具身智能的“iPhone时刻”未必来自技术奇点,而更可能始于一个朴素标准:一台机器人在特定工位连续稳定运行一个月。此时,商业闭环与数据闭环同步成型,规模化复制水到渠成。

