引言
前不久,“DAMO微醺客厅”首期学术酒吧在杭州圆满落地,大湾区大学讲席教授、先进工程学院院长,前香港科技大学机器人研究院创始院长,戴盟机器人联合创始人兼首席科学家王煜教授以《Do as hard assembly, not as mere insertion》为题,指出当前机器人多停留在“插入”类简单操作,难以应对3C制造中复杂、非结构化的精密装配。他提出,真正的具身智能应迈向“硬核装配”,通过技能学习、视触感知与智能末端,让机器人从工人示范中掌握“敲、压、调”等类人操作技能,实现从“重复执行”到“理解任务”的跨越,推动工业机器人走向真正的智能操作。
为方便阅读,本文为不改变原意的内容整理。本文为文章作者的观点/研究数据,仅供参考,不代表本账号的观点和研究内容。
装配任务的挑战
装配是工业生产中最具代表性的操作任务,广泛应用于电子制造、机械组装及日常插接场景。这类任务表面上并不复杂,却对操作者的手眼协调与操作熟练度提出了极高的要求。
在典型的装配过程中,操作工人不仅依靠视觉进行空间定位,还需要结合手感与经验,判断装配零件是否精准到位。特别当零件尺寸微小或者装配空间狭窄时,视线常常被手部动作遮挡。此时,工人需要通过感知接触阻力的细微变化,不断调整装配动作的方向和力度,才能顺利完成任务。
然而,现阶段的机器人智能要学习并掌握这些人类技能仍然存在挑战。工人的装配操作看似简单,实际蕴含复杂的工程知识和经验积累,这些知识是当前机器人系统难以理解与实现的。现有的机器人多依赖视觉识别与几何规划,对受力状态与接触变化的理解仍十分有限。因此,在真实的工业级精密装配场景中,机器人距离“像人一样装配”仍有巨大差距。
插接:现有策略的局限
现有具身智能框架虽统一了视觉与语言表征,但仍未突破理解人类操作技能知识的瓶颈。具身智能研究普遍采用语言模型的技术路径,构建了以视觉-语言-动作模型(VLA)为核心的系统框架。该框架以语言作为视觉与动作之间的统一表示:语言用于描述任务目标与场景信息,视觉负责感知环境状态,动作则在语言引导下生成可执行指令。通过这一方式,系统在统一语义空间中实现了“看到什么”与“如何行动”的关联,建立起从语言到动作的端到端映射。例如,模型可将“移动到X/Y/Z位置”的自然语言指令直接转化为机器人轨迹,从而在表征层面实现感知与控制的融合。
基于视觉-语言-动作模型的智能系统已在积木拼接、USB插拔等基础任务中展现出良好性能,初步证明了其在简单装配场景中的可行性。然而,现有研究往往将装配任务过度简化为“插接”问题:所使用的零件通常具有明确的几何特征与较大的配合间隙,其核心仍停留在空间位姿的规划与粗对齐阶段。
因此,当前方法更多体现的是基于位移控制的运动能力,尚未触及精密装配中对力控与动态调整的核心要求。一旦面对如VGA接口插接这类精度要求稍高的任务,装配成功率便显著下降,反映出当前技术与工业级装配所要求的高精度操作之间仍存在本质差距。
图1. 常见的“插接”任务[1]
这种差距的根源在于工业级精密装配对零件配合公差的严格约束。在真实工业环境中,零件配合的公差通常控制在微米级别,任何微小的角度偏差或受力不均都可能导致装配失败甚至零件损伤。
更重要的是,工业装配不是一次性的位姿对准,而是需要在动态受力过程中持续维持精准对位与力平衡的复杂过程。这对系统的视觉感知精度、力觉反馈灵敏度以及控制回路的响应速度都提出了远超实验室条件的要求。现有的大多数方法,包括在实验室级别任务中表现较好的强化学习策略,在面对严格的工业公差要求时,成功率都会显著下降,其所能适应的公差范围也远未达到工业级装配的要求。
图2. 不同装配策略在不同间隙比下的成功率[3]
工程知识:精密装配的核心
要理解工业级精密装配的难点,必须深入其背后所依赖的工程知识体系。早在上世纪八十年代,MIT的D.E. Whitney教授就对装配过程的力学机理进行了系统建模与分析。以经典的轴孔装配为例,他指出装配过程中的操作力与力矩必须处于“力-力矩可行区域”内,一旦超出该平衡区,就会引发卡滞或零件损坏。
图3展示了装配中典型的卡滞现象:当沿轴线方向的插入力不足时,摩擦力将阻碍零件进一步插入,导致装配失败;只有插入力与方向均满足力-力矩平衡条件时,装配才能顺利完成。这表明,精密装配不仅涉及几何层面的运动约束,更依赖于对受力状态的准确分析与实时控制。为此,机器人需具备力觉、触觉等多模态感知能力,并实现精准的力控制。
图3. 卡滞示例:插入方向力分量不足造成的卡滞(左)和正常装配(右)[2]
在机器人力控的实现中,我们必须认识到位移控制与力控制之间存在根本的因果约束。物理上,位移与力无法被同时控制:控制位移时,力是被动结果;控制力时,位移无法自由设定。真实装配过程往往需要在这两种模式之间灵活切换,以应对不同的接触状态与受力变化。
然而,当前主流具身智能框架,无论是强化学习还是大模型驱动的控制系统,均缺乏对上述工程知识的理解与应用。它们依然停留在基于视觉的几何运动规划层面,未能将摩擦、力矩以及控制模式切换等物理约束纳入具身智能的决策控制过程。由此可见,装配问题的本质不仅是空间运动问题,更是一个深层的工程问题。这一认识也促使我们重新审视“运动”与“操作”的界限——只有理解工程机理,才能在操作层面实现精度控制。
“运动”到“操作”的技术跨越
将装配任务置于机器人操作的宏观框架下,可清晰划分为两个具有显著差异的阶段:粗运动(Gross Motion)与精密操作(Fine Manipulation)。
粗运动阶段主要负责机器人在工作空间中的宏观移动与初步定位,涵盖抓取、搬运与粗略放置等基础任务。该阶段对精度要求相对宽松,通常在10–20毫米级别即可满足需求。当前基于视觉感知与位移控制的具身智能系统在此方面已取得显著进展,能够稳定可靠地完成大多数粗运动任务。
然而,当任务进入精密操作阶段,系统面临的技术挑战将发生质的飞跃。这一阶段不再满足于简单的位置控制,而是要求机器人具备对力、力矩、摩擦等物理量的精确感知与主动调控能力。精密操作的核心是在微观尺度上实现力与位置的混合控制,这需要引入包括力学分析、摩擦建模等在内的完整工程知识体系作为技术支撑。
王煜教授在分析中引用了D. E. Whitney提出的精密运动分类图(图4),将其作为实现精密操作的技术路线参考。该图谱系统概括了精密操作的三种误差处理的典型思路:理想情况下可通过超高精度传感与执行系统实现纯视觉装配;另一极端则如Matt Mason所提出的,完全依靠物理交互被动地排除不确定性因素。然而,真实的精密操作往往介于这两个极端之间,其核心挑战在于如何在不可避免的几何误差条件下仍能实现可靠装配。
图4.精密运动的分类和技术路线[3]
基于上述认识,可行的技术路径是主动接受装配过程中不可避免的几何误差,通过引入力觉与触觉反馈系统实时感知并适应各类偏差,将工程知识转化为可执行的控制策略。这条中间路线标志着从“视觉主导的运动规划”到“力觉参与的物理交互”的范式转变,也是实现从“运动”到“操作”跨越的核心所在。
未来的研究应聚焦于构建融合几何感知与物理交互的完整技术体系,使机器人能够理解并灵活运用精密操作所需的物理与工程知识,从而真正满足高精度操作的需求。
具身智能的实现,究竟是算法问题,还是工程问题?
当前,许多研究试图通过扩大模型规模与增加数据覆盖来应对所有场景,却忽略了对工程知识的系统理解。具身智能的终极目标,并非“看过所有视频”,而是“掌握实际技能”。真正的智能系统必须在算法与工程之间架起桥梁:既通过算法捕捉行为规律,也依靠工程理解物理本质。
只有将力觉、触觉、摩擦等工程因素融入学习与控制体系,机器人才能实现从“运动”到“操作”、从“插接”到“装配”的跨越。
[1]: InsertionNet - A Scalable Solution for Insertion
[2]: A Review of Robotic Assembly Strategies for the Full Operation Procedure: Planning, Execution, and Evaluation.
[3]: Rigid Part Mating
|往期内容回看



