摘要
机器人在视觉不足的环境中常面临操作任务,例如杂物遮挡、视野受阻或光照条件差的场景—— 典型案例包括触及水槽柜后部的截止阀,或在拥挤架子上寻找电灯开关。此类场景中,机器人需像人类一样,依靠接触反馈区分空旷空间与障碍物区域,并绕过障碍物导航。许多这类环境存在强烈的结构先验知识 —— 例如水槽柜内的管道通常横贯整个柜体 —— 可利用这些知识预测未观测到的结构,避免不必要的碰撞。本文提出一种理论完备且经验有效的盲态操作框架,该框架融合接触反馈与结构先验知识,实现未知环境下的稳健操作。框架包含三个紧密耦合的组件:(i)接触检测与定位模块,利用关节力矩传感和接触粒子滤波器实现接触检测与定位;(ii)占用估计模块,通过接触观测历史构建工作空间的部分占用地图,并利用学习预测器外推至未探索区域;(iii)规划模块,考虑接触定位估计和占用预测存在噪声的特点,计算可避免碰撞且高效完成任务的路径,同时不排除可行解。我们在仿真环境和真实场景中,基于 UR10e 机械臂对两个家庭任务开展评估 ——(i)在厨房水槽下管道环绕的环境中操作阀门;(ii)从杂乱架子上取回目标物体。结果表明,该框架能可靠完成这些任务,与基线方法相比,任务完成时间最多缩短 2 倍,消融实验验证了每个模块的贡献。
1 引言
机器人在视觉传感不足的环境中频繁面临操作任务。如图1 所示,机器人需在厨房水槽下的柜子内触及截止阀。遮挡物、不利的位置布局以及缺乏直接视线,导致视觉检测阀门周围区域难度极大。与人类类似,机器人必须依靠接触反馈绕过障碍物并到达目标位置。当机器人在腔体中移动时,不可避免会与管道或支架发生碰撞。通过分析这些接触的发生位置,并结合环境中典型障碍物结构的先验知识 —— 例如该空间通常存在管道,且管道往往横贯柜体整个宽度 —— 机器人可迭代优化对空旷空间的理解,并调整朝向目标的轨迹。
图1机器人在杂乱柜子后部触及截止阀的场景。由于柜门遮挡视觉传感(上图),机器人依靠接触反馈绕过障碍物导航。
该示例体现了一类更广泛的操作问题:机器人需利用接触在未知环境中作业,包括从杂乱架子深处取物、在杂物后方寻找开关,或在建筑工地的脚手架之间穿行。这类场景中,存在关于典型障碍物结构的强先验知识,但具体场景中的障碍物及其精确位置仍具有不确定性。
为此,我们提出一种理论完备且经验有效的框架,融合接触反馈与结构先验知识,实现不确定环境下的稳健操作。多数接触密集型操作相关研究,专注于末端执行器的高分辨率触觉传感,与之不同,本文方法考虑了杂乱环境中接触可能发生在机械臂任意位置的情况。提供全身体触觉感知的触觉皮肤成本高昂且易损坏,而现代机械臂普遍配备关节位置和力矩传感器,可提供带有噪声但易于获取的替代传感方式。因此,我们以基于力矩的接触反馈作为主要传感模态,并结合学习预测器,从稀疏的接触观测中推断工作空间的可能结构。该框架经精心设计,可处理关节力矩接触定位和稀疏输入工作空间预测本质上存在噪声且易产生虚假假设的问题。框架核心是一个迭代规划 - 执行循环,由三个紧密耦合的组件构成:
接触检测与隔离模块:采用基于动量的观测器估计作用在机器人上的外力矩,实现机械臂任意位置接触事件的稳健检测;检测到接触后,接触粒子滤波器会估计其在机器人表面的可能位置。尽管二元检测具有可靠性,但定位可能存在噪声,框架明确考虑了这种不确定性。
占用估计模块:基于机器人的交互历史构建工作空间的部分估计—— 接触估计位置对应的区域标记为占用状态,无碰撞扫过的区域标记为空旷状态。由于该估计仅覆盖已探索区域,我们引入两种学习预测器(卷积神经网络 CNN 和扩散模型),利用结构先验知识(如水槽内的管道通常横贯整个宽度)外推至未探索区域。通过融合这些先验知识与接触历史,模块可预测已探索空间之外可能的占用区域和空旷区域,使机器人能避免潜在障碍物并高效到达目标。
规划模块:将工作空间估计与两种现有框架(碰撞假设集CHS、CMAX)相结合。这种融合使搜索偏向最可能成功的路径,同时通过确保不因接触定位错误或占用预测错误而丢弃可行解,保证稳健性。
综上,本文的贡献是提出一个完整框架,将基于关节力矩的接触检测与定位、占用预测和规划整合到单一迭代循环中。我们在仿真环境和真实场景中,基于UR10e 机械臂对两个实际家庭任务开展评估:(i)在厨房水槽下管道环绕的环境中操作阀门;(ii)从杂乱架子上取回目标物体。结果表明,该框架能可靠完成这些任务,与基线方法相比,任务完成时间最多缩短 2 倍,消融实验验证了每个模块的贡献。
2 相关工作
2.1 接触检测与定位
关节力矩传感长期用于接触检测与定位,通过对比测量力矩与模型预测力矩,利用残差表示接触产生的外力矩。动量观测器仍是计算这些残差的标准方法,因其兼具稳健性和低计算成本的优势。接触定位通常采用粒子滤波器实现:维持候选表面点的假设,并基于观测残差更新其可能性。本文框架直接利用这些思想实现接触检测与定位。但基于关节力矩的定位本质上存在噪声 —— 多个接触点可能解释相同残差,且估计结果对传感器噪声和模型不准确性敏感。为解决这一问题,研究人员探索了数据驱动方法,例如将定位视为离散表面点的分类问题,或无需力矩传感直接从关节运动学中推断接触。此类方法可作为本文检测与定位模块的替代方案或补充。
2.2 占用外推与结构先验
视觉可提供密集信息,而接触传感仅能提供稀疏的局部反馈,因此基于结构先验知识的占用外推对高效操作至关重要。视觉领域研究已证明,学习先验知识可从不完整数据中推断合理结构,例如图像修复、基于部分扫描的 3D 形状补全;在场景层面,基于体素的语义补全模型可从单视角预测密集占用。本文的占用预测器可视为将这些思想扩展到接触传感领域:CNN 模型采用 3D U-Net 架构,扩散模型采用 RePaint的掩码重采样策略。
2.3 接触驱动的规划框架
已有多项关于利用接触进行操作任务规划的框架研究。例如将通过接触定位感兴趣物体的问题表述为部分可观测马尔可夫决策过程(POMDP),实现不确定环境下的主动信息收集和稳健任务执行;针对类似任务采用贪婪策略;提出分层规划框架,利用模拟触觉皮肤的接触检测结果;提出基于模型预测控制(MPC)的框架,用于在植物和树干构成的杂乱环境中导航。
与本文场景密切相关的是:(i)碰撞假设集(CHS)表示,用于处理可靠的二元接触信号;(ii)CMAX ,针对不准确模型的规划框架。尽管这两种方法在理论上具有优势,但它们未明确建模或推理工作空间,限制了对结构先验知识的利用 —— 如第 5 节结果所示,在杂乱环境中常导致重复碰撞。本文通过融合工作空间估计对这些框架进行增强,提出一种理论可靠且经验有效的方法。
3 问题设定
设Q 为机械臂的配置空间,W 为工作空间的离散二元体素网格近似(每个体素要么被环境障碍物占用,要么为空旷状态),W₀⊂W 为占用体素的子集。映射 R: Q→2^W 返回机械臂在配置 q∈Q 时占用的工作空间体素集;若 R (q)∩W₀≠∅,则该配置处于碰撞状态。
借鉴基于格网的方法[2],我们将规划问题转化为图 G=(V,E) 上的搜索问题:顶点 V⊂Q 为离散配置,边 E 为来自离散动作集 A 的运动原语。本文中,A 由沿每个关节维度的线性插值单位运动组成,转移成本 c (q,q')=||q'-q||;路径 π=(q₀,...,q_T) 是此类边的序列。执行边 (qᵢ₋₁,qᵢ) 时,存在两种结果:
完成运动:证明扫过的体积S (qᵢ₋₁,qᵢ)=∪ₛ∈(0,1] R ((1-s) qᵢ₋₁+sqᵢ) 为空旷状态;
检测到首次接触:执行停止,机器人退回到qᵢ₋₁。
定义执行算子M (q,π)=(q',C),返回从配置 q 尝试执行路径 π 后到达的配置 q' 和产生的累积执行成本 C。
执行开始时,占用网格W(及 W₀)仅部分已知,设未观测区域为 W_unknown⊂W。包含关节位置、速度和力矩的本体感受观测,可提供可靠的二元接触检测结果和带有噪声的接触位置估计:
无接触轨迹:证明其扫过的体积为空旷状态;
接触:表明执行边(qᵢ,qᵢ₊₁) 时,在某个配置 q_col 处与 W₀发生交集。
机器人维持概率占用网格Ŵ_unknown: W→[0,1],每个体素编码其被占用的概率(作为 W_unknown 的估计),该估计通过接触观测在线优化,并利用结构先验知识外推至未探索区域。
给定起始配置q_start 和目标配置 q_goal∈V,任务是在 W₀部分已知的情况下从 q_start 到达 q_goal。由于与未知障碍物的碰撞不可避免,机器人需迭代执行 “检测接触→后退→更新Ŵ_unknown→重新规划” 的流程。在本文迭代规划 - 执行框架中,问题可表述为:
(其中 π_k 表示执行第 k 次迭代时计算的路径)
关于G 的完备性要求:若存在从 q_start 到 q_goal 的无碰撞路径,规划器最终能发现该路径;若不存在,则在有限时间内报告不可行。二元接触检测结果视为可靠,而接触定位和占用预测可能存在噪声。
4 方法
本文框架遵循迭代规划- 执行循环,分解为三个模块:接触检测与定位模块利用本体感受反馈实现接触检测与定位;占用估计模块将反馈历史聚合为工作空间的动态估计Ŵ_unknown,并利用结构先验知识外推至未探索区域;规划模块基于可靠的二元接触检测结果和Ŵ_unknown,生成最可能成功的路径,同时保证完备性。
4.1 接触检测与定位模块
利用执行过程中获取的关节配置、速度和力矩数据流,实现接触检测与定位,核心是融合外力矩观测器和粒子滤波器的成熟技术。
4.1.1 用于检测的外力矩观测器
借鉴无传感器机器人碰撞检测与混合力 / 运动控制的方法,广义动量定义为 p (t)=H (q) v(H (q) 为关节空间惯性矩阵,v 为广义速度)。根据机械臂动力学,其时间导数为:ṗ=τ+τ_ext+C(q,v)ᵀv-g(q)其中,τ 为指令关节力矩,C (q,v) 为科里奥利和离心项,g (q) 为重力项,τ_ext 为接触产生的外力矩。
动量观测器定义测量动量与模型预测动量之间的残差信号:
(其中K_O>0 为对角增益矩阵)
该残差的动态变化为ṙ(t)=K_O (τ_ext - r (t)),因此 r 的每个分量可视为外力矩的低通滤波估计,能较好近似 τ_ext。正常无运动状态下,考虑建模误差和传感器噪声,r 接近零;发生意外接触时,外力矩使残差偏离零,当残差超过设定阈值时判定发生碰撞。该观测器为轻量、实时的可靠检测方法。
4.1.2 用于定位的接触粒子滤波器
检测到接触后,需定位接触在机械臂上的发生点。对于给定配置q 和候选位置 x_c(雅可比矩阵为 J_xc (q)),接触力 F_c∈ℝ³ 产生的关节力矩为 J_xc (q)ᵀF_c。因此,定位任务可表述为寻找最优对 (x_c,F_c),以最佳解释观测残差 r (t)≈τ_ext。由于位置和力变量耦合,该联合优化问题非凸。
借鉴《利用本体感受传感器定位外部接触:接触粒子滤波器》的方法,我们通过在机器人表面采样候选接触位置,并针对每个位置求解关于 F 的凸二次规划(QP)来近似求解,该规划的代价用于衡量假设的位置对观测到的外部扭矩的解释程度。这一思想在接触粒子滤波器(CPF)中得以实现,该滤波器维持一组粒子集Xt ={x[1]t, . . . , x[t M]} ,这些粒子代表关于可能接触位置的假设。粒子集从候选表面点集S (i.e., X0 ⊆ S),并且在每一步通过重采样、扰动和重新加权进行更新。
测量模型基于 QP 公式为每个粒子分配一个似然值。对于具有雅可比矩阵 Jx[m]t(q), 的粒子x[t m],我们求解:
其中∥z∥2A = z⊤Az, F(x[t m])是x[t m],处的摩擦锥,Σmeas表示测量噪声。然后,最优代价被转换为似然值p(r(t) | x[t m]) ∝exp(−1 2ℓ(x[t m]))。产生较小残差的粒子被赋予较高的似然值,重采样则将分布集中在与观测到的扭矩一致的表面区域。
为了防止粒子退化并稳定滤波器,在更新之间应用一个简单的运动模型,其中每个粒子先经历高斯扰动,然后投影回机器人表面上最近的有效点。经过 t 次迭代后,最大存活聚类的质心被作为接触位置估计值返回。
4.1.3 接触定位的稳健性增强
如《从串联机械臂的关节扭矩测量中识别外部接触及其局限性》所述,多个接触位置和力的组合可能产生相似力矩残差,导致 CPF 易产生虚假假设。为此,我们引入三项改进:
运动学可行性筛选:仅保留运动与接触物理一致的候选点—— 每个 x∈S 具有向外表面法向量 n (x) 和诱导笛卡尔速度ẋ(q,ẋ),接触仅可能发生在点向环境移动的情况(要求 < n (x),ẋ(q,ẋ)>0),因此运动学可行候选点集为 S_active (q,ẋ)={x∈S | <n (x),ẋ(q,ẋ)>0};
工作空间一致性约束:要求可能的接触点位于工作空间未探索区域(S_active∩Ŵ_unknown);
学习链路估计器辅助:轻量级多层感知器(MLP)处理外力矩 τ_ext 的时间窗口,预测接触发生在每个链路的概率,并用该概率对粒子轻微加权,使滤波器偏向同时得到动力学和学习估计器支持的假设。
4.2 占用估计
本体感受观测历史提供对Ŵ_unknown 的直接但稀疏估计:无接触动作证明扫过体素为空旷状态,接触估计位置对应体素被分配高占用概率。这种地图虽一致,但高度不完整(仅标记机器人明确交互的区域),在杂乱环境中易导致重复碰撞和低效探索。为此,我们利用障碍物结构先验知识,将占用外推表述为预测问题 —— 给定部分观测体素网格,推断未观测体素的占用概率,以丰富 W_unknown 估计并指导规划。
两种学习预测器的输入均为体素网格x∈{0,0.5,1}^(H×W×D)(与Ŵ_unknown 维度匹配,0 = 已知空旷、1 = 已知占用、0.5 = 未知),输出相同维度的网格(每个体素 (i,j,k) 对应占用概率 ô_ijk∈[0,1])。
4.2.1 CNN 预测器
基于U-Net 在视觉任务中的有效性,采用适配稀疏接触观测的 3D U-Net,核心设计包括:
编码器- 解码器架构:带跳跃连接,部分观测经连续下采样 / 上采样块处理,特征跨阶段传递以保留空间细节;编码器采用大核和激进下采样,增强长程结构捕捉能力;
可变形采样层:每个编码器阶段末尾插入该层,让网络自适应采样固定体素网格外的数据相关特征。标准3D 可变形注意力中,特征通过 softmax 加权聚合易放大噪声,因此改进为最大值聚合:
(v (・) 为采样特征图,{∆gp}n p=1points 为可学习偏移量)
输出与训练:解码器与编码器对称,通过最终sigmoid 层输出 ô∈[0,1](即Ŵ_unknown);训练采用 “标准二元交叉熵损失 + 体素级二元熵正则化”,避免过度自信预测。
4.2.2 扩散预测器
为捕捉稀疏接触外推的多模态特性,开发基于扩散模型的生成预测器,核心设计包括:
骨干与条件输入:采用与CNN 相同的 U-Net 骨干,以部分观测 x^obs 和二元掩码 m(m=1 = 观测区域、m=0 = 未观测区域)作为条件;
已知区域强化:借鉴RePaint策略,每个去噪步骤后更新样本 x_t←m⊙x_t^obs + (1-m)⊙x_t(x_t^obs 为观测输入的带噪声版本),防止已知体素偏移;
无分类器引导:融合条件与无条件预测,使去噪轨迹偏向部分输入c:
(w>1 控制引导强度)
平衡 “与观测体素一致性” 和 “未观测区域多样化补全”;
占用概率计算:扩散模型表示条件分布p (x|x^obs),通过生成一批样本并计算体素级均值,近似期望占用体积Ŵ_unknown。
4.3 规划模块
基于观测历史和Ŵ_unknown,规划模块需计算 “最大化成功概率(避碰撞、低执行成本)” 的路径,同时保证完备性(不剪枝可行解、不无限执行失败计划)。核心是将Ŵ_unknown 与两种现有框架融合。
4.3.1 与 CHS 的融合
碰撞假设集(CHS)将二元接触检测编码为稀疏集合表示:
CHS 定义:单个 CHS κ_i⊂W 是执行边 e=(q_i,q_i+1) 时观测到碰撞的体素集。若在 q_col 检测到碰撞,则与机械臂活动表面相交的体素中至少一个被占用(记为ħ_i),CHS 集合 κ={κ₁,κ₂,...} 记录所有此类假设;
边有效性概率:给定κ_i,边 e 的碰撞概率与扫过假设集的比例相关 —— 若 S (e) 完全包含ħ_i,则 P (v (e)=0|κ_i)=1(κ_i 必含至少一个占用体素);假设各 κ_i 独立,边 e 的整体有效性概率为:
(已尝试无效边被分配零有效性概率,避免重新执行);
成本函数增强:为利用结构先验知识,将Ŵ_unknown 与 CHS 融合,修改边成本函数:(c_dist = 配置空间距离、c_CHS∝1/P (x (e)=1|κ)(惩罚低有效性边)、c_Ŵ_unknown(惩罚高占用概率边);α≫β,因 CHS 可靠可直接剪枝边,Ŵ_unknown 仅用于偏置搜索)。
4.3.2 与 CMAX 的融合
CMAX 解决不准确模型的规划问题,核心是 “交替规划 - 执行” 并通过成本膨胀避开错误转移:
CMAX 惩罚定义:标称模型假设工作空间为空,碰撞揭示模型差异;设 χ⊆S×A 为差异状态 - 动作对集合,候选对 (s,a) 的惩罚为:
(d (・,・) 为配置空间欧几里得距离,δ 为超球面半径;近无效状态的转移惩罚大,避免重复碰撞);
与Ŵ_unknown 融合:CMAX 仅在状态 - 动作空间惩罚,易导致工作空间重叠区域重复碰撞。因此,借鉴 CHS 融合方式,将边成本修改为 “基线路径长度 + CMAX 惩罚 + c_Ŵ_unknown (e)”,CMAX 剪枝已知无效边,Ŵ_unknown偏置搜索。
4.3.3 完备性讨论
CHS 和 CMAX 均具有理论完备性,核心机制差异与共性如下:
机制差异:CHS 构建含真实占用体素的假设集ħ_i,永久剪枝扫过体积完全覆盖 κ_i 的边;CMAX 记录差异并膨胀附近状态 - 动作对成本,仅对无效转移分配无限成本;
完备性保障:两种框架均仅剪枝被证明不可行的边,Ŵ_unknown 仅用于偏置成本而非剪枝,因此图 G 中所有可行边保持可访问性。若存在可行路径,搜索最终能发现(可能先探索Ŵ_unknown 下的候选路径,无效后回溯),即框架关于 G 完备。
5 实验结果
基于UR10e 机械臂,在两个盲态操作挑战场景中评估框架,验证其有效性与泛化性。
5.1 实验设置
5.1.1 评估场景
水槽柜下阀门操作:机器人需在横贯腔体的管道间穿行,触及后壁截止阀;场景强结构先验(管道细长且横贯柜体);
图 3 展示了该框架在物体检索任务(上)和阀门操作任务(下)中的示例运行过程。两种情况下,机器人最初都会与环境障碍物发生碰撞(以红色突出显示),随后才找到一条可行路径,成功抵达目标位置。
杂乱书架物体取回:机器人需深入书架,从后部取回物品,与书籍、隔板及不规则物体交互;场景杂物多、操作复杂。
5.1.2 规划器变体
为验证模块贡献,设计7 类变体:
变体类型
|
具体说明
|
基线框架
|
CHS(无Ŵ_unknown)、CMAX(无Ŵ_unknown)
|
增强框架
|
CHS+CNN、CHS + 扩散模型、CMAX+CNN、CMAX + 扩散模型(融合Ŵ_unknown)
|
直接规划框架
|
Ŵ_unknown(无预测)、Ŵ_unknown+CNN、Ŵ_unknown + 扩散模型(绕过 CHS/CMAX,0.8 占用阈值判定不可行)
|
5.1.3 实验参数
搜索与失败判定:所有规划器采用加权A * 搜索,单次迭代规划超时 5 秒;失败条件:超时无解或超 20 次规划 - 执行迭代未达目标;
指标定义:迭代次数(规划- 执行循环次数)、累计时间(规划 / 执行 / 预测 / 接触估计时间)、总时间(任务完成总耗时);
场景配置:管道场景W_unknown 含 5-12 个随机管道段,书架场景含 1-4 个隔板 + 6-12 个随机家用物体;
接触估计差异:真实场景用关节电流(与力矩线性相关)估计τ_ext,CPF 每次更新用 250 个粒子;仿真场景对真实碰撞点添加 3cm 标准差高斯噪声,投影回机械臂表面作为估计位置。
5.1.4 训练数据
占用预测器训练数据通过“随机场景采样 + 1-7 次动作执行” 生成:输入为部分占用地图(来自动作扫过区域),输出仅标记机器人直接交互物体为占用(简化学习、减少歧义)。
5.2 仿真结果
基于200 个随机问题实例的平均结果(表 1),核心结论如下:
5.2.1 框架性能优势
CHS+CNN 最优:解决 100% 问题,CNN 预测使搜索远离重复碰撞,CHS 在预测噪声时提供可靠二元检测 fallback;总时间较 CHS 减少近 50%,验证占用估计的加速作用;
直接规划框架局限:仅基于Ŵ_unknown 规划(无 CHS/CMAX)成功率低,因虚假占用估计易错误报告不可行;
CMAX 改进:CMAX 单独使用时因 “状态 - 动作空间惩罚” 易重复碰撞,融合 CNN 后性能接近 CHS,证明工作空间级推理的价值。
5.2.2 场景与预测器对比
场景难度:书架场景更具挑战性(基线框架成功率更低、规划时间更长),但融合预测器后成功率达管道场景水平,因书架结构规律性更易被预测器利用;
预测器权衡:CNN 与扩散模型预测质量相当,但 CNN 推理快(~0.3 秒 / 次),扩散模型计算成本高(~20 秒 / 次),CNN 更具实用性。
表1阀门操作(管道场景)和物体取回(书架场景)任务的仿真规划器对比
规划器
|
管道场景(阀门操作)
|
|
|
|
|
|
书架场景(物体取回)
|
|
|
|
|
|
|
成功率
|
迭代次数
|
规划时间(秒)
|
执行时间(秒)
|
预测时间(秒)
|
总时间(秒)
|
成功率
|
迭代次数
|
规划时间(秒)
|
执行时间(秒)
|
预测时间(秒)
|
总时间(秒)
|
CHS
|
0.83
|
11.15
|
0.48
|
346.66
|
0
|
347.14
|
0.52
|
10.69
|
12.55
|
309.47
|
0
|
322.02
|
CHS + CNN
|
1.00
|
5.76
|
2.41
|
195.97
|
1.84
|
200.22
|
0.94
|
4.20
|
11.22
|
135.56
|
1.55
|
148.34
|
CHS + 扩散模型
|
0.97
|
4.95
|
1.52
|
191.94
|
97.64
|
291.10
|
0.91
|
4.15
|
13.39
|
141.98
|
80.1
|
240.53
|
CMAX
|
0.57
|
13.14
|
16.03
|
408.29
|
0
|
424.31
|
0.33
|
13.88
|
12.38
|
380.32
|
0
|
392.69
|
CMAX + CNN
|
0.86
|
6.14
|
11.48
|
237.82
|
1.96
|
251.26
|
0.73
|
4.11
|
9.91
|
141.47
|
1.56
|
152.95
|
CMAX + 扩散模型
|
0.78
|
5.93
|
11.63
|
184.34
|
116.96
|
312.94
|
0.66
|
5.67
|
15.5
|
180.9
|
100.93
|
303.66
|
Ŵ_unknown(无预测)
|
0.59
|
10.95
|
0.13
|
333.57
|
0
|
333.70
|
0.47
|
12.83
|
18.54
|
346.62
|
0
|
365.16
|
Ŵ_unknown + CNN
|
0.82
|
5.86
|
1.51
|
192.02
|
1.87
|
195.41
|
0.89
|
5.08
|
14.20
|
168.53
|
1.42
|
184.15
|
Ŵ_unknown + 扩散模型
|
0.79
|
5.04
|
1.46
|
187.82
|
99.30
|
288.59
|
0.81
|
4.81
|
16.32
|
159.97
|
89.34
|
271.25
|
5.3 真实机器人实验结果
基于UR10e 机械臂,每个场景 20 次试验,采用仿真中最优变体,核心结论如下:
5.3.1 性能趋势一致性
仿真中的性能趋势在硬件实验中保持一致(表2):CHS+CNN 始终最优,执行时间较原始 CHS 减少超 50%—— 书架场景总时间从 407.5 秒(CHS)降至 138.0 秒,管道场景从 360.4 秒降至 175.9 秒,证明占用预测的优势可有效迁移到真实场景。
5.3.2 接触定位与模块协同
接触定位accuracy:定位误差 < 4cm 视为成功,启用稳健性优化后 accuracy 达 73%,较无优化基线提升 20%;
模块协同价值:CHS+CNN 中,CHS 为预测误差提供稳健性保障(接触定位错误时,CHS 仍引导远离真实碰撞区域);而Ŵ_unknown+CNN 需额外 1-2 次迭代更新估计,因此性能略逊于 CHS+CNN。
表2真实场景阀门操作和物体取回任务结果
规划器
|
迭代次数
|
规划时间(秒)
|
执行时间(秒)
|
预测时间(秒)
|
接触估计时间(秒)
|
总时间(秒)
|
|
|
|
管道场景(阀门操作)
|
|
|
|
Ŵ_unknown
|
10.7
|
0.09
|
324.2
|
0
|
21.8
|
357.1
|
Ŵ_unknown + CNN
|
5.0
|
5.17
|
192.8
|
1.61
|
10.7
|
214.5
|
CHS
|
11.0
|
0.25
|
324.1
|
0
|
24.7
|
360.4
|
CHS + CNN
|
3.8
|
1.44
|
161.2
|
1.11
|
8.9
|
175.9
|
|
|
|
书架场景(物体取回)
|
|
|
|
Ŵ_unknown
|
13.3
|
20.6
|
404.5
|
0
|
26.0
|
466.0
|
Ŵ_unknown + CNN
|
5.7
|
12.7
|
168.5
|
1.71
|
11.4
|
199.8
|
CHS
|
12.6
|
19.8
|
344.7
|
0
|
27.9
|
407.5
|
CHS + CNN
|
4.1
|
11.3
|
110.6
|
1.60
|
10.8
|
138.0
|
6 未来工作与结论
6.1 未来工作方向
文本先验增强占用预测:现有预测器仅基于部分占用地图,未来可引入自然语言提示(如“带管道的厨房水槽”“带隔板的书架”)作为条件。概念验证显示,通过 CLIP-based 提示嵌入基于自然语言监督的可迁移视觉模型学习(FiLM 模块基于通用条件层的视觉推理注入编码器),CNN 预测器能偏向描述领域,仿真中管道 / 书架场景任务完成时间分别达 216 秒 / 157 秒,证明文本先验的潜力(详细内容见扩展版本)。
6.2 结论
本文提出理论完备且经验有效的接触驱动盲态操作框架,紧密耦合“基于力矩的接触检测与定位、工作空间占用估计、规划” 三大组件,同时充分考虑接触定位和占用预测的噪声与不确定性。仿真和真实场景实验表明,框架能可靠完成阀门操作、物体取回等任务,与基线方法相比,任务完成时间最多缩短 2 倍,为视觉不足环境下的机器人操作提供有效解决方案。
Airking Robots
北京艾科伯特科技有限公司,是专注协作机器人和移动机器人的技术公司,Airking Robots——艾科伯特立足于航空/航天,专注于机器人智能制造方向,Airking Robots是优傲机器人,Robotiq等协作机器人方向中国区域金牌提供商
商务联系:
更多案例请关注公众号:

