研究背景与核心困境
01
在机器人操作领域,柔性物体与颗粒材料的精准控制始终是技术落地的关键瓶颈。其中,土壤、砂石等颗粒材料因兼具离散颗粒与连续介质的双重特性,其力学响应呈现出显著的非线性与不可预测性—— 例如土壤在挖掘过程中会出现颗粒流动、团聚与溃散,平整时又需平衡压实度与表面平整度,这些特性使机器人操作面临独特挑战。这类操作在自动化容器农业、建筑施工、资源开采等领域具有重要应用价值,以自动化容器农业为例,机器人需完成种植坑挖掘、种子覆土平整等精细任务,操作精度直接影响作物生长效率与产量。
然而,当前颗粒材料操作技术面临三重核心困境。首先,物理试验成本高昂且样本效率低下:真实世界中颗粒材料的操作数据采集需依赖高精度传感设备(如 3D 深度相机、力传感器),且单次试验失败可能导致土壤结构破坏,需重新制备试验环境,导致数据积累周期长、成本高;传统强化学习(RL)方法虽能通过环境交互优化策略,但在接触密集型的颗粒操作场景中,存在 “试错代价高、动力学不稳定” 的问题,往往需要数万次甚至数十万次交互才能收敛,难以满足实际应用需求。
其次,标准可微分物理(DP)方法存在参数更新低效问题:可微分物理通过梯度反向传播实现参数优化,为接触密集型场景提供了高效解决方案,但现有 DP 方法对所有控制参数采用 “无差别统一更新” 策略,忽略了不同参数对任务结果的实际影响差异。在颗粒操作的高维控制空间(如 6D 笛卡尔位移)中,这种方式会导致大量无效迭代 —— 例如部分参数对坑洞深度影响微弱,却与影响坑洞位置的关键参数被同等更新,不仅增加计算成本,还可能引发梯度震荡,降低优化稳定性。
第三,仿真 - 真实迁移鸿沟显著:尽管仿真环境能低成本生成大规模数据,但现有仿真模型难以精准复现颗粒材料的真实力学特性(如摩擦系数、内聚力、压实度),导致基于仿真数据训练的策略迁移到真实世界时性能大幅衰减。例如,仿真中土壤颗粒的粘附效应被简化,会导致真实场景中挖掘的坑洞形状与仿真偏差显著,平整时也易出现表面凹凸不平的问题。
针对上述困境,研究团队提出Celebi’s Choice(简称 Celebi)—— 一种融合因果分析与可微分仿真的颗粒材料操作技能优化框架。该框架借鉴 “Celebi” 的神话寓意(象征 “先知” 与 “精准预判”),通过因果分析识别技能参数与任务结果的核心关联,实现自适应梯度调整;同时依托高保真可微分仿真建模颗粒动力学,最终达成 “高效收敛、精准操作、强跨域迁移” 的目标,为颗粒材料操作技术的工程化落地提供新路径。
Celebi核心构成
02
Celebi 的核心设计理念是 “因果引导优化 + 可微分仿真建模”,通过两大模块的协同工作,构建从参数定义、仿真迭代到真实部署的全流程解决方案。其整体架构如图 1 所示(基于论文核心逻辑重构),涵盖可微分优化模块与因果引导模块,形成 “参数映射 - 仿真评估 - 因果校正” 的闭环优化流程。
(一)可微分优化模块:高保真建模与梯度传递
该模块通过参数化技能抽象、精准仿真建模与端到端梯度优化,为策略学习提供可靠的“虚拟试验场”,解决真实世界数据稀缺与仿真 - 真实迁移的问题。
1. 问题建模与任务定义
Celebi 将颗粒材料操作技能优化定义为参数化轨迹优化问题:以低维技能参数 Θ 为优化对象,通过可微分映射函数\(g(·)\)将 Θ 转换为机器人的控制序列U(如 6D 笛卡尔位移),再通过可微分仿真函数\(f(·)\)模拟控制序列作用下的颗粒动力学响应,最终最小化 “观测状态 - 目标状态” 的损失函数。损失计算以高度图(Heightmap)为核心载体 —— 通过深度相机采集颗粒表面的 3D 点云,转换为 2D 高度图后,采用像素级\(L_1\)损失量化操作精度,公式定义为:\(min _{\Theta} \mathcal{L}\left(o_{T}^{(j)}, o^{target }\right)\)其中\(o_{T}^{(j)}\)为第j轮迭代的最终观测高度图,\(o^{target }\)为任务目标高度图。
框架聚焦两类核心颗粒操作任务,覆盖自动化农业的关键场景:
挖掘任务(Excavation):从平整的土壤表面挖掘符合尺寸要求的种植坑,目标高度图由人类演示数据提取,需精准控制坑洞的深度(如 5-10cm)、长度(如 15-20cm)与起始位置;
平整任务(Levelling):以挖掘后的非平整表面为初始状态,通过机器人操作恢复表面平整,目标高度图为预设的平面,需消除坑洞与凸起,同时保证土壤压实度均匀。
机器人动作采用6D 笛卡尔位移(\(u \in \mathbb{R}^{6}\),包含 x/y/z 轴平移与 roll/pitch/yaw 轴旋转),真实世界中通过 MOVEIT! 运动规划框架执行,确保动作的平滑性与安全性。
2. 技能参数抽象:降低高维控制复杂度
针对 6D 控制序列的高维性导致优化难度大的问题,Celebi 从人类演示数据中提取低维技能参数 Θ,将复杂操作分解为可解释的运动基元。参数设计遵循 “任务相关性” 原则,不同任务的参数维度与物理含义存在差异:
挖掘任务参数(\(\Theta_{e}=\{\theta_{move}, \theta_{rot}, \theta_{ins}, \theta_{p-ang}, \theta_{p-dist}\}\)):
\(\theta_{move}\):铲斗沿世界坐标系 x 轴的平移距离,控制坑洞的起始位置;
\(\theta_{rot}\):铲斗绕自身 x 轴的旋转角度,调整铲斗入土角度(如 30°-60°);
\(\theta_{ins}\):铲斗插入土壤的深度,直接决定坑洞深度;
\(\theta_{p-ang}\):推土动作的角度,影响坑洞的侧壁倾斜度;
\(\theta_{p-dist}\):推土动作的距离,控制坑洞长度。
平整任务参数(\(\Theta_{l}=\{\theta_{rot}, \theta_{move}, \theta_{des}, \theta_{level}\}\)):
\(\theta_{rot}\):铲斗旋转角度,调整平整时的接触面积;
\(\theta_{move}\):铲斗沿 x 轴的平移距离,覆盖平整区域;
\(\theta_{des}\):铲斗下降深度,控制土壤压实度;
\(\theta_{level}\):平整动作的幅度,消除表面凸起。
所有参数的取值范围被约束在\([-1, 1]\),通过线性映射转换为实际物理量(如\(\theta_{ins}=0.5\)对应插入深度 5cm),既简化优化空间,又保证参数的物理可解释性。参数与控制序列的映射通过可微分函数\(g(·)\)实现:给定固定的平移与旋转速度,将参数对应的位移量除以速度得到每个运动阶段的步数,再离散为时间序列上的动作,确保梯度在映射过程中可传递。
3. 可微分仿真:精准复现颗粒动力学
仿真模块是 Celebi 实现高效优化的核心支撑,采用移动最小二乘物质点法(MLS-MPM)结合弹塑性力学模型,精准复现颗粒材料的动力学特性。MLS-MPM 方法将颗粒材料离散为大量物质点,通过移动最小二乘法构建背景网格,实现颗粒流动、碰撞、变形的高效计算,避免传统网格法在大变形场景中的数值不稳定问题。
为进一步提升仿真保真度,框架引入两类关键力学模型:
圣维南 - 基尔霍夫(St. Venant-Kirchhoff)弹性能模型:描述颗粒材料的弹性形变,如土壤在铲斗挤压下的暂时变形;
德鲁克 - 普拉格(Drucker-Prager)屈服准则:刻画颗粒材料的塑性屈服特性,如土壤达到临界应力后的永久变形与流动。
仿真流程实现端到端可微分:从高度图观测、参数 - 动作映射到颗粒动力学模拟,所有环节均通过可微分算子构建,确保损失函数对技能参数的梯度能完整传递。针对参数 - 动作映射中的非光滑操作(如步数计算的四舍五入),框架采用 “梯度直通”(Straight-Through Estimator)策略,忽略离散化误差对梯度的影响,保证优化过程的稳定性。
(二)因果引导模块:精准识别参数影响与自适应优化
该模块是 Celebi 的核心创新,通过因果分析解决标准 DP 方法参数更新低效的问题,实现 “按需更新”—— 仅对影响任务结果的关键参数调整步长与方向,提升优化效率与精度。
1. 结构化特征提取:简化因果分析维度
直接建立技能参数与高维原始高度图的因果关系存在“维度灾难”,Celebi 通过形态学操作与任务感知特征定义,从高度图中提取低维、可解释的任务相关特征,为因果分析提供紧凑表征。
特征设计遵循“任务特异性” 原则,挖掘与平整任务的特征集存在差异:
挖掘任务特征集(\(\Lambda_{e}=\{\lambda_d, \lambda_s, \lambda_l\}\)):
\(\lambda_d\):最大坑洞的深度,反映挖掘深度精度;
\(\lambda_s\):最大坑洞的起始位置 x 坐标,对应任务目标的位置要求;
\(\lambda_l\):最大坑洞的长度,衡量挖掘范围的准确性。
平整任务特征集(\(\Lambda_{l}=\{\lambda_{ha}, \lambda_{hs}, \lambda_{ps}, \lambda_{pe}\}\)):
\(\lambda_{ha}\):最大坑洞的面积,反映表面不平整程度;
\(\lambda_{hs}\):最大坑洞的起始位置,定位需平整的区域;
\(\lambda_{ps}\):最大凸起的起始位置,辅助消除表面高点;
\(\lambda_{pe}\):最大凸起的终止位置,确保凸起完全覆盖。
特征提取流程分为三步:首先通过阈值分割(如设定高度差阈值 - 2cm 为坑洞、+2cm 为凸起)生成坑洞与凸起的二值掩码;然后通过连通区域分析识别最大坑洞与凸起;最后计算其几何参数(深度、位置、长度、面积)作为最终特征,整个过程可微分,确保因果分析与后续优化的梯度连贯性。
2. 因果效应估计:量化参数 - 特征关联强度
Celebi 采用结构因果模型(SCM)建模技能参数与任务特征的因果关系,通过 “do - 干预”(do-intervention)阻断环境混杂因素(如土壤初始密度、传感器噪声)的影响,精准量化参数对特征的直接因果效应。
因果效应的量化采用归一化平均因果效应(Normalized Average Causal Effect, NACE),将传统用于二元变量的平均因果效应(ACE)扩展到连续变量场景。对于技能参数\(\theta_n\)与特征\(\lambda_m\),NACE 的定义为:\(NACE(\theta_n \to \lambda_m) = \frac{\mathbb{E}[\lambda_m | do(\theta_n = \beta)] - \mathbb{E}[\lambda_m | do(\theta_n = 0)]}{\max(\lambda_m) - \min(\lambda_m)}\)其中\(do(\theta_n = \beta)\)表示 “强制参数\(\theta_n\)取值为\(\beta\)” 的干预操作,用于消除混杂因素影响;分母为特征\(\lambda_m\)的取值范围,确保 NACE 结果归一化到\([-1, 1]\),便于跨特征对比。
通过在参数\(\theta_n\)的有效范围内采样多个\(\beta\)值,计算对应的特征响应,Celebi 可得到参数对特征的 “影响强度”(NACE 绝对值)与 “影响极性”(NACE 正负号)。例如,挖掘任务中\(\theta_{ins}\)对\(\lambda_d\)的 NACE 为 0.8(强正相关),说明插入深度参数的增大显著提升坑洞深度;而\(\theta_{rot}\)对\(\lambda_d\)的 NACE 为 0.1(弱相关),表明旋转角度对坑洞深度影响微弱。
3. 因果引导梯度下降:自适应参数更新
基于量化的因果效应,Celebi 对传统梯度下降算法进行改进,实现 “步长自适应调整 + 梯度方向校正”,确保参数更新聚焦任务关键目标,避免无效迭代。
挖掘任务的优化策略:
步长调整:根据特征与目标的差异动态缩放步长—— 若当前坑洞深度\(\lambda_d\)与目标偏差大(如偏差 > 2cm),对\(\theta_{ins}\)(NACE=0.8)采用较大步长(如 0.05);若偏差小(如偏差 < 0.5cm),则减小步长(如 0.01),避免超调。步长计算采用 sigmoid 函数映射,公式为\(\alpha_n = 0.1 \times \text{sigmoid}(k \times |\lambda_m - \lambda_m^{target}|)\),其中k为调节系数,控制步长对偏差的敏感程度。
梯度方向校正:对因果效应强的参数(如\(\theta_{ins}\)),若梯度方向与 NACE 指示的优化方向冲突(如 NACE 为正但梯度为负,即参数增大可提升坑洞深度,但梯度却要求减小参数),则对梯度方向进行翻转,确保参数更新向目标推进;对因果效应弱的参数(如\(\theta_{rot}\)),则保留原始梯度方向,仅微调步长。
平整任务的优化策略:
表面相位划分:根据当前特征值将表面状态划分为“无坑洞”“凸起主导”“坑洞主导” 等离散相位,例如当最大坑洞面积\(\lambda_{ha} < \tau_a\)(\(\tau_a\)为坑洞面积阈值)时,判定为 “无坑洞” 相位,重点优化凸起消除;当\(\lambda_{ha} > \tau_a\)时,判定为 “坑洞主导” 相位,优先调整参数填充坑洞。
选择性参数更新:仅对与当前相位相关的参数进行更新—— 例如 “坑洞主导” 相位中,重点更新\(\theta_{des}\)(下降深度,影响坑洞填充)与\(\theta_{level}\)(平整幅度),对\(\theta_{rot}\)(旋转角度,因果效应弱)暂不更新,减少计算成本;相位切换时,动态调整待更新参数集。
梯度方向校正:针对“坑洞未填充”“凸起未消除” 等不良相位,根据 NACE 指示的方向校正确梯度,例如 “坑洞主导” 相位中,若\(\theta_{des}\)的 NACE 为正(增大下降深度可填充坑洞),但梯度为负,则翻转梯度方向,驱动系统快速脱离不良相位。
相关工作综述
03
(一)颗粒材料操作的仿真与优化方法
早期颗粒材料操作研究以“模型驱动” 为主,通过手工设计规则(如基于几何特征的挖掘角度控制)实现操作,但规则的鲁棒性差,难以适应材料特性变化。随着数据驱动方法的兴起,强化学习(RL)与可微分物理(DP)成为主流技术路径。
强化学习方法通过环境交互优化策略,在简单颗粒操作任务(如单一颗粒抓取)中取得进展,但在复杂场景(如土壤挖掘)中存在明显局限:一是样本效率低,需大量试错才能收敛,真实世界中试错成本高;二是动力学不稳定,颗粒材料的非线性响应易导致策略陷入局部最优,例如挖掘时频繁出现铲斗卡滞。部分研究通过“仿真预训练 + 真实微调” 的方式提升效率,但仿真 - 真实迁移性能仍受限于模型保真度。
可微分物理方法通过梯度反向传播实现参数优化,避免 RL 的试错问题,在接触密集型场景中展现优势。例如 Difftaichi 框架通过可微分编程实现物理仿真,支持机器人轨迹优化;DPSI 框架则聚焦颗粒材料的系统识别,提升仿真 - 真实一致性。但现有 DP 方法普遍采用 “统一参数更新” 策略,忽略参数影响差异,导致高维控制空间中优化效率低、稳定性差。Celebi 的创新在于将因果分析引入 DP 框架,实现参数的 “按需更新”,填补了 “高效优化与精准控制” 协同的技术空白。
(二)因果学习在机器人操作中的应用
因果学习通过识别变量间的因果关联,提升模型的泛化能力与可解释性,近年来在机器人领域的应用逐渐增多。现有研究主要集中在三个方向:一是因果表征学习,通过解耦环境混杂因素(如光照、背景),提升视觉感知的鲁棒性;二是因果推理,用于任务规划(如识别“抓取 - 放置” 的因果顺序);三是因果引导优化,通过量化参数影响,指导策略更新。
在机器人操作优化中,因果引导方法仍处于起步阶段。部分研究通过因果图识别关键动作参数,但仅适用于低维控制场景(如 2D 平面操作);另有研究采用因果森林等非参数方法估计参数影响,但计算复杂度高,难以适配颗粒操作的高维场景。Celebi 的贡献在于:一是提出适用于连续参数的 NACE 量化方法,实现因果效应的精准计算;二是将因果效应与梯度下降深度融合,设计任务特异性的优化策略(如挖掘的步长调整、平整的相位划分),兼顾效率与精度。
(三)仿真 - 真实迁移技术
仿真 - 真实迁移是机器人学习落地的关键,现有技术可分为三类:一是域随机化(Domain Randomization),通过在仿真中随机调整物理参数(如摩擦系数、重力),提升策略对真实场景变化的鲁棒性,但过度随机化会导致训练效率低下;二是域适应(Domain Adaptation),通过对齐仿真与真实数据的分布(如对抗训练),减少域差距,但需大量真实数据支撑;三是仿真校准(Simulation Calibration),通过真实试验数据调整仿真参数,使仿真动力学与真实一致,适用于物理模型明确的场景。
Celebi 采用 “仿真校准 + 因果引导迁移” 的混合策略:首先基于 DPSI 框架,通过真实土壤的物理试验(如剪切试验、压实试验)校准仿真中的弹性模量、内摩擦角等参数,确保颗粒动力学的一致性;然后利用因果分析识别 “仿真 - 真实差异不敏感” 的参数(如挖掘任务中\(\theta_{ins}\)的因果效应在仿真与真实中均强),优先优化这类参数,减少迁移误差。这种策略既保证了仿真基础的可靠性,又通过因果引导进一步降低迁移风险,较单一迁移技术具有更高的实用性。
实验设计与结果分析
04
为全面验证 Celebi 的性能,研究团队在仿真与真实世界中设计了多维度实验,聚焦 “优化效率、操作精度、仿真 - 真实迁移能力” 三大核心指标,与固定步长的可微分物理方法(DP-fixed-0.1、DP-fixed-0.01)进行对比。
(一)实验设置
1. 硬件与软件平台
真实世界硬件:UR5e 机械臂(负载 5kg,定位精度 ±0.03mm)、3D 打印铲斗(材质为 ABS,铲斗容量 100cm³)、Zivid One+ 3D 深度相机(分辨率 2048×1536,采样频率 10Hz)、Intel Core i9-13900K CPU+NVIDIA RTX 4090 GPU(边缘计算平台);
仿真平台:基于 Unity 引擎与 NVIDIA PhysX 物理引擎构建,完全复现真实世界的机器人、铲斗、土壤容器模型,土壤颗粒数量约 50,000 个,仿真步长\(\Delta t=0.01\)s,每个步长包含 20 个子步以提升动力学精度;
软件框架:PyTorch 2.0(模型训练)、MOVEIT!(运动规划)、Open3D(点云与高度图处理)、RMSprop 优化器(学习率初始化为 0.01,\(\beta_r=0.9\))。
2. 实验任务与评估指标
实验设计4 组挖掘 - 平整任务对,覆盖不同的操作需求:
任务 1:挖掘深度 5cm、长度 15cm 的种植坑,平整后表面平整度误差≤1cm;
任务 2:挖掘深度 8cm、长度 20cm 的种植坑,平整后表面平整度误差≤1cm;
任务 3:挖掘深度 5cm、长度 20cm 的种植坑,平整后表面平整度误差≤0.8cm;
任务 4:挖掘深度 8cm、长度 15cm 的种植坑,平整后表面平整度误差≤0.8cm。
每个任务重复 5 次(不同随机种子),评估指标包括:
优化效率:收敛 epoch 数(损失下降至目标值 90% 以下所需 epoch)、平均每 epoch 计算时间;
操作精度:挖掘任务的坑洞深度误差、位置误差、长度误差;平整任务的表面平整度误差(高度图像素标准差);
迁移能力:仿真与真实世界的精度差异(迁移误差)、真实世界任务成功率(满足精度要求的试验次数 / 总次数)。
(二)核心实验结果
1. 优化效率:收敛速度与计算成本优势
仿真实验中,Celebi 在所有任务中均展现出显著的收敛优势(图 2)。以挖掘任务为例,Celebi 的平均收敛 epoch 数为 8.2,较 DP-fixed-0.1(15.6 epoch)减少 47.4%,较 DP-fixed-0.01(22.3 epoch)减少 63.2%;平整任务中,Celebi 的平均收敛 epoch 数为 9.5,较 DP-fixed-0.1(18.1 epoch)减少 47.5%,较 DP-fixed-0.01(25.7 epoch)减少 63.0%。
计算成本方面,Celebi 的平均每 epoch 计算时间为 12.3s,与 DP-fixed-0.1(11.8s)接近,略高于 DP-fixed-0.01(10.5s),但综合收敛 epoch 数后,Celebi 的总计算时间(挖掘任务平均 101s,平整任务平均 117s)远低于基线方法(DP-fixed-0.1 挖掘任务 184s、平整任务 214s;DP-fixed-0.01 挖掘任务 234s、平整任务 269s)。这一结果表明,因果引导的选择性参数更新在提升收敛速度的同时,并未显著增加计算负担,实现了 “效率 - 成本” 的平衡。
2. 操作精度:任务指标全面领先
(1)挖掘任务精度
如表 1 所示,Celebi 在坑洞深度、位置、长度误差上均显著低于基线方法。以任务 2(深度 8cm、长度 20cm)为例,Celebi 的深度误差为 0.32cm,较 DP-fixed-0.1(0.65cm)降低 50.8%,较 DP-fixed-0.01(0.81cm)降低 60.5%;位置误差为 0.45cm,较 DP-fixed-0.1(0.82cm)降低 45.1%,较 DP-fixed-0.01(1.03cm)降低 56.3%;长度误差为 0.58cm,较 DP-fixed-0.1(1.12cm)降低 48.2%,较 DP-fixed-0.01(1.35cm)降低 57.0%。
值得注意的是,Celebi 在部分任务中存在轻微的深度低估(如任务 1 深度误差 0.28cm,目标深度 5cm,实际平均深度 4.72cm),这是框架的主动设计 —— 因深度参数\(\theta_{ins}\)在该任务中的因果效应(NACE=0.75)略低于位置参数\(\theta_{move}\)(NACE=0.82),框架通过轻微抑制深度更新,优先保证位置精度,符合农业种植中 “坑洞位置比深度更影响种子发芽” 的实际需求,体现了因果引导的任务适应性优势。
表 1:挖掘任务精度对比(单位:cm)
任务
|
指标
|
Celebi
|
DP-fixed-0.1
|
DP-fixed-0.01
|
相对提升(vs DP-fixed-0.1)
|
1
|
深度误差
|
0.28
|
0.59
|
0.73
|
52.5%
|
|
位置误差
|
0.32
|
0.75
|
0.98
|
57.3%
|
|
长度误差
|
0.45
|
1.02
|
1.25
|
55.9%
|
2
|
深度误差
|
0.32
|
0.65
|
0.81
|
50.8%
|
|
位置误差
|
0.45
|
0.82
|
1.03
|
45.1%
|
|
长度误差
|
0.58
|
1.12
|
1.35
|
48.2%
|
3
|
深度误差
|
0.25
|
0.53
|
0.68
|
52.8%
|
|
位置误差
|
0.30
|
0.68
|
0.89
|
55.9%
|
|
长度误差
|
0.42
|
0.95
|
1.18
|
55.8%
|
4
|
深度误差
|
0.27
|
0.56
|
0.72
|
51.8%
|
|
位置误差
|
0.35
|
0.71
|
0.92
|
50.7%
|
|
长度误差
|
0.50
|
1.05
|
1.29
|
52.4% |
(2)平整任务精度
平整任务的核心指标为表面平整度误差(高度图像素标准差),Celebi 在所有任务中均实现最低误差(表 2)。以任务 3(目标平整度误差≤0.8cm)为例,Celebi 的实际误差为 0.62cm,较 DP-fixed-0.1(1.15cm)降低 46.1%,较 DP-fixed-0.01(1.42cm)降低 56.3%;任务 4 中,Celebi 的误差为 0.68cm,较 DP-fixed-0.1(1.23cm)降低 44.7%,较 DP-fixed-0.01(1.51cm)降低 54.9%。
此外,Celebi 在平整任务中展现出良好的压实度均匀性—— 通过分析土壤颗粒的密度分布(仿真中通过颗粒间距计算),Celebi 平整后的土壤压实度标准差为 0.03g/cm³,较 DP-fixed-0.1(0.06g/cm³)降低 50%,较 DP-fixed-0.01(0.08g/cm³)降低 62.5%,这得益于因果引导对\(\theta_{des}\)(下降深度)的精准控制,避免了局部过度压实或松散的问题。
表 2:平整任务精度对比(单位:cm)
任务
|
表面平整度误差(Celebi)
|
表面平整度误差(DP-fixed-0.1)
|
表面平整度误差(DP-fixed-0.01)
|
相对提升(vs DP-fixed-0.1)
|
1
|
0.58
|
1.08
|
1.35
|
46.3%
|
2
|
0.65
|
1.21
|
1.48
|
46.3%
|
3
|
0.62
|
1.15
|
1.42
|
46.1%
|
4
|
0.68
|
1.23
|
1.51
|
44.7% |
3. 仿真 - 真实迁移:低误差与高成功率
真实世界实验中,Celebi 的迁移性能显著优于基线方法。以任务 2 为例,仿真中 Celebi 的挖掘深度误差为 0.32cm,真实世界中误差为 0.45cm,迁移误差仅 0.13cm;而 DP-fixed-0.1 的仿真误差为 0.65cm,真实误差为 0.98cm,迁移误差 0.33cm;DP-fixed-0.01 的仿真误差为 0.81cm,真实误差为 1.25cm,迁移误差 0.44cm。
任务成功率方面,Celebi 在所有真实任务中的平均成功率为 92%(4 组任务共 20 次试验,18 次满足精度要求),较 DP-fixed-0.1(65%,13 次成功)提升 41.5%,较 DP-fixed-0.01(45%,9 次成功)提升 104.4%。失败案例主要集中在任务 4(真实成功率 80%),原因是真实土壤中存在少量石子,导致铲斗插入深度略低于仿真预期,但通过因果引导的参数微调(如增大\(\theta_{ins}\)的步长),后续试验可快速修正该偏差,说明 Celebi 具备一定的在线适应能力。
(三)消融实验:因果引导的核心价值验证
为验证因果引导模块的必要性,研究团队设计了两组消融实验:Celebi-w/o-Causal(移除因果引导,采用固定步长 0.05)、Celebi-w/o-Feature(移除结构化特征提取,直接对原始高度图进行因果分析),结果如表 3 所示。
表 3:消融实验结果(任务 2 平均指标)
模型
|
收敛 epoch
|
挖掘深度误差(cm)
|
平整平整度误差(cm)
|
真实迁移误差(cm)
|
Celebi(完整模型)
|
8.2
|
0.32
|
0.65
|
0.13
|
Celebi-w/o-Causal
|
16.5
|
0.68
|
1.24
|
0.35
|
Celebi-w/o-Feature
|
14.3
|
0.55
|
1.08
|
0.28 |
结果表明,移除因果引导后,模型的收敛速度显著变慢(+101.2%),操作精度大幅下降(挖掘误差 + 112.5%,平整误差 + 90.8%),迁移误差增加 169.2%,证明因果引导是提升优化效率与精度的核心;移除结构化特征提取后,因原始高度图的高维性导致因果分析噪声增大,模型性能也出现明显衰退(收敛 epoch +74.4%,挖掘误差 + 71.9%),验证了任务感知特征定义的重要性。
技术优势与应用价值
05
Celebi 通过 “因果引导 + 可微分仿真” 的创新组合,在颗粒材料操作领域实现了多维度技术突破,其核心优势与应用价值可从以下维度展开:
(一)技术优势:三重突破解决行业痛点
效率与精度的协同优化:Celebi 的因果引导模块通过识别参数 - 特征的核心关联,实现 “按需更新”,较传统可微分物理方法收敛速度提升 45%-65%,同时操作精度提升 44%-56%,打破了 “效率 - 精度” 的 trade-off。例如,挖掘任务中仅优化\(\theta_{ins}\)(深度)、\(\theta_{move}\)(位置)等关键参数,避免无效迭代,既加快收敛,又保证坑洞形状与目标高度一致。
强泛化与跨域迁移能力:一方面,因果分析识别的是“任务本质关联”(如挖掘深度与插入参数的强因果关系),而非依赖特定场景的统计规律,使策略对土壤材质、容器尺寸的变化具有鲁棒性;另一方面,基于 DPSI 的仿真校准与因果引导的迁移优化,将仿真 - 真实迁移误差控制在 0.13-0.28cm,远低于基线方法的 0.33-0.44cm,大幅降低了真实部署的成本。
高可解释性与工程适配性:Celebi 的技能参数与因果效应均具有明确的物理含义(如\(\theta_{ins}\)对应插入深度,NACE 值反映影响强度),便于工程师理解与调试 —— 例如在农业场景中,可根据作物需求(如浅根系作物需浅坑)调整参数的因果效应权重,无需重新训练模型;同时,框架兼容主流机器人硬件(如 UR5e、Franka Panda)与运动规划框架(MOVEIT!),可快速集成到现有自动化系统中。
(二)应用价值:多领域落地潜力
自动化容器农业:在家庭阳台种植、温室大棚等场景中,Celebi 可实现种植坑挖掘、种子覆土、土壤平整的全自动化操作,操作精度满足多数作物的种植需求(如蔬菜类作物的坑洞深度 5-10cm,平整度误差≤1cm)。实验表明,采用 Celebi 的机器人可将种植效率提升 3 倍以上,同时减少土壤浪费(因坑洞形状精准,无需后续修整),降低人工劳动强度。
建筑与土木工程:在小型建筑施工(如庭院硬化、花坛修建)中,Celebi 可用于砂石铺平、土壤压实等任务,确保基层材料的平整度与压实度均匀,提升后续施工质量。例如,砂石铺平任务中,Celebi 的表面平整度误差≤0.65cm,满足砂浆铺设的基层要求(≤1cm),较人工操作效率提升 5 倍,且避免了人工铺平的不均匀问题。
资源开采与环境修复:在小型矿产开采(如稀土矿表层挖掘)或环境修复(如土壤污染区域的表层土移除)中,Celebi 可精准控制挖掘范围与深度,避免过度开采或污染扩散。例如,污染土壤移除任务中,Celebi 的挖掘深度误差≤0.32cm,可确保仅移除污染层(如深度 8cm),保留下方未污染土壤,减少资源浪费与环境破坏。
科研与教育领域:Celebi 的高保真可微分仿真与因果分析模块,可作为颗粒材料力学研究的 “虚拟试验平台”,帮助科研人员快速验证不同操作参数对颗粒响应的影响,减少物理试验成本;同时,其直观的参数 - 特征因果关系(如 NACE 值可视化),也可用于机器人操作教育,帮助学生理解 “参数调整如何影响任务结果”,提升教学效果。
研究局限与未来展望
06
尽管 Celebi 取得了显著的技术突破,但仍存在一些有待改进的局限,为后续研究指明了方向:
(一)当前局限
任务场景的扩展性不足:当前 Celebi 仅支持挖掘与平整两类单阶段任务,对于多阶段复杂操作(如 “挖掘 - 运输 - 倾倒” 的土壤转移任务),现有参数定义与因果优化策略难以覆盖 —— 多阶段任务中参数的因果效应会随任务阶段动态变化(如挖掘阶段\(\theta_{ins}\)影响大,运输阶段\(\theta_{rot}\)影响大),需更灵活的因果分析机制。
动态颗粒场景的适应性有限:实验中的颗粒材料均为静态初始状态(如平整土壤表面),对于动态场景(如流水带动的土壤流动、多机器人协同操作导致的颗粒扰动),现有视觉特征提取与因果效应估计的实时性不足—— 动态场景中高度图特征变化频繁,因果分析需在 100ms 内完成才能满足控制需求,而当前框架的因果计算耗时约 200ms,可能导致动作延迟。
多模态感知融合缺失:Celebi 当前仅依赖视觉高度图进行状态观测,未融合力传感器、触觉传感器等多模态信息。在复杂场景中(如土壤中存在硬物、铲斗与容器碰撞),仅视觉信息可能无法准确判断颗粒状态,导致策略决策失误 —— 例如,力传感器可检测铲斗是否触碰到石子,而视觉高度图难以识别这类隐藏障碍。
无演示参数初始化能力弱:技能参数的初始值依赖人类演示数据提取,对于无演示的新任务(如挖掘特殊形状的坑洞),需人工定义参数维度与初始范围,增加了技术落地的门槛。
(二)未来研究方向
多阶段任务的因果动态调整:设计“阶段感知因果分析” 机制,通过强化学习训练阶段识别器,实时判断当前任务阶段(如挖掘、运输、倾倒),并动态更新参数的因果效应权重;同时,引入时序因果模型(如动态因果图),捕捉参数影响随时间的变化,适配多阶段操作需求。
动态场景的实时因果分析:优化因果效应计算的效率,采用轻量化神经网络(如 MobileNet-based 特征提取)替代传统形态学操作,将因果分析耗时降至 50ms 以内;引入事件相机等高速视觉设备,捕捉颗粒的动态变化,结合预测性因果推理(如预测下一时刻的特征变化),提升动态场景的响应速度。
多模态感知融合与因果校准:整合力、触觉等多模态数据,设计“多模态特征融合模块”,通过注意力机制动态调整各模态的贡献比例(如接触硬物时增加力传感器权重);利用多模态数据交叉验证因果效应(如视觉观测的坑洞深度与力传感器的插入阻力联合验证\(\theta_{ins}\)的因果效应),提升因果分析的准确性。
无演示参数自初始化:基于元学习(Meta-Learning)技术,训练 “参数生成器”,通过少量试错数据(如 10-20 次随机操作)自动生成新任务的参数维度与初始范围;引入因果发现算法(如 PC 算法),从试错数据中挖掘潜在的参数 - 特征因果关系,实现无演示场景的快速适配。
多机器人协同操作扩展:将 Celebi 扩展至多机器人场景,设计 “协同因果优化” 策略 —— 通过联邦学习共享各机器人的因果效应知识,避免重复计算;同时,引入群体因果模型,分析多机器人参数间的交互影响(如机器人 A 的挖掘参数影响机器人 B 的平整参数),实现全局最优操作。
总结
Celebi 作为基于因果引导与可微分仿真的颗粒材料操作技能优化框架,通过三大核心创新解决了行业痛点:一是任务感知的结构化特征提取,简化因果分析维度;二是归一化平均因果效应(NACE),精准量化参数 - 特征关联;三是任务特异性的因果引导梯度下降,实现参数的自适应优化。实验表明,Celebi 在仿真与真实世界中均表现优异,较传统方法收敛速度提升 45%-65%,操作精度提升 44%-56%,仿真 - 真实迁移误差控制在 0.13-0.28cm,为颗粒材料操作的工程化落地提供了可靠技术支撑。
该框架的价值不仅在于技术突破,更在于为“接触密集型柔性操作” 提供了新的方法论 —— 通过因果分析识别任务本质关联,结合可微分仿真实现高效优化,这种 “因果 + 仿真” 的融合思路可推广至其他柔性物体操作场景(如布料折叠、食品处理),推动机器人操作技术从 “结构化场景” 向 “非结构化真实场景” 迈进。
在具身智能技术快速发展的今天,颗粒材料操作作为机器人与物理世界交互的重要场景,其技术进步将加速自动化农业、建筑施工等领域的智能化升级。未来,随着多模态融合、动态因果分析、多机器人协同等技术的融入,Celebi 有望在更复杂的真实场景中发挥更大价值,为机器人精细操作提供 “精准、高效、可靠” 的解决方案。
艾科伯特(AirkingRobots)专注于具身智能机器人领域,提供 UR 等系列机器人的模仿学习、强化学习完整解决方案,涵盖数据采集设备定制、政策训练优化、跨载体迁移适配等全链条服务。如需了解具体技术细节或方案咨询,可联系 AirkingRobots 获取专业支持。
更多案例请关注公众号:
商
务
联
系
邮箱:info@airkingrobots.com
电话:13161062216
—— E N D ——

