Celebi’s Choice：基于因果引导与可微分仿真的颗粒材料操作技能优化- 大数跨境

首页

Celebi’s Choice：基于因果引导与可微分仿真的颗粒材料操作技能优化

AirkingRobots艾科伯特科技

2025-12-05

导读：在机器人操作领域，柔性物体与颗粒材料的精准控制始终是技术落地的关键瓶颈。其中，土壤、砂石等颗粒材料因兼具离散颗粒与连续介质的双重特性，其力学响应呈现出显著的非线性与不可预测性。

研究背景与核心困境

在机器人操作领域，柔性物体与颗粒材料的精准控制始终是技术落地的关键瓶颈。其中，土壤、砂石等颗粒材料因兼具离散颗粒与连续介质的双重特性，其力学响应呈现出显著的非线性与不可预测性—— 例如土壤在挖掘过程中会出现颗粒流动、团聚与溃散，平整时又需平衡压实度与表面平整度，这些特性使机器人操作面临独特挑战。这类操作在自动化容器农业、建筑施工、资源开采等领域具有重要应用价值，以自动化容器农业为例，机器人需完成种植坑挖掘、种子覆土平整等精细任务，操作精度直接影响作物生长效率与产量。

然而，当前颗粒材料操作技术面临三重核心困境。首先，物理试验成本高昂且样本效率低下：真实世界中颗粒材料的操作数据采集需依赖高精度传感设备（如 3D 深度相机、力传感器），且单次试验失败可能导致土壤结构破坏，需重新制备试验环境，导致数据积累周期长、成本高；传统强化学习（RL）方法虽能通过环境交互优化策略，但在接触密集型的颗粒操作场景中，存在 “试错代价高、动力学不稳定” 的问题，往往需要数万次甚至数十万次交互才能收敛，难以满足实际应用需求。

其次，标准可微分物理（DP）方法存在参数更新低效问题：可微分物理通过梯度反向传播实现参数优化，为接触密集型场景提供了高效解决方案，但现有 DP 方法对所有控制参数采用 “无差别统一更新” 策略，忽略了不同参数对任务结果的实际影响差异。在颗粒操作的高维控制空间（如 6D 笛卡尔位移）中，这种方式会导致大量无效迭代 —— 例如部分参数对坑洞深度影响微弱，却与影响坑洞位置的关键参数被同等更新，不仅增加计算成本，还可能引发梯度震荡，降低优化稳定性。

第三，仿真 - 真实迁移鸿沟显著：尽管仿真环境能低成本生成大规模数据，但现有仿真模型难以精准复现颗粒材料的真实力学特性（如摩擦系数、内聚力、压实度），导致基于仿真数据训练的策略迁移到真实世界时性能大幅衰减。例如，仿真中土壤颗粒的粘附效应被简化，会导致真实场景中挖掘的坑洞形状与仿真偏差显著，平整时也易出现表面凹凸不平的问题。

针对上述困境，研究团队提出Celebi’s Choice（简称 Celebi）—— 一种融合因果分析与可微分仿真的颗粒材料操作技能优化框架。该框架借鉴 “Celebi” 的神话寓意（象征 “先知” 与 “精准预判”），通过因果分析识别技能参数与任务结果的核心关联，实现自适应梯度调整；同时依托高保真可微分仿真建模颗粒动力学，最终达成 “高效收敛、精准操作、强跨域迁移” 的目标，为颗粒材料操作技术的工程化落地提供新路径。

Celebi核心构成

Celebi 的核心设计理念是 “因果引导优化 + 可微分仿真建模”，通过两大模块的协同工作，构建从参数定义、仿真迭代到真实部署的全流程解决方案。其整体架构如图 1 所示（基于论文核心逻辑重构），涵盖可微分优化模块与因果引导模块，形成 “参数映射 - 仿真评估 - 因果校正” 的闭环优化流程。

（一）可微分优化模块：高保真建模与梯度传递

该模块通过参数化技能抽象、精准仿真建模与端到端梯度优化，为策略学习提供可靠的“虚拟试验场”，解决真实世界数据稀缺与仿真 - 真实迁移的问题。

1. 问题建模与任务定义

Celebi 将颗粒材料操作技能优化定义为参数化轨迹优化问题：以低维技能参数 Θ 为优化对象，通过可微分映射函数\(g(·)\)将 Θ 转换为机器人的控制序列U（如 6D 笛卡尔位移），再通过可微分仿真函数\(f(·)\)模拟控制序列作用下的颗粒动力学响应，最终最小化 “观测状态 - 目标状态” 的损失函数。损失计算以高度图（Heightmap）为核心载体 —— 通过深度相机采集颗粒表面的 3D 点云，转换为 2D 高度图后，采用像素级\(L_1\)损失量化操作精度，公式定义为：\(min _{\Theta} \mathcal{L}\left(o_{T}^{(j)}, o^{target }\right)\)其中\(o_{T}^{(j)}\)为第j轮迭代的最终观测高度图，\(o^{target }\)为任务目标高度图。

框架聚焦两类核心颗粒操作任务，覆盖自动化农业的关键场景：

挖掘任务（Excavation）：从平整的土壤表面挖掘符合尺寸要求的种植坑，目标高度图由人类演示数据提取，需精准控制坑洞的深度（如 5-10cm）、长度（如 15-20cm）与起始位置；

平整任务（Levelling）：以挖掘后的非平整表面为初始状态，通过机器人操作恢复表面平整，目标高度图为预设的平面，需消除坑洞与凸起，同时保证土壤压实度均匀。

机器人动作采用6D 笛卡尔位移（\(u \in \mathbb{R}^{6}\)，包含 x/y/z 轴平移与 roll/pitch/yaw 轴旋转），真实世界中通过 MOVEIT! 运动规划框架执行，确保动作的平滑性与安全性。

2. 技能参数抽象：降低高维控制复杂度

针对 6D 控制序列的高维性导致优化难度大的问题，Celebi 从人类演示数据中提取低维技能参数 Θ，将复杂操作分解为可解释的运动基元。参数设计遵循 “任务相关性” 原则，不同任务的参数维度与物理含义存在差异：

挖掘任务参数（\(\Theta_{e}=\{\theta_{move}, \theta_{rot}, \theta_{ins}, \theta_{p-ang}, \theta_{p-dist}\}\)）：

\(\theta_{move}\)：铲斗沿世界坐标系 x 轴的平移距离，控制坑洞的起始位置；

\(\theta_{rot}\)：铲斗绕自身 x 轴的旋转角度，调整铲斗入土角度（如 30°-60°）；

\(\theta_{ins}\)：铲斗插入土壤的深度，直接决定坑洞深度；

\(\theta_{p-ang}\)：推土动作的角度，影响坑洞的侧壁倾斜度；

\(\theta_{p-dist}\)：推土动作的距离，控制坑洞长度。

平整任务参数（\(\Theta_{l}=\{\theta_{rot}, \theta_{move}, \theta_{des}, \theta_{level}\}\)）：

\(\theta_{rot}\)：铲斗旋转角度，调整平整时的接触面积；

\(\theta_{move}\)：铲斗沿 x 轴的平移距离，覆盖平整区域；

\(\theta_{des}\)：铲斗下降深度，控制土壤压实度；

\(\theta_{level}\)：平整动作的幅度，消除表面凸起。

所有参数的取值范围被约束在\([-1, 1]\)，通过线性映射转换为实际物理量（如\(\theta_{ins}=0.5\)对应插入深度 5cm），既简化优化空间，又保证参数的物理可解释性。参数与控制序列的映射通过可微分函数\(g(·)\)实现：给定固定的平移与旋转速度，将参数对应的位移量除以速度得到每个运动阶段的步数，再离散为时间序列上的动作，确保梯度在映射过程中可传递。

3. 可微分仿真：精准复现颗粒动力学

仿真模块是 Celebi 实现高效优化的核心支撑，采用移动最小二乘物质点法（MLS-MPM）结合弹塑性力学模型，精准复现颗粒材料的动力学特性。MLS-MPM 方法将颗粒材料离散为大量物质点，通过移动最小二乘法构建背景网格，实现颗粒流动、碰撞、变形的高效计算，避免传统网格法在大变形场景中的数值不稳定问题。

为进一步提升仿真保真度，框架引入两类关键力学模型：

圣维南 - 基尔霍夫（St. Venant-Kirchhoff）弹性能模型：描述颗粒材料的弹性形变，如土壤在铲斗挤压下的暂时变形；

德鲁克 - 普拉格（Drucker-Prager）屈服准则：刻画颗粒材料的塑性屈服特性，如土壤达到临界应力后的永久变形与流动。

仿真流程实现端到端可微分：从高度图观测、参数 - 动作映射到颗粒动力学模拟，所有环节均通过可微分算子构建，确保损失函数对技能参数的梯度能完整传递。针对参数 - 动作映射中的非光滑操作（如步数计算的四舍五入），框架采用 “梯度直通”（Straight-Through Estimator）策略，忽略离散化误差对梯度的影响，保证优化过程的稳定性。

（二）因果引导模块：精准识别参数影响与自适应优化

该模块是 Celebi 的核心创新，通过因果分析解决标准 DP 方法参数更新低效的问题，实现 “按需更新”—— 仅对影响任务结果的关键参数调整步长与方向，提升优化效率与精度。

1. 结构化特征提取：简化因果分析维度

直接建立技能参数与高维原始高度图的因果关系存在“维度灾难”，Celebi 通过形态学操作与任务感知特征定义，从高度图中提取低维、可解释的任务相关特征，为因果分析提供紧凑表征。

特征设计遵循“任务特异性” 原则，挖掘与平整任务的特征集存在差异：

挖掘任务特征集（\(\Lambda_{e}=\{\lambda_d, \lambda_s, \lambda_l\}\)）：

\(\lambda_d\)：最大坑洞的深度，反映挖掘深度精度；

\(\lambda_s\)：最大坑洞的起始位置 x 坐标，对应任务目标的位置要求；

\(\lambda_l\)：最大坑洞的长度，衡量挖掘范围的准确性。

平整任务特征集（\(\Lambda_{l}=\{\lambda_{ha}, \lambda_{hs}, \lambda_{ps}, \lambda_{pe}\}\)）：

\(\lambda_{ha}\)：最大坑洞的面积，反映表面不平整程度；

\(\lambda_{hs}\)：最大坑洞的起始位置，定位需平整的区域；

\(\lambda_{ps}\)：最大凸起的起始位置，辅助消除表面高点；

\(\lambda_{pe}\)：最大凸起的终止位置，确保凸起完全覆盖。

特征提取流程分为三步：首先通过阈值分割（如设定高度差阈值 - 2cm 为坑洞、+2cm 为凸起）生成坑洞与凸起的二值掩码；然后通过连通区域分析识别最大坑洞与凸起；最后计算其几何参数（深度、位置、长度、面积）作为最终特征，整个过程可微分，确保因果分析与后续优化的梯度连贯性。

2. 因果效应估计：量化参数 - 特征关联强度

Celebi 采用结构因果模型（SCM）建模技能参数与任务特征的因果关系，通过 “do - 干预”（do-intervention）阻断环境混杂因素（如土壤初始密度、传感器噪声）的影响，精准量化参数对特征的直接因果效应。

因果效应的量化采用归一化平均因果效应（Normalized Average Causal Effect, NACE），将传统用于二元变量的平均因果效应（ACE）扩展到连续变量场景。对于技能参数\(\theta_n\)与特征\(\lambda_m\)，NACE 的定义为：\(NACE(\theta_n \to \lambda_m) = \frac{\mathbb{E}[\lambda_m | do(\theta_n = \beta)] - \mathbb{E}[\lambda_m | do(\theta_n = 0)]}{\max(\lambda_m) - \min(\lambda_m)}\)其中\(do(\theta_n = \beta)\)表示 “强制参数\(\theta_n\)取值为\(\beta\)” 的干预操作，用于消除混杂因素影响；分母为特征\(\lambda_m\)的取值范围，确保 NACE 结果归一化到\([-1, 1]\)，便于跨特征对比。

通过在参数\(\theta_n\)的有效范围内采样多个\(\beta\)值，计算对应的特征响应，Celebi 可得到参数对特征的 “影响强度”（NACE 绝对值）与 “影响极性”（NACE 正负号）。例如，挖掘任务中\(\theta_{ins}\)对\(\lambda_d\)的 NACE 为 0.8（强正相关），说明插入深度参数的增大显著提升坑洞深度；而\(\theta_{rot}\)对\(\lambda_d\)的 NACE 为 0.1（弱相关），表明旋转角度对坑洞深度影响微弱。

3. 因果引导梯度下降：自适应参数更新

基于量化的因果效应，Celebi 对传统梯度下降算法进行改进，实现 “步长自适应调整 + 梯度方向校正”，确保参数更新聚焦任务关键目标，避免无效迭代。

挖掘任务的优化策略：

步长调整：根据特征与目标的差异动态缩放步长—— 若当前坑洞深度\(\lambda_d\)与目标偏差大（如偏差 > 2cm），对\(\theta_{ins}\)（NACE=0.8）采用较大步长（如 0.05）；若偏差小（如偏差 < 0.5cm），则减小步长（如 0.01），避免超调。步长计算采用 sigmoid 函数映射，公式为\(\alpha_n = 0.1 \times \text{sigmoid}(k \times |\lambda_m - \lambda_m^{target}|)\)，其中k为调节系数，控制步长对偏差的敏感程度。

梯度方向校正：对因果效应强的参数（如\(\theta_{ins}\)），若梯度方向与 NACE 指示的优化方向冲突（如 NACE 为正但梯度为负，即参数增大可提升坑洞深度，但梯度却要求减小参数），则对梯度方向进行翻转，确保参数更新向目标推进；对因果效应弱的参数（如\(\theta_{rot}\)），则保留原始梯度方向，仅微调步长。

平整任务的优化策略：

表面相位划分：根据当前特征值将表面状态划分为“无坑洞”“凸起主导”“坑洞主导” 等离散相位，例如当最大坑洞面积\(\lambda_{ha} < \tau_a\)（\(\tau_a\)为坑洞面积阈值）时，判定为 “无坑洞” 相位，重点优化凸起消除；当\(\lambda_{ha} > \tau_a\)时，判定为 “坑洞主导” 相位，优先调整参数填充坑洞。

选择性参数更新：仅对与当前相位相关的参数进行更新—— 例如 “坑洞主导” 相位中，重点更新\(\theta_{des}\)（下降深度，影响坑洞填充）与\(\theta_{level}\)（平整幅度），对\(\theta_{rot}\)（旋转角度，因果效应弱）暂不更新，减少计算成本；相位切换时，动态调整待更新参数集。

梯度方向校正：针对“坑洞未填充”“凸起未消除” 等不良相位，根据 NACE 指示的方向校正确梯度，例如 “坑洞主导” 相位中，若\(\theta_{des}\)的 NACE 为正（增大下降深度可填充坑洞），但梯度为负，则翻转梯度方向，驱动系统快速脱离不良相位。

相关工作综述

（一）颗粒材料操作的仿真与优化方法

早期颗粒材料操作研究以“模型驱动” 为主，通过手工设计规则（如基于几何特征的挖掘角度控制）实现操作，但规则的鲁棒性差，难以适应材料特性变化。随着数据驱动方法的兴起，强化学习（RL）与可微分物理（DP）成为主流技术路径。

强化学习方法通过环境交互优化策略，在简单颗粒操作任务（如单一颗粒抓取）中取得进展，但在复杂场景（如土壤挖掘）中存在明显局限：一是样本效率低，需大量试错才能收敛，真实世界中试错成本高；二是动力学不稳定，颗粒材料的非线性响应易导致策略陷入局部最优，例如挖掘时频繁出现铲斗卡滞。部分研究通过“仿真预训练 + 真实微调” 的方式提升效率，但仿真 - 真实迁移性能仍受限于模型保真度。

可微分物理方法通过梯度反向传播实现参数优化，避免 RL 的试错问题，在接触密集型场景中展现优势。例如 Difftaichi 框架通过可微分编程实现物理仿真，支持机器人轨迹优化；DPSI 框架则聚焦颗粒材料的系统识别，提升仿真 - 真实一致性。但现有 DP 方法普遍采用 “统一参数更新” 策略，忽略参数影响差异，导致高维控制空间中优化效率低、稳定性差。Celebi 的创新在于将因果分析引入 DP 框架，实现参数的 “按需更新”，填补了 “高效优化与精准控制” 协同的技术空白。

（二）因果学习在机器人操作中的应用

因果学习通过识别变量间的因果关联，提升模型的泛化能力与可解释性，近年来在机器人领域的应用逐渐增多。现有研究主要集中在三个方向：一是因果表征学习，通过解耦环境混杂因素（如光照、背景），提升视觉感知的鲁棒性；二是因果推理，用于任务规划（如识别“抓取 - 放置” 的因果顺序）；三是因果引导优化，通过量化参数影响，指导策略更新。

在机器人操作优化中，因果引导方法仍处于起步阶段。部分研究通过因果图识别关键动作参数，但仅适用于低维控制场景（如 2D 平面操作）；另有研究采用因果森林等非参数方法估计参数影响，但计算复杂度高，难以适配颗粒操作的高维场景。Celebi 的贡献在于：一是提出适用于连续参数的 NACE 量化方法，实现因果效应的精准计算；二是将因果效应与梯度下降深度融合，设计任务特异性的优化策略（如挖掘的步长调整、平整的相位划分），兼顾效率与精度。

（三）仿真 - 真实迁移技术

仿真 - 真实迁移是机器人学习落地的关键，现有技术可分为三类：一是域随机化（Domain Randomization），通过在仿真中随机调整物理参数（如摩擦系数、重力），提升策略对真实场景变化的鲁棒性，但过度随机化会导致训练效率低下；二是域适应（Domain Adaptation），通过对齐仿真与真实数据的分布（如对抗训练），减少域差距，但需大量真实数据支撑；三是仿真校准（Simulation Calibration），通过真实试验数据调整仿真参数，使仿真动力学与真实一致，适用于物理模型明确的场景。

Celebi 采用 “仿真校准 + 因果引导迁移” 的混合策略：首先基于 DPSI 框架，通过真实土壤的物理试验（如剪切试验、压实试验）校准仿真中的弹性模量、内摩擦角等参数，确保颗粒动力学的一致性；然后利用因果分析识别 “仿真 - 真实差异不敏感” 的参数（如挖掘任务中\(\theta_{ins}\)的因果效应在仿真与真实中均强），优先优化这类参数，减少迁移误差。这种策略既保证了仿真基础的可靠性，又通过因果引导进一步降低迁移风险，较单一迁移技术具有更高的实用性。

实验设计与结果分析

为全面验证 Celebi 的性能，研究团队在仿真与真实世界中设计了多维度实验，聚焦 “优化效率、操作精度、仿真 - 真实迁移能力” 三大核心指标，与固定步长的可微分物理方法（DP-fixed-0.1、DP-fixed-0.01）进行对比。

（一）实验设置

1. 硬件与软件平台

真实世界硬件：UR5e 机械臂（负载 5kg，定位精度 ±0.03mm）、3D 打印铲斗（材质为 ABS，铲斗容量 100cm³）、Zivid One+ 3D 深度相机（分辨率 2048×1536，采样频率 10Hz）、Intel Core i9-13900K CPU+NVIDIA RTX 4090 GPU（边缘计算平台）；

仿真平台：基于 Unity 引擎与 NVIDIA PhysX 物理引擎构建，完全复现真实世界的机器人、铲斗、土壤容器模型，土壤颗粒数量约 50,000 个，仿真步长\(\Delta t=0.01\)s，每个步长包含 20 个子步以提升动力学精度；

软件框架：PyTorch 2.0（模型训练）、MOVEIT!（运动规划）、Open3D（点云与高度图处理）、RMSprop 优化器（学习率初始化为 0.01，\(\beta_r=0.9\)）。

2. 实验任务与评估指标

实验设计4 组挖掘 - 平整任务对，覆盖不同的操作需求：

任务 1：挖掘深度 5cm、长度 15cm 的种植坑，平整后表面平整度误差≤1cm；

任务 2：挖掘深度 8cm、长度 20cm 的种植坑，平整后表面平整度误差≤1cm；

任务 3：挖掘深度 5cm、长度 20cm 的种植坑，平整后表面平整度误差≤0.8cm；

任务 4：挖掘深度 8cm、长度 15cm 的种植坑，平整后表面平整度误差≤0.8cm。

每个任务重复 5 次（不同随机种子），评估指标包括：

优化效率：收敛 epoch 数（损失下降至目标值 90% 以下所需 epoch）、平均每 epoch 计算时间；

操作精度：挖掘任务的坑洞深度误差、位置误差、长度误差；平整任务的表面平整度误差（高度图像素标准差）；

迁移能力：仿真与真实世界的精度差异（迁移误差）、真实世界任务成功率（满足精度要求的试验次数 / 总次数）。

（二）核心实验结果

1. 优化效率：收敛速度与计算成本优势

仿真实验中，Celebi 在所有任务中均展现出显著的收敛优势（图 2）。以挖掘任务为例，Celebi 的平均收敛 epoch 数为 8.2，较 DP-fixed-0.1（15.6 epoch）减少 47.4%，较 DP-fixed-0.01（22.3 epoch）减少 63.2%；平整任务中，Celebi 的平均收敛 epoch 数为 9.5，较 DP-fixed-0.1（18.1 epoch）减少 47.5%，较 DP-fixed-0.01（25.7 epoch）减少 63.0%。

计算成本方面，Celebi 的平均每 epoch 计算时间为 12.3s，与 DP-fixed-0.1（11.8s）接近，略高于 DP-fixed-0.01（10.5s），但综合收敛 epoch 数后，Celebi 的总计算时间（挖掘任务平均 101s，平整任务平均 117s）远低于基线方法（DP-fixed-0.1 挖掘任务 184s、平整任务 214s；DP-fixed-0.01 挖掘任务 234s、平整任务 269s）。这一结果表明，因果引导的选择性参数更新在提升收敛速度的同时，并未显著增加计算负担，实现了 “效率 - 成本” 的平衡。

2. 操作精度：任务指标全面领先

（1）挖掘任务精度

如表 1 所示，Celebi 在坑洞深度、位置、长度误差上均显著低于基线方法。以任务 2（深度 8cm、长度 20cm）为例，Celebi 的深度误差为 0.32cm，较 DP-fixed-0.1（0.65cm）降低 50.8%，较 DP-fixed-0.01（0.81cm）降低 60.5%；位置误差为 0.45cm，较 DP-fixed-0.1（0.82cm）降低 45.1%，较 DP-fixed-0.01（1.03cm）降低 56.3%；长度误差为 0.58cm，较 DP-fixed-0.1（1.12cm）降低 48.2%，较 DP-fixed-0.01（1.35cm）降低 57.0%。

值得注意的是，Celebi 在部分任务中存在轻微的深度低估（如任务 1 深度误差 0.28cm，目标深度 5cm，实际平均深度 4.72cm），这是框架的主动设计 —— 因深度参数\(\theta_{ins}\)在该任务中的因果效应（NACE=0.75）略低于位置参数\(\theta_{move}\)（NACE=0.82），框架通过轻微抑制深度更新，优先保证位置精度，符合农业种植中 “坑洞位置比深度更影响种子发芽” 的实际需求，体现了因果引导的任务适应性优势。

表 1：挖掘任务精度对比（单位：cm）

任务	指标	Celebi	DP-fixed-0.1	DP-fixed-0.01	相对提升（vs DP-fixed-0.1）
1	深度误差	0.28	0.59	0.73	52.5%
	位置误差	0.32	0.75	0.98	57.3%
	长度误差	0.45	1.02	1.25	55.9%
2	深度误差	0.32	0.65	0.81	50.8%
	位置误差	0.45	0.82	1.03	45.1%
	长度误差	0.58	1.12	1.35	48.2%
3	深度误差	0.25	0.53	0.68	52.8%
	位置误差	0.30	0.68	0.89	55.9%
	长度误差	0.42	0.95	1.18	55.8%
4	深度误差	0.27	0.56	0.72	51.8%
	位置误差	0.35	0.71	0.92	50.7%
	长度误差	0.50	1.05	1.29	52.4%

（2）平整任务精度

平整任务的核心指标为表面平整度误差（高度图像素标准差），Celebi 在所有任务中均实现最低误差（表 2）。以任务 3（目标平整度误差≤0.8cm）为例，Celebi 的实际误差为 0.62cm，较 DP-fixed-0.1（1.15cm）降低 46.1%，较 DP-fixed-0.01（1.42cm）降低 56.3%；任务 4 中，Celebi 的误差为 0.68cm，较 DP-fixed-0.1（1.23cm）降低 44.7%，较 DP-fixed-0.01（1.51cm）降低 54.9%。

此外，Celebi 在平整任务中展现出良好的压实度均匀性—— 通过分析土壤颗粒的密度分布（仿真中通过颗粒间距计算），Celebi 平整后的土壤压实度标准差为 0.03g/cm³，较 DP-fixed-0.1（0.06g/cm³）降低 50%，较 DP-fixed-0.01（0.08g/cm³）降低 62.5%，这得益于因果引导对\(\theta_{des}\)（下降深度）的精准控制，避免了局部过度压实或松散的问题。

表 2：平整任务精度对比（单位：cm）

任务	表面平整度误差（Celebi）	表面平整度误差（DP-fixed-0.1）	表面平整度误差（DP-fixed-0.01）	相对提升（vs DP-fixed-0.1）
1	0.58	1.08	1.35	46.3%
2	0.65	1.21	1.48	46.3%
3	0.62	1.15	1.42	46.1%
4	0.68	1.23	1.51	44.7%

3. 仿真 - 真实迁移：低误差与高成功率

真实世界实验中，Celebi 的迁移性能显著优于基线方法。以任务 2 为例，仿真中 Celebi 的挖掘深度误差为 0.32cm，真实世界中误差为 0.45cm，迁移误差仅 0.13cm；而 DP-fixed-0.1 的仿真误差为 0.65cm，真实误差为 0.98cm，迁移误差 0.33cm；DP-fixed-0.01 的仿真误差为 0.81cm，真实误差为 1.25cm，迁移误差 0.44cm。

任务成功率方面，Celebi 在所有真实任务中的平均成功率为 92%（4 组任务共 20 次试验，18 次满足精度要求），较 DP-fixed-0.1（65%，13 次成功）提升 41.5%，较 DP-fixed-0.01（45%，9 次成功）提升 104.4%。失败案例主要集中在任务 4（真实成功率 80%），原因是真实土壤中存在少量石子，导致铲斗插入深度略低于仿真预期，但通过因果引导的参数微调（如增大\(\theta_{ins}\)的步长），后续试验可快速修正该偏差，说明 Celebi 具备一定的在线适应能力。

（三）消融实验：因果引导的核心价值验证

为验证因果引导模块的必要性，研究团队设计了两组消融实验：Celebi-w/o-Causal（移除因果引导，采用固定步长 0.05）、Celebi-w/o-Feature（移除结构化特征提取，直接对原始高度图进行因果分析），结果如表 3 所示。

表 3：消融实验结果（任务 2 平均指标）

模型	收敛 epoch	挖掘深度误差（cm）	平整平整度误差（cm）	真实迁移误差（cm）
Celebi（完整模型）	8.2	0.32	0.65	0.13
Celebi-w/o-Causal	16.5	0.68	1.24	0.35
Celebi-w/o-Feature	14.3	0.55	1.08	0.28

结果表明，移除因果引导后，模型的收敛速度显著变慢（+101.2%），操作精度大幅下降（挖掘误差 + 112.5%，平整误差 + 90.8%），迁移误差增加 169.2%，证明因果引导是提升优化效率与精度的核心；移除结构化特征提取后，因原始高度图的高维性导致因果分析噪声增大，模型性能也出现明显衰退（收敛 epoch +74.4%，挖掘误差 + 71.9%），验证了任务感知特征定义的重要性。

技术优势与应用价值

Celebi 通过 “因果引导 + 可微分仿真” 的创新组合，在颗粒材料操作领域实现了多维度技术突破，其核心优势与应用价值可从以下维度展开：

（一）技术优势：三重突破解决行业痛点

效率与精度的协同优化：Celebi 的因果引导模块通过识别参数 - 特征的核心关联，实现 “按需更新”，较传统可微分物理方法收敛速度提升 45%-65%，同时操作精度提升 44%-56%，打破了 “效率 - 精度” 的 trade-off。例如，挖掘任务中仅优化\(\theta_{ins}\)（深度）、\(\theta_{move}\)（位置）等关键参数，避免无效迭代，既加快收敛，又保证坑洞形状与目标高度一致。

强泛化与跨域迁移能力：一方面，因果分析识别的是“任务本质关联”（如挖掘深度与插入参数的强因果关系），而非依赖特定场景的统计规律，使策略对土壤材质、容器尺寸的变化具有鲁棒性；另一方面，基于 DPSI 的仿真校准与因果引导的迁移优化，将仿真 - 真实迁移误差控制在 0.13-0.28cm，远低于基线方法的 0.33-0.44cm，大幅降低了真实部署的成本。

高可解释性与工程适配性：Celebi 的技能参数与因果效应均具有明确的物理含义（如\(\theta_{ins}\)对应插入深度，NACE 值反映影响强度），便于工程师理解与调试 —— 例如在农业场景中，可根据作物需求（如浅根系作物需浅坑）调整参数的因果效应权重，无需重新训练模型；同时，框架兼容主流机器人硬件（如 UR5e、Franka Panda）与运动规划框架（MOVEIT!），可快速集成到现有自动化系统中。

（二）应用价值：多领域落地潜力

自动化容器农业：在家庭阳台种植、温室大棚等场景中，Celebi 可实现种植坑挖掘、种子覆土、土壤平整的全自动化操作，操作精度满足多数作物的种植需求（如蔬菜类作物的坑洞深度 5-10cm，平整度误差≤1cm）。实验表明，采用 Celebi 的机器人可将种植效率提升 3 倍以上，同时减少土壤浪费（因坑洞形状精准，无需后续修整），降低人工劳动强度。

建筑与土木工程：在小型建筑施工（如庭院硬化、花坛修建）中，Celebi 可用于砂石铺平、土壤压实等任务，确保基层材料的平整度与压实度均匀，提升后续施工质量。例如，砂石铺平任务中，Celebi 的表面平整度误差≤0.65cm，满足砂浆铺设的基层要求（≤1cm），较人工操作效率提升 5 倍，且避免了人工铺平的不均匀问题。

资源开采与环境修复：在小型矿产开采（如稀土矿表层挖掘）或环境修复（如土壤污染区域的表层土移除）中，Celebi 可精准控制挖掘范围与深度，避免过度开采或污染扩散。例如，污染土壤移除任务中，Celebi 的挖掘深度误差≤0.32cm，可确保仅移除污染层（如深度 8cm），保留下方未污染土壤，减少资源浪费与环境破坏。

科研与教育领域：Celebi 的高保真可微分仿真与因果分析模块，可作为颗粒材料力学研究的 “虚拟试验平台”，帮助科研人员快速验证不同操作参数对颗粒响应的影响，减少物理试验成本；同时，其直观的参数 - 特征因果关系（如 NACE 值可视化），也可用于机器人操作教育，帮助学生理解 “参数调整如何影响任务结果”，提升教学效果。

研究局限与未来展望

尽管 Celebi 取得了显著的技术突破，但仍存在一些有待改进的局限，为后续研究指明了方向：

（一）当前局限

任务场景的扩展性不足：当前 Celebi 仅支持挖掘与平整两类单阶段任务，对于多阶段复杂操作（如 “挖掘 - 运输 - 倾倒” 的土壤转移任务），现有参数定义与因果优化策略难以覆盖 —— 多阶段任务中参数的因果效应会随任务阶段动态变化（如挖掘阶段\(\theta_{ins}\)影响大，运输阶段\(\theta_{rot}\)影响大），需更灵活的因果分析机制。

动态颗粒场景的适应性有限：实验中的颗粒材料均为静态初始状态（如平整土壤表面），对于动态场景（如流水带动的土壤流动、多机器人协同操作导致的颗粒扰动），现有视觉特征提取与因果效应估计的实时性不足—— 动态场景中高度图特征变化频繁，因果分析需在 100ms 内完成才能满足控制需求，而当前框架的因果计算耗时约 200ms，可能导致动作延迟。

多模态感知融合缺失：Celebi 当前仅依赖视觉高度图进行状态观测，未融合力传感器、触觉传感器等多模态信息。在复杂场景中（如土壤中存在硬物、铲斗与容器碰撞），仅视觉信息可能无法准确判断颗粒状态，导致策略决策失误 —— 例如，力传感器可检测铲斗是否触碰到石子，而视觉高度图难以识别这类隐藏障碍。

无演示参数初始化能力弱：技能参数的初始值依赖人类演示数据提取，对于无演示的新任务（如挖掘特殊形状的坑洞），需人工定义参数维度与初始范围，增加了技术落地的门槛。

（二）未来研究方向

多阶段任务的因果动态调整：设计“阶段感知因果分析” 机制，通过强化学习训练阶段识别器，实时判断当前任务阶段（如挖掘、运输、倾倒），并动态更新参数的因果效应权重；同时，引入时序因果模型（如动态因果图），捕捉参数影响随时间的变化，适配多阶段操作需求。

动态场景的实时因果分析：优化因果效应计算的效率，采用轻量化神经网络（如 MobileNet-based 特征提取）替代传统形态学操作，将因果分析耗时降至 50ms 以内；引入事件相机等高速视觉设备，捕捉颗粒的动态变化，结合预测性因果推理（如预测下一时刻的特征变化），提升动态场景的响应速度。

多模态感知融合与因果校准：整合力、触觉等多模态数据，设计“多模态特征融合模块”，通过注意力机制动态调整各模态的贡献比例（如接触硬物时增加力传感器权重）；利用多模态数据交叉验证因果效应（如视觉观测的坑洞深度与力传感器的插入阻力联合验证\(\theta_{ins}\)的因果效应），提升因果分析的准确性。

无演示参数自初始化：基于元学习（Meta-Learning）技术，训练 “参数生成器”，通过少量试错数据（如 10-20 次随机操作）自动生成新任务的参数维度与初始范围；引入因果发现算法（如 PC 算法），从试错数据中挖掘潜在的参数 - 特征因果关系，实现无演示场景的快速适配。

多机器人协同操作扩展：将 Celebi 扩展至多机器人场景，设计 “协同因果优化” 策略 —— 通过联邦学习共享各机器人的因果效应知识，避免重复计算；同时，引入群体因果模型，分析多机器人参数间的交互影响（如机器人 A 的挖掘参数影响机器人 B 的平整参数），实现全局最优操作。

总结

Celebi 作为基于因果引导与可微分仿真的颗粒材料操作技能优化框架，通过三大核心创新解决了行业痛点：一是任务感知的结构化特征提取，简化因果分析维度；二是归一化平均因果效应（NACE），精准量化参数 - 特征关联；三是任务特异性的因果引导梯度下降，实现参数的自适应优化。实验表明，Celebi 在仿真与真实世界中均表现优异，较传统方法收敛速度提升 45%-65%，操作精度提升 44%-56%，仿真 - 真实迁移误差控制在 0.13-0.28cm，为颗粒材料操作的工程化落地提供了可靠技术支撑。

该框架的价值不仅在于技术突破，更在于为“接触密集型柔性操作” 提供了新的方法论 —— 通过因果分析识别任务本质关联，结合可微分仿真实现高效优化，这种 “因果 + 仿真” 的融合思路可推广至其他柔性物体操作场景（如布料折叠、食品处理），推动机器人操作技术从 “结构化场景” 向 “非结构化真实场景” 迈进。

在具身智能技术快速发展的今天，颗粒材料操作作为机器人与物理世界交互的重要场景，其技术进步将加速自动化农业、建筑施工等领域的智能化升级。未来，随着多模态融合、动态因果分析、多机器人协同等技术的融入，Celebi 有望在更复杂的真实场景中发挥更大价值，为机器人精细操作提供 “精准、高效、可靠” 的解决方案。