研究背景与核心挑战
01
在机器人模仿学习领域,视觉运动(Visuomotor)策略学习始终面临 “效率” 与 “精度” 的双重制约。随着工业自动化、服务机器人等场景对实时性与操作准确性的需求日益严苛,传统策略学习方法的局限性愈发凸显。当前,生成式建模技术已成为视觉运动策略的主流方向,其中扩散策略(Diffusion Policy)凭借多步迭代去噪机制,在复杂抓取、装配等任务中展现出优异的精度,但该过程需反复进行噪声消除,计算成本极高 —— 单次动作推理往往需要数十甚至上百步迭代,导致推理延迟超过 100 毫秒,完全无法满足机器人实时控制(通常要求≤30 毫秒)的需求。
流基模型(Flow-based Models)的出现为效率优化提供了新思路。此类模型通过将噪声直接映射到动作空间,实现 “少步生成” 甚至 “一步生成”,显著降低了推理延迟。例如,AdaFlow 通过简化流传输路径,将推理步骤压缩至 5 步以内;Rectified Flow 进一步优化整流机制,使动作生成更接近线性映射。然而,少步采样带来了新的问题:离散化误差会导致生成动作与真实视觉观测逐渐偏离,尤其在多轮蒸馏训练后,这种偏差会不断累积,最终引发任务执行不稳定。更关键的是,整流过程中缺乏对 “视觉 - 动作一致性” 的约束,当机器人面对动态场景(如移动工件抓取)或视觉干扰(如遮挡、光照变化)时,生成的动作可能与当前观测完全脱节,导致操作失败。
此外,现有策略学习还面临两大核心痛点:一是多模态动作生成与一致性的平衡难题。机器人在复杂任务中往往存在多种有效动作(如抓取物体的不同角度),传统流基模型为保留多模态特性,常牺牲动作与观测的匹配度;二是动态场景适应性不足。真实环境中,物体位置、姿态的动态变化要求策略快速调整动作,但现有模型对视觉流(Optical Flow)等动态信息的利用不足,难以捕捉瞬时运动特征,导致跟踪抓取等任务的成功率大幅下降。
针对上述挑战,研究团队提出SeFA-Policy(Selective Flow Alignment Policy),通过创新性的 “选择性流对齐” 机制,在保留流基模型高效推理优势的同时,强制生成动作与视觉观测保持一致性,最终实现 “实时推理、精准执行、稳定泛化” 的三重目标。该框架的核心突破在于:不再依赖全量动作修正,而是基于专家演示选择性地校准偏离观测的动作,既避免了计算冗余,又确保了视觉 - 动作映射的稳定性。
SeFA-Policy 框架核心设计
02
SeFA-Policy 的架构围绕 “选择性流对齐” 这一核心思想展开,整合了视觉特征提取、整流流生成、选择性对齐校正、动作推理四大模块,形成端到端的视觉运动策略学习流水线。其设计理念可概括为:以整流流为基础实现高效动作生成,以选择性对齐为核心保障观测 - 动作一致性,以轻量化推理为目标满足实时控制需求,整体架构如图 1 所示(基于论文核心逻辑重构)。
(一)视觉特征提取模块:动态与静态特征的协同建模
视觉观测是动作生成的基础,SeFA-Policy 采用 “双分支特征融合” 结构,全面捕捉环境的静态属性与动态变化:
- 静态特征分支
:基于轻量化 MobileViT 骨干网络,对 RGB-D 图像进行多尺度特征编码。该网络将 Transformer 的全局注意力与 CNN 的局部特征提取能力结合,在保持 1.2M 参数量(仅为传统 ViT 的 1/5)的同时,有效提取物体形状、纹理、空间位置等静态信息。例如,在抓取任务中,该分支能精准识别物体的可抓取区域(如圆柱形容器的侧面、立方体的顶面),并输出 256 维的静态特征向量。 - 动态特征分支
:针对动态场景,引入改进型 RAFT(Recurrent All-Pairs Field Transforms)算法估计视觉流。与传统 RAFT 相比,该模块通过 “金字塔特征匹配 + 局部循环优化”,将计算量降低 40%:首先对连续两帧图像进行 4 层下采样,生成多尺度特征图;然后在低分辨率层计算初始流场,减少匹配复杂度;最后通过 3 层 GRU(门控循环单元)迭代优化流场,输出稠密的 64×64 分辨率视觉流图,捕捉物体运动方向、速度等动态特征。
为实现特征的自适应融合,模块设计了观测感知权重器:根据当前场景的动态程度(通过视觉流的方差计算),动态调整静态与动态特征的贡献比例。在静态场景(如固定位置装配)中,静态特征权重提升至 0.8,确保形状、位置识别的精度;在动态场景(如移动工件抓取)中,动态特征权重增至 0.7,优先捕捉运动趋势。这种融合机制为后续动作生成提供了更全面的观测依据。
(二)整流流生成模块:高效动作映射的基础
整流流(Rectified Flow)是 SeFA-Policy 实现高效推理的核心,其目标是构建从噪声空间到动作空间的 “近线性映射”,减少生成步骤。模块的工作流程分为三步:
- 噪声初始化
:生成服从高斯分布的噪声向量(维度与动作空间一致,如 6 维末端执行器位姿:x/y/z 坐标 + roll/pitch/yaw 角度),作为动作生成的起点。 - 流传输建模
:通过神经网络学习流函数,其中为 t 时刻的噪声向量,为融合后的视觉特征。该函数的核心是通过 “时间步长自适应调整”,使噪声在 t∈[0,1] 的过程中逐步逼近真实动作分布。与传统 Rectified Flow 的固定步长不同,SeFA-Policy 根据视觉特征的复杂度动态调整步长:当观测简单(如单一物体、无干扰)时,步长增大至 0.2,实现 5 步生成;当观测复杂(如多物体、遮挡)时,步长缩小至 0.1,通过 10 步生成保证精度。 - 一步推理优化
:在训练后期,通过蒸馏学习将多步流压缩为 “一步映射”。具体而言,将多步流传输的中间结果作为监督信号,训练一个轻量级映射网络,直接将初始噪声映射为最终动作。该网络采用 3 层全连接结构,参数量仅为 80K,确保推理速度。
通过上述设计,整流流生成模块在保持多模态动作生成能力的同时,将推理步骤压缩至 1 步,为实时性奠定基础。实验表明,该模块的动作生成延迟可低至 8 毫秒,仅为扩散策略的 1/20。
(三)选择性流对齐模块:精度保障的核心创新
“选择性流对齐” 是 SeFA-Policy 解决 “效率 - 精度” 矛盾的关键,其核心逻辑是:仅对与观测偏离较大的动作进行校正,既保留多模态特性,又确保视觉 - 动作一致性。该模块通过以下三步实现:
- 偏差检测
:基于专家演示数据集,构建 “观测 - 动作匹配度评估函数”。该函数通过对比生成动作与专家动作在特征空间的距离,计算偏差值。当(为自适应阈值,由训练数据统计得到)时,判定生成动作偏离观测,需进行校正。 - 选择性校正
:对偏差超标的动作,利用专家演示的 “观测 - 动作对” 训练局部校正网络。该网络采用注意力机制,仅调整动作中与观测不匹配的维度(如末端执行器的 z 坐标偏离时,仅修正高度参数,不改变水平位置与姿态),避免全量校正导致的多模态丢失。例如,在堆叠任务中,若生成动作的抓取高度过低(与观测中物体顶面位置不符),校正网络仅提升 z 坐标,保留 x/y 坐标的多模态选择(如从左侧或右侧抓取)。 - 一致性约束损失
:设计 “观测 - 动作一致性损失”,将校正后的动作与视觉特征再次映射到同一特征空间,通过余弦相似度强制两者保持一致。损失函数定义为:其中和分别为观测与动作的特征编码器。该损失与传统的动作回归损失(如 L2 损失)加权结合,形成总损失,确保训练过程中精度与一致性的平衡。
通过选择性校正,SeFA-Policy 在保留多模态动作(如多种有效抓取角度)的同时,将动作与观测的偏离率从传统流基模型的 28% 降至 6%,大幅提升了执行稳定性。
(四)轻量化动作推理模块:实时性的最终保障
为满足机器人实时控制需求,SeFA-Policy 对推理过程进行全流程轻量化优化:
- 模型压缩
:对整流流生成网络与选择性校正网络进行通道剪枝与 8 位量化。剪枝过程移除冗余通道(保留 70% 关键通道),量化将 32 位浮点数参数转换为 8 位整数,使模型体积减少 75%,推理速度提升 3 倍。 - 并行计算优化
:利用 GPU 的 Tensor Core 加速矩阵运算,将视觉特征提取与动作生成的并行度提升至 90%,进一步降低延迟。 - 不确定性估计与快速重推理
:模块输出动作的置信度分数(0≤p≤1),当时,触发快速重推理(仅重新运行选择性校正模块,耗时≤5 毫秒),避免低置信度动作导致的操作失败。
实验表明,在 NVIDIA Jetson AGX Xavier(机器人常用边缘计算平台)上,SeFA-Policy 的平均推理延迟仅为 12 毫秒,控制频率达到 83Hz,完全满足实时控制需求,且较未优化的流基模型(延迟 45 毫秒)提升 3.75 倍。
相关工作综述
03
(一)视觉运动策略学习的技术演进
视觉运动策略学习的发展可分为三个阶段,各阶段均在 “效率 - 精度” 平衡上做出不同尝试:
- 传统模仿学习阶段
:以行为克隆(Behavior Cloning, BC)为代表,通过直接学习 “观测 - 动作” 映射,实现快速推理(延迟≤20 毫秒),但泛化能力极差 —— 当测试场景与训练数据存在微小差异(如物体位置偏移 5 厘米)时,成功率骤降 50% 以上。此类方法的核心缺陷是缺乏对 “视觉 - 动作一致性” 的建模,无法应对环境变化。 - 扩散策略阶段
:Diffusion Policy 通过多步迭代去噪,构建更鲁棒的动作分布,在精密装配等任务中成功率突破 90%,但推理延迟高达 150-200 毫秒,完全无法实时。后续改进如 FastDP 通过蒸馏将步骤压缩至 10 步,延迟降至 50 毫秒,但仍未达到实时阈值,且多步迭代导致的累积误差问题依然存在。 - 流基策略阶段
:Rectified Flow 首次实现 “一步生成”,将延迟降至 30 毫秒以内,但动作与观测的一致性问题凸显;AdaFlow 通过自适应流调整提升了精度,但在动态场景中仍存在 18% 的动作偏离率。SeFA-Policy 在该阶段的创新在于:首次将 “选择性对齐” 机制引入流基模型,在一步推理的基础上,通过局部校正解决一致性问题,填补了 “高效推理与精准执行” 协同优化的空白。
(二)流基模型的精度优化研究
流基模型的精度提升始终围绕 “减少离散化误差” 与 “增强一致性约束” 展开:
- 离散化误差优化
:早期工作如 RealNVP 通过多尺度流分解减少误差,但步骤仍需 10 步以上;Glow 引入可逆 1×1 卷积,提升流传输的平滑性,但计算量增加 2 倍。SeFA-Policy 通过 “时间步长自适应调整”,在 5-10 步内平衡误差与效率,离散化误差从 12% 降至 5%。 - 一致性约束探索
:部分研究尝试引入视觉特征作为流传输的条件(如 Conditional Flow),但采用全局约束机制,导致多模态动作丢失;FlowMatch 通过匹配真实动作分布提升一致性,但依赖大量专家数据,数据效率低。SeFA-Policy 的 “选择性对齐” 机制则实现了 “局部校正 + 多模态保留” 的平衡,在仅使用 10% 专家数据的情况下,一致性精度较 FlowMatch 提升 15%。
(三)实时性优化的技术路径
实时性优化已形成 “模型轻量化” 与 “推理流程优化” 两大技术方向:
- 模型轻量化
:MobileViT、EfficientNet 等轻量化骨干网络已广泛应用于视觉特征提取,使特征提取延迟从 30 毫秒降至 10 毫秒以内;模型蒸馏通过教师 - 学生网络架构,将复杂模型的知识迁移到轻量模型,如 Distilled Diffusion Policy 将推理延迟从 150 毫秒降至 50 毫秒,但精度损失超过 8%。 - 推理流程优化
:并行计算(如 GPU 并行、异构计算)可提升推理效率,但受硬件限制较大;少步推理(如一步生成)是流基模型的核心优势,但需解决精度问题。SeFA-Policy 的创新在于 “全流程优化”—— 从特征提取(轻量化骨干)、动作生成(一步流传输)到校正(快速重推理),每个环节均以实时性为目标,最终实现延迟与精度的协同优化,这与仅优化单一环节的传统方法形成鲜明对比。
实验设计与结果分析
04
为全面验证 SeFA-Policy 的性能,研究团队在仿真与真实世界场景中设计了多维度实验,涵盖静态任务(抓取、堆叠)、动态任务(跟踪抓取)、复杂任务(多物体装配),并与 6 种主流策略(Diffusion Policy、Rectified Flow、AdaFlow、FastDP、BC、PerAct)进行对比。实验核心评估指标包括:推理延迟、任务成功率、动作 - 观测偏离率、跨场景泛化率。
(一)实验设置
1. 仿真实验环境
- 平台与机器人模型
:基于 PyTorch 框架与 Isaac Gym 仿真平台(支持高保真物理模拟),使用 Franka Panda(负载 3kg,定位精度 ±0.1 毫米)、UR5e(负载 5kg,定位精度 ±0.03 毫米)两种机器人模型,覆盖工业与服务场景需求。 - 任务设计
: -
静态任务:抓取(Lift,抓取不同形状物体)、堆叠(Stack,将 3 个立方体堆叠)、精密装配(Precision Assembly,将直径 5mm 的轴插入间隙 0.2mm 的孔); -
动态任务:动态跟踪抓取(Dynamic Tracking Grasp,物体以 0.3-0.8m/s 速度移动,机器人需实时跟踪并抓取); -
复杂任务:多物体排序(Multi-Object Sorting,按颜色将 5 个物体分类放置)。 - 数据与训练配置
:专家演示数据通过人类遥操作采集,每个任务采集 200 条轨迹(每条含 50-100 帧 “观测 - 动作” 对);训练采用 AdamW 优化器(学习率 1e-4,权重衰减 1e-5),批量大小 32,训练周期 100 轮。
2. 真实世界实验环境
- 硬件平台
:UR5e 机器人(末端执行器配备力传感器)、Intel RealSense D435i RGB-D 相机(采样频率 30Hz,分辨率 1280×720)、NVIDIA Jetson AGX Xavier 边缘计算平台。 - 任务设计
:选取工业场景中的 “动态流水线抓取”(工件以 0.5m/s 速度移动)与服务场景中的 “家居物品整理”(多物体混合摆放,含遮挡),评估真实环境中的适应性。 - 评估指标
:除仿真实验指标外,新增 “操作耗时”(完成单次任务的平均时间)与 “硬件损耗率”(因动作偏差导致的碰撞次数 / 总操作次数)。
(二)核心实验结果
1. 推理延迟对比
如表 1 所示,SeFA-Policy 在所有平台上均实现最低推理延迟:在 Jetson AGX Xavier 上,平均延迟仅 12 毫秒,较 FastDP(50 毫秒)提升 4.17 倍,较 Diffusion Policy(180 毫秒)提升 15 倍;即使在性能较弱的 Jetson Nano 上,延迟也仅 28 毫秒,满足实时控制需求。这一优势源于全流程轻量化设计 —— 模型压缩使参数减少 75%,并行计算优化进一步提升了推理效率。
表 1:不同硬件平台上的推理延迟对比(单位:毫秒)
2. 任务成功率对比
仿真实验中,SeFA-Policy 在所有任务中均表现最优(表 2):在静态任务 “精密装配” 中,成功率达到 89%,较 Rectified Flow(72%)提升 23.6%,较 Diffusion Policy(85%)提升 4.7%;在动态任务 “跟踪抓取”(物体速度 0.8m/s)中,成功率突破 80%,而传统流基模型(如 AdaFlow)仅为 55%,扩散策略因延迟过高(无法跟踪快速移动物体)成功率仅 32%。这一结果验证了选择性流对齐机制的有效性 —— 通过动态校正动作与观测的偏差,即使在高速动态场景中,仍能保持高精度操作。
真实世界实验中,SeFA-Policy 的优势进一步凸显:“动态流水线抓取” 任务成功率达到 83%,操作耗时平均 8.5 秒,硬件损耗率仅 2%;而 FastDP 的成功率为 68%,操作耗时 12.3 秒,损耗率 8%。这表明,SeFA-Policy 的轻量化设计与一致性约束,能够有效应对真实环境中的视觉噪声与物理扰动。
表 2:仿真实验任务成功率对比(单位:%)
3. 动作 - 观测偏离率与泛化能力
动作 - 观测偏离率是衡量 “视觉 - 动作一致性” 的关键指标。实验结果显示,SeFA-Policy 的平均偏离率仅为 6%,较 Rectified Flow(28%)、AdaFlow(22%)大幅降低(图 2)。在跨场景泛化测试中(如训练数据为 “白色背景抓取”,测试数据为 “杂乱背景抓取”),SeFA-Policy 的平均成功率为 82%,较 FastDP(70%)、Diffusion Policy(75%)提升显著,这得益于选择性对齐机制对视觉干扰的抑制 —— 即使背景存在大量冗余信息,策略仍能聚焦物体关键特征,生成匹配的动作。
(三)消融实验结果
为验证各核心模块的贡献,研究团队设计了消融实验,移除 SeFA-Policy 的关键组件后评估性能变化(表 3):
- 移除选择性流对齐(SeFA w/o SFA)
:动作 - 观测偏离率从 6% 飙升至 25%,动态跟踪抓取任务成功率从 80% 降至 52%,证明选择性对齐是保障一致性与动态适应性的核心; - 移除动态特征分支(SeFA w/o Dynamic Branch)
:动态任务成功率下降 38 个百分点(从 80% 降至 42%),说明动态特征对捕捉运动信息至关重要; - 移除轻量化优化(SeFA w/o Lightweight)
:推理延迟从 12 毫秒增至 48 毫秒,超出实时控制阈值,验证了轻量化设计的必要性。
这些结果表明,SeFA-Policy 的各模块并非孤立存在,而是通过协同作用实现 “效率 - 精度 - 泛化” 的统一。
表 3:消融实验结果(仿真动态跟踪抓取任务,物体速度 0.8m/s)
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
技术优势与创新价值
05
SeFA-Policy 通过创新设计,在视觉运动策略学习领域实现了三大核心突破,其技术优势与应用价值可从以下维度展开:
(一)效率与精度的协同优化
SeFA-Policy 的最大优势在于打破了 “效率 - 精度” 的 trade-off。传统流基模型虽实现快速推理,但精度损失超过 20%;扩散策略虽精度高,但延迟无法满足实时需求。而 SeFA-Policy 通过 “选择性流对齐” 机制,在一步推理(效率)的基础上,仅对偏离观测的动作进行局部校正(精度),最终实现 “12 毫秒延迟 + 89% 精密装配成功率” 的优异表现。这种协同优化使其能够直接应用于对实时性与精度要求严苛的场景,例如:
- 工业流水线
:动态跟踪抓取移动工件(速度 0.5-1m/s)时,实时推理确保工件不脱轨,高精度操作避免碰撞损坏; - 微创手术机器人
:要求动作延迟≤15 毫秒、定位误差≤1 毫米,SeFA-Policy 的性能完全满足此类需求,且轻量化设计可集成到小型化硬件中。
(二)动态场景与视觉干扰的强适应性
传统策略在动态场景或视觉干扰下的性能衰减严重,而 SeFA-Policy 通过两大设计提升适应性:
- 动态特征分支
:视觉流估计能够捕捉物体瞬时运动,使策略在跟踪抓取任务中(物体速度 0.8m/s)仍保持 80% 成功率; - 选择性对齐机制
:即使存在遮挡(如抓取被部分遮挡的物体),策略也能通过校正生成与当前观测匹配的动作,避免 “盲目操作”。
这种适应性使其在服务机器人场景中极具价值,例如家庭环境中的 “动态物品整理”—— 当儿童移动玩具时,机器人能快速调整抓取动作;超市货架补货机器人面对杂乱摆放的商品时,仍能精准定位并抓取。
(三)低数据依赖与工程化落地优势
SeFA-Policy 具有极高的数据效率:仅需 200 条专家演示轨迹(约 1 万帧 “观测 - 动作” 对),即可实现高精度训练,较 Diffusion Policy(需 500 条轨迹)减少 60% 数据量。这一特性大幅降低了数据采集成本,尤其适用于难以大量获取演示的场景(如精密装配、危险环境操作)。
在工程化落地方面,SeFA-Policy 的轻量化设计使其能够部署到边缘计算平台(如 Jetson AGX Xavier),无需依赖高性能服务器;模型压缩后的体积仅为 8MB,便于嵌入式系统集成。此外,策略的跨载体泛化能力(如在 Franka Panda 上训练,直接部署到 UR5e)减少了平台适配成本,为多机器人协同作业提供了可能。
研究局限与未来展望
06
尽管 SeFA-Policy 取得显著突破,但仍存在以下局限,为后续研究指明方向:
(一)当前局限
- 高速动态场景适应性不足
:当物体移动速度超过 1m/s 时,视觉流估计的精度会下降,导致动作校正延迟,任务成功率从 80% 降至 55% 以下。这是因为现有视觉流算法在极端速度下的匹配误差增大,无法准确捕捉运动特征。 - 多模态动作的精细控制不足
:虽然 SeFA-Policy 保留了多模态动作,但在复杂任务(如多物体协同操作)中,对动作优先级的判断仍不够精准。例如,在 “抓取 + 放置” 连续任务中,策略可能生成多种抓取角度,但未考虑后续放置动作的便利性,导致整体任务耗时增加。 - 触觉与力反馈的融合缺失
:当前 SeFA-Policy 仅依赖视觉观测,未利用触觉、力反馈等多模态信息。在柔性物体抓取(如布料、水果)中,缺乏力反馈可能导致抓取力度不当,造成物体损坏或脱落。
(二)未来研究方向
- 高速视觉流与事件相机融合
:引入事件相机(Event Camera),其能捕捉微秒级的运动变化,弥补传统 RGB-D 相机在高速场景中的不足。未来可设计 “RGB-D 视觉流 + 事件相机动态特征” 的双模态输入,提升高速场景的动作生成精度。 - 多任务动作优先级建模
:通过强化学习训练 “任务感知权重器”,根据后续任务需求动态调整多模态动作的优先级。例如,在 “抓取 + 放置” 任务中,优先选择便于后续放置的抓取角度,减少整体操作耗时。 - 多模态观测融合
:整合触觉传感器(如 OptoForce)、力传感器的信息,设计 “视觉 - 触觉 - 力” 三模态特征融合模块,通过注意力机制动态调整各模态权重。例如,抓取柔性物体时,增加力反馈权重,避免过度挤压。 - 在线自适应学习
:当前 SeFA-Policy 依赖离线训练,未来可引入元学习(Meta-Learning)技术,使策略在实际操作中快速适应新场景(如未见过的物体形状),无需重新训练,进一步提升泛化能力。
总结
SeFA-Policy 作为基于选择性流对齐的视觉运动策略学习框架,通过 “动态 - 静态特征融合”“选择性流对齐”“全流程轻量化” 三大核心创新,成功解决了传统策略学习 “效率低、精度差、动态适应性不足” 的痛点。实验表明,该框架在仿真与真实世界任务中均表现出优异性能:推理延迟低至 12 毫秒,精密装配成功率达 89%,动态跟踪抓取成功率突破 80%,且较主流方法在跨场景泛化能力上提升 10%-15%。
SeFA-Policy 的价值不仅在于技术突破,更在于推动视觉运动策略的工程化落地。其轻量化设计、低数据依赖、跨载体泛化等特性,使其能够直接应用于工业自动化、服务机器人、微创手术等场景,为机器人实时精准操作提供了新的技术范式。
在具身智能技术快速发展的背景下,SeFA-Policy 的研究成果为机器人视觉运动策略的进一步优化奠定了基础。未来,随着多模态融合、在线自适应等技术的融入,该框架有望在更复杂、更动态的场景中发挥更大价值。
艾科伯特(AirkingRobots)专注于具身智能机器人领域,提供 UR 等系列机器人的模仿学习、强化学习完整解决方案,涵盖数据采集设备定制、政策训练优化、跨载体迁移适配等全链条服务。如需了解具体技术细节或方案咨询,可联系 AirkingRobots 获取专业支持。
更多案例请关注公众号:
商
务
联
系
邮箱:info@airkingrobots.com
电话:13161062216
—— E N D ——

