在三维视觉领域,场景流(Scene Flow)估计旨在恢复连续帧中每个像素的三维运动信息,广泛应用于自动驾驶、机器人导航和智能监控等场景。但由于大位移、遮挡和深度估计误差,传统变分方法和单尺度学习模型在精度与效率间难以兼顾。
近日,斯图加特大学视觉组提出了 MS-RAFT-3D──一种首次将多尺度粗到细递归更新应用于图像驱动场景流估计的模型。其核心思路是在1/16、1/8、1/4三个分辨率金字塔上依次利用共享凸掩膜上采样、U-Net特征编码和轻量上下文编码进行运动场初始化与迭代优化,并结合多尺度多迭代损失与CroCo-Stereo视差初始化,显著提升深度与光流的联合估计精度。经FlyingThings、KITTI和Spring等公开基准验证,MS-RAFT-3D分别将场景流误差降至3.89和9.13,相比现有SOTA提升8.7%和65.8%。
另外,我整理了ICIP 2025计算机视觉相关论文+源码,感兴趣的自取,也欢迎分享给身边的朋友!
关注“CV实验室”回复“C431”
免费领取ICIP 2025计算机视觉相关论文
论文基本信息
-
论文标题:MS-RAFT-3D: A Multi-Scale Architecture for Recurrent Image-Based Scene Flow -
作者:Jakob Schmid, Azin Jahedi, Noah Berenguel, Senn Andrés Bruhn -
作者单位:University of Stuttgart, Institute for Visualization and Interactive Systems -
发布日期:2025年6月2日 -
论文来源:https://arxiv.org/abs/2506.01443 -
代码仓库:https://github.com/cv-stuttgart/MS-RAFT-3D
摘要
本文提出了MS-RAFT-3D,一种基于RAFT-3D框架的多尺度场景流估计方法,主要创新如下:
-
多尺度粗到细协同:构建1/16、1/8、1/4三层金字塔,通过共享凸掩膜将粗尺度估计的SE(3)运动场与运动嵌入上采样至下一层,实现全局与细节的有机统一。 -
U-Net特征编码器:在每个尺度引入对称下采样-上采样结构,融合多层次卷积特征,有效增强细节表示和遮挡恢复能力。 -
轻量级上下文编码器:以自顶向下残差模块及1×1卷积替代ResNet50,上下文通道数与GRU隐藏态保持一致,参数减小17M,推理速度提升近20%。 -
多尺度多迭代监督:在每层金字塔每次迭代后,将运动场上采样至全分辨率,对光流与逆深度误差进行联合L1监督,迭代权重随着剩余步数以0.8比例递减。 -
高质量初始视差集成:采用CroCo-Stereo预训练视差替代传统视差初始化,进一步降低误差。 在FlyingThings、KITTI和Spring数据集上,MS-RAFT-3D在1px、0.05、0.1三项指标分别达8.47%、1.74%、7.17%,场景流误差从4.26降至3.89,在Spring上的误差从26.71降至9.13,超越最多65.8%。
研究背景及相关工作
研究背景
场景流估计被视为光流与深度估计的结合,需同时恢复像素级二维运动和深度变化信息。早期基于变分框架的方法通过金字塔策略减少大位移影响,却常因初始化敏感和计算开销大而局限。近年来,基于深度学习的方法借鉴RAFT的递归更新理念,将全对成本体积与GRU单元结合,在光流领域取得突破;类似思想被引入RAFT-3D中,针对双目或RGB-D序列进行场景流预测,但仅在单一1/8分辨率尺度下操作,难以兼顾全局运动与局部细节。多尺度策略在光流和立体匹配中已被证实能提升精度和鲁棒性,但尚未系统应用于递归场景流网络。MS-RAFT-3D即旨填补此空白,将多尺度与递归更新融合,实现高效精准的三维场景流估计。
相关工作
-
MS-RAFT+ & CCMR:引入多尺度U-Net特征编码和多迭代损失,在光流/立体任务上效果显著; -
RAFT-3D:首次将RAFT递归更新拓展至场景流,采用单尺度金字塔,但缺乏跨尺度信息融合; -
ScaleRAFT:关注跨尺度成本体积融合,提出多分辨率匹配策略; -
点云场景流:如Cheng等工作,在点云域结合多尺度粗细策略,验证多尺度递归对细节恢复的促进作用。
主要贡献
-
多尺度粗到细协同更新:首次在递归场景流网络中实现1/16→1/8→1/4分辨率粗到细运动场初始化与迭代优化; -
U-Net特征编码器设计:利用卷积跨尺度融合,减轻遮挡和光照变化对匹配的影响; -
轻量上下文编码器:简化网络结构,保持上下文信息完整,提高推理速度; -
多尺度多迭代联合监督:实现粗尺度快速收敛与细尺度精细修正的平衡; -
CroCo-Stereo视差集成:利用高质量预训练视差显著降低深度误差,提高整体场景流精度。
研究方法与基本原理
网络架构
MS-RAFT-3D依托RAFT-3D单尺度骨干,扩展出三层分辨率金字塔:
-
1/16尺度:粗略估计全局运动场及运动嵌入; -
1/8尺度:上采样初始估计并结合U-Net特征与上下文信息精细优化; -
1/4尺度:最终细化并输出全分辨率光流与逆深度估计。 每层包含成本体积构建、GRU递归更新、Dense-SE3优化与上采样模块,形成端到端可训练的多尺度循环管道。
特征与上下文编码
-
U-Net编码器:对称下采样/上采样结构,四个分支融合不同感受野特征,输出给匹配与递归更新模块; -
轻量上下文编码器:三层残差块+1×1卷积,将上下文通道调整为与GRU隐藏态一致,确保多层次信息传递。
递归更新与Dense-SE3
在每个尺度,GRU单元接收成本体积、上下文张量、当前运动场与运动嵌入,经过多步迭代生成运动场增量;随后,Dense-SE3层利用加权高斯牛顿方法在像素邻域融合临近估计,增强平滑性与鲁棒性。
多尺度多迭代损失
设第s层第i步损失为 ,通过上采样至原始分辨率后进行光流L1和逆深度L1联合监督;整体损失 , ,确保早期迭代对全局影响较大,后期迭代精细修正。
实验结果与讨论
FlyingThings 预训练
在FlyingThings数据集上,使用GT视差进行预训练,MS-RAFT-3D在1px、0.05、0.1指标分别为8.47%、1.74%、7.17%,相比RAFT-3D提升约12%。
KITTI & Spring 基准
-
KITTI:场景流误差由4.26降至3.89,动态前景误差下降14%; -
Spring:误差由26.71降至9.13,超越PWOC-3D 65.8%。
|
|
|
|---|---|
|
|
|
|
|
|


消融研究
分别去除U-Net编码、轻量上下文、粗到细初始化和平滑嵌入,误差均不同程度上升,验证各模块设计有效性;特别是不使用嵌入平滑时误差翻倍,表明该模块对稳定性至关重要。
总结与展望
总结
MS-RAFT-3D首次将多尺度框架与递归更新融合于图像场景流估计,实现了KITTI和Spring两大基准的SOTA性能,证明多尺度粗细协同和高质量视差预初始化能明显提升三维运动恢复精度。
展望
-
多模态融合:结合LiDAR、事件相机等多源信息增强鲁棒性; -
结构轻量化:进一步压缩模型以适配嵌入式平台; -
自监督扩展:利用未标注大规模视频进行预训练,降低对人工标注的依赖。
代码实现
项目代码开源于GitHub,可以克隆以下内容实现代码复现
git clone https://github.com/cv-stuttgart/MS-RAFT-3D
cd MS-RAFT-3D
python train.py --config config/kitti.yaml
python infer.py --dataset KITTI
2025 | 不服不行!Yann LeCun 团队 DINO-world 震撼发布!特征预测横扫视频建模
ICCV 2025 | 港科大S3PO-GS:颠覆户外SLAM尺度漂移难题,3D高斯溅射新突破!
注:本公众号发布的内容仅用于信息传递与知识分享,不保证绝对准确,也不构成专业建议。因使用内容造成的任何损失,我们概不负责。 若公众号含外部链接,链接内容及运营不受我们控制,由此产生的风险和损失,读者自行承担。此外,原创内容版权归本号所有,未经授权禁止商用。因不可抗力、技术故障等致内容异常,本号同样免责。阅读即视为同意本声明,如有疑问,欢迎联系。



