大数跨境
0
0

ICCV 2025 | DM-Calib:基于扩散模型的单目相机标定与度量深度估计方法

ICCV 2025 | DM-Calib:基于扩散模型的单目相机标定与度量深度估计方法 极市平台
2025-07-23
2
↑ 点击蓝字 关注极市平台
作者丨Junyuan Deng
编辑丨极市平台

极市导读

 

本文提出一种基于扩散模型的单目相机标定新方法——DM-Calib,用 Stable Diffusion 将相机内参编码成“相机图像”,实现单张 RGB 零样本高精度标定,并显著提升度量深度估计、稀疏三维重建等下游任务性能。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

香港科技大学联合地平线、南京大学提出了一种基于扩散模型的单目相机标定新方法——DM-Calib,该方法利用Stable Diffusion强大的图像先验能力,提出了一种新颖的相机内参图像表征——Camera Image,并实现了从单一RGB图像高精度恢复相机内参。与此同时,该方法在度量深度估计、3D重建等下游任务中取得了较好的表现,在多个基准测试中达到SOTA水平。论文已被 ICCV 2025 录用。

  • 论文标题:Boost 3D Reconstruction using Diffusion-based Monocular Camera Calibration

  • 论文地址:https://arxiv.org/abs/2411.17240

  • GitHub地址:https://github.com/JunyuanDeng/DM-Calib

研究动机:单目相机标定的挑战

单目相机标定通常为3D重建任务的第一步,其精度直接影响到后续的度量深度估计、3D重建、位姿恢复等任务。然而,相比多视图/棋盘格标定,仅凭单张RGB图像恢复内参是一项高度不适定(ill‑posed)的问题,长期以来面临以下问题:

  • 依赖多视图或标定物: 传统几何方法往往要求多张重叠视角、或拍摄棋盘格/特定标定体,这在车载、无人机、手机等轻量化场景中难以满足;若仅剩单目输入,经典的Kruppa方程或逐层分层重建等方案极易受噪声放大。

  • 手工先验泛化差: 为缓解不适定性,学界提出利用曼哈顿世界、地平线、重力方向、面部几何等人造约束,但这些场景假设碎片化、覆盖面窄,在真实复杂环境往往失效。

  • 学习方法数据受限: 近年兴起的端到端回归方法虽摆脱了几何假设,但公开标注数据稀缺,模型常在训练集上过拟合、对未知焦距或场景迁移能力弱。

  • 表示差距: 相机内参本质是四维数值,而主流生成模型生成的却是像素分布;如何让生成式先验与数值矩阵对齐,成为突破瓶颈的关键。

Stable Diffusion近期在图像生成领域展现出了强大的泛化与表征能力。作者提出,是否可以借助这种图像先验解决单目相机标定中泛化性不足的问题?

方法创新:相机图像表示与扩散生成框架

1️⃣ 相机图像(Camera Image)表示法

传统内参矩阵( )难以适配图像生成模型。DM-Calib提出三通道图像化编码:

  • 通道1与通道2:用两通道表示相机内参,利用角度信息   和   来表示内参,每个像素点,可以代表一条从相机中心到像素的一条射线。

  • 通道3:进一步在两角度通道外加入原RGB图像灰度图,显著缩小与真实图像域的分布差距,使VAE Encoder-Decoder重建误差近乎可忽略,并保留高频细节。

这种表示保留了高频细节,与真实图像域差距小,相比现有incident map在VAE的重建误差上降低可达60%。

2️⃣ 基于扩散的相机内参预测

作者将相机内参预测问题转化为扩散模型的条件图像生成问题,实现了从单张RGB图像端到端地高精度恢复相机内参:

  • 训练阶段:利用Stable Diffusion v2.1作为基础架构,引入双分支输入(原始图像与Camera Image),通过多尺度噪声扰动和U-Net训练网络从图像中恢复Camera Image隐变量。

  • 推理阶段: 仅需一张输入图像,即可通过扩散模型逐步生成对应的Camera Image,再通过几何一致性解码(基于像素-内参关系与RANSAC)恢复出真实的相机内参矩阵K。

3️⃣ 下游3D任务性能大幅提升

实验表明,该方法有效提升了零样本度量深度估计、三维重建、位姿估计等多个3D视觉任务的性能。

  • 零样本度量深度估计:DM-Calib首次将扩散模型用于零样本度量深度估计,结合自身预测的相机内参,从单张RGB图像直接恢复真实度量深度,无需额外标注,具备良好的跨场景泛化能力。
  • 稀疏视图三维重建:DM-Calib提供的相机内参作为强几何先验,可辅助点云对齐与位姿恢复。结合如DUST3R[9]等方法,在多场景中平均重建误差降低近20%,显著提升三维重建质量。

实验结果

相机标定精度领先

DM‑Calib在Waymo、RGBD、ScanNet、MVS、Scenes11五个公开数据集上进行了“零样本”单目标定评测。评估指标采用此前工作通用的相对焦距误差 与相对主点误差 。DM‑Calib无需依赖消失点等几何先验即可在各大数据集保持高精度。相较强依赖几何信息的传统方法,它在极端条件的Scenes11(随机形变且含动态物体)上仍表现领先,充分体现了方法的稳健性。

度量深度估计

在NuScenes, ETH3D等数据集上,DM-Calib的度量深度估计也取得了较好的表现,有效提升了场景细节的清晰度和尺度恢复的准确性:

虽然训练目标是度量深度,作者将输出转换为仿射‑不变深度后与专门的相对深度模型对比,DM‑Calib依旧在Pisa塔、树林等复杂层次场景保持正确的前后次序和显著分割,原文表9中的定量结果亦与主流相对深度方法持平:

多种下游任务

  • 3D度量学:在14mm到46mm五档焦距下,对汽车轮距等物理长度进行单目测量,传统方法平均误差5.37±4.17mm;DM‑Calib误差收敛至3.09±0.02mm,且误差方差显著缩小,DM‑Calib在室内外多焦距条件下均能给出更精确、稳定的尺寸估计:
  • 稀疏重建:在稀疏视图3D重建中,引入DM‑Calib估计的内参可显著提升多焦距照片的重建质量:在自采的四个真实场景上,平均相对距离误差下降约20%,同时位姿估计也同步改善。定性结果表明,未使用内参的重建存在明显形变与错位,而加入内参后模型的几何精度与对齐效果均大幅提升:

总结

DM‑Calib通过Camera Image表示把内参矩阵无缝嵌入扩散模型像素空间,利用Stable Diffusion的通用成像先验,实现了单张RGB即可高精度恢复焦距和主点,并在Waymo、ScanNet等多域数据集显著降低标定误差;其精准内参作为强几何先验进一步提升零样本度量深度、稀疏视图重建和真实尺度测量等下游任务,为移动 AR/VR、自动驾驶与机器人导航提供了轻量、泛化且即插即用的单目标定解决方案。

参考文献

[1] Perspective Fields for Single Image Camera Calibration https://arxiv.org/abs/2212.03239

[2] GeoCalib: Learning Single-image Calibration with Geometric Optimization https://arxiv.org/abs/2409.06704

[3] Tame a Wild Camera: In‑the‑Wild Monocular Camera Calibration https://arxiv.org/abs/2306.10988

[4] UniDepth: Universal Monocular Metric Depth Estimation https://arxiv.org/abs/2403.18913

[5] DiffCalib: Reformulating Monocular Camera Calibration as Diffusion‑Based Dense Incident Map Generation https://arxiv.org/abs/2405.15619

[6] iDisc: Internal Discretization for Monocular Depth Estimation https://arxiv.org/abs/2304.06334

[7] ZoeDepth: Zero‑shot Transfer by Combining Relative and Metric Depth https://arxiv.org/abs/2302.12288

[8] Metric3D: Towards Zero‑shot Metric 3D Prediction from A Single Image https://arxiv.org/abs/2307.10984

[9] DUSt3R: Geometric 3D Vision Made Easy https://arxiv.org/abs/2312.14132


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读9.6k
粉丝0
内容8.2k