极市导读
本文提出一种基于扩散模型的单目相机标定新方法——DM-Calib,用 Stable Diffusion 将相机内参编码成“相机图像”,实现单张 RGB 零样本高精度标定,并显著提升度量深度估计、稀疏三维重建等下游任务性能。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
香港科技大学联合地平线、南京大学提出了一种基于扩散模型的单目相机标定新方法——DM-Calib,该方法利用Stable Diffusion强大的图像先验能力,提出了一种新颖的相机内参图像表征——Camera Image,并实现了从单一RGB图像高精度恢复相机内参。与此同时,该方法在度量深度估计、3D重建等下游任务中取得了较好的表现,在多个基准测试中达到SOTA水平。论文已被 ICCV 2025 录用。
-
论文标题:Boost 3D Reconstruction using Diffusion-based Monocular Camera Calibration
-
论文地址:https://arxiv.org/abs/2411.17240
-
GitHub地址:https://github.com/JunyuanDeng/DM-Calib
研究动机:单目相机标定的挑战
单目相机标定通常为3D重建任务的第一步,其精度直接影响到后续的度量深度估计、3D重建、位姿恢复等任务。然而,相比多视图/棋盘格标定,仅凭单张RGB图像恢复内参是一项高度不适定(ill‑posed)的问题,长期以来面临以下问题:
-
依赖多视图或标定物: 传统几何方法往往要求多张重叠视角、或拍摄棋盘格/特定标定体,这在车载、无人机、手机等轻量化场景中难以满足;若仅剩单目输入,经典的Kruppa方程或逐层分层重建等方案极易受噪声放大。
-
手工先验泛化差: 为缓解不适定性,学界提出利用曼哈顿世界、地平线、重力方向、面部几何等人造约束,但这些场景假设碎片化、覆盖面窄,在真实复杂环境往往失效。
-
学习方法数据受限: 近年兴起的端到端回归方法虽摆脱了几何假设,但公开标注数据稀缺,模型常在训练集上过拟合、对未知焦距或场景迁移能力弱。
-
表示差距: 相机内参本质是四维数值,而主流生成模型生成的却是像素分布;如何让生成式先验与数值矩阵对齐,成为突破瓶颈的关键。
Stable Diffusion近期在图像生成领域展现出了强大的泛化与表征能力。作者提出,是否可以借助这种图像先验解决单目相机标定中泛化性不足的问题?
方法创新:相机图像表示与扩散生成框架
1️⃣ 相机图像(Camera Image)表示法
传统内参矩阵( )难以适配图像生成模型。DM-Calib提出三通道图像化编码:
-
通道1与通道2:用两通道表示相机内参,利用角度信息 和 来表示内参,每个像素点,可以代表一条从相机中心到像素的一条射线。
-
通道3:进一步在两角度通道外加入原RGB图像灰度图,显著缩小与真实图像域的分布差距,使VAE Encoder-Decoder重建误差近乎可忽略,并保留高频细节。
这种表示保留了高频细节,与真实图像域差距小,相比现有incident map在VAE的重建误差上降低可达60%。
2️⃣ 基于扩散的相机内参预测
作者将相机内参预测问题转化为扩散模型的条件图像生成问题,实现了从单张RGB图像端到端地高精度恢复相机内参:
-
训练阶段:利用Stable Diffusion v2.1作为基础架构,引入双分支输入(原始图像与Camera Image),通过多尺度噪声扰动和U-Net训练网络从图像中恢复Camera Image隐变量。
-
推理阶段: 仅需一张输入图像,即可通过扩散模型逐步生成对应的Camera Image,再通过几何一致性解码(基于像素-内参关系与RANSAC)恢复出真实的相机内参矩阵K。
3️⃣ 下游3D任务性能大幅提升
实验表明,该方法有效提升了零样本度量深度估计、三维重建、位姿估计等多个3D视觉任务的性能。
-
零样本度量深度估计:DM-Calib首次将扩散模型用于零样本度量深度估计,结合自身预测的相机内参,从单张RGB图像直接恢复真实度量深度,无需额外标注,具备良好的跨场景泛化能力。 -
稀疏视图三维重建:DM-Calib提供的相机内参作为强几何先验,可辅助点云对齐与位姿恢复。结合如DUST3R[9]等方法,在多场景中平均重建误差降低近20%,显著提升三维重建质量。
实验结果
相机标定精度领先
DM‑Calib在Waymo、RGBD、ScanNet、MVS、Scenes11五个公开数据集上进行了“零样本”单目标定评测。评估指标采用此前工作通用的相对焦距误差 与相对主点误差 。DM‑Calib无需依赖消失点等几何先验即可在各大数据集保持高精度。相较强依赖几何信息的传统方法,它在极端条件的Scenes11(随机形变且含动态物体)上仍表现领先,充分体现了方法的稳健性。
度量深度估计
在NuScenes, ETH3D等数据集上,DM-Calib的度量深度估计也取得了较好的表现,有效提升了场景细节的清晰度和尺度恢复的准确性:
虽然训练目标是度量深度,作者将输出转换为仿射‑不变深度后与专门的相对深度模型对比,DM‑Calib依旧在Pisa塔、树林等复杂层次场景保持正确的前后次序和显著分割,原文表9中的定量结果亦与主流相对深度方法持平:
多种下游任务
-
3D度量学:在14mm到46mm五档焦距下,对汽车轮距等物理长度进行单目测量,传统方法平均误差5.37±4.17mm;DM‑Calib误差收敛至3.09±0.02mm,且误差方差显著缩小,DM‑Calib在室内外多焦距条件下均能给出更精确、稳定的尺寸估计:
-
稀疏重建:在稀疏视图3D重建中,引入DM‑Calib估计的内参可显著提升多焦距照片的重建质量:在自采的四个真实场景上,平均相对距离误差下降约20%,同时位姿估计也同步改善。定性结果表明,未使用内参的重建存在明显形变与错位,而加入内参后模型的几何精度与对齐效果均大幅提升:
总结
DM‑Calib通过Camera Image表示把内参矩阵无缝嵌入扩散模型像素空间,利用Stable Diffusion的通用成像先验,实现了单张RGB即可高精度恢复焦距和主点,并在Waymo、ScanNet等多域数据集显著降低标定误差;其精准内参作为强几何先验进一步提升零样本度量深度、稀疏视图重建和真实尺度测量等下游任务,为移动 AR/VR、自动驾驶与机器人导航提供了轻量、泛化且即插即用的单目标定解决方案。
参考文献
[1] Perspective Fields for Single Image Camera Calibration https://arxiv.org/abs/2212.03239
[2] GeoCalib: Learning Single-image Calibration with Geometric Optimization https://arxiv.org/abs/2409.06704
[3] Tame a Wild Camera: In‑the‑Wild Monocular Camera Calibration https://arxiv.org/abs/2306.10988
[4] UniDepth: Universal Monocular Metric Depth Estimation https://arxiv.org/abs/2403.18913
[5] DiffCalib: Reformulating Monocular Camera Calibration as Diffusion‑Based Dense Incident Map Generation https://arxiv.org/abs/2405.15619
[6] iDisc: Internal Discretization for Monocular Depth Estimation https://arxiv.org/abs/2304.06334
[7] ZoeDepth: Zero‑shot Transfer by Combining Relative and Metric Depth https://arxiv.org/abs/2302.12288
[8] Metric3D: Towards Zero‑shot Metric 3D Prediction from A Single Image https://arxiv.org/abs/2307.10984
[9] DUSt3R: Geometric 3D Vision Made Easy https://arxiv.org/abs/2312.14132
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

