大数跨境
0
0

DINOv3加持!RoMa v2开源:图像特征匹配新标杆,速度提升1.7倍,精度再创新高!

DINOv3加持!RoMa v2开源:图像特征匹配新标杆,速度提升1.7倍,精度再创新高! 极市平台
2025-11-21
0
↑ 点击蓝字 关注极市平台
作者丨我爱计算机视觉
来源丨我爱计算机视觉
编辑丨极市平台

极市导读

 

RoMa v2 用 DINOv3 + 单头注意粗匹配 + CUDA 精修,10 数据集训练 + EMA 去亚像素偏置,640×640 吞吐 30.9 pair/s,MegaDepth/ScanNet 位姿 AUC 全面领先,并输出逐像素协方差,代码已开源。>>加入极市CV技术交流群,走在计算机视觉的最前沿

大家好,今天想和大家聊一篇关于特征匹配的新工作,来自瑞典林雪平大学等知名高校的研究团队。他们推出的 RoMa v2,可以说是给密集特征匹配这个领域又打了一针“强心剂”,目标非常明确,就是要“Harder, Better, Faster, Denser”。

密集特征匹配,简单来说,就是想办法在两张不同视角、甚至不同光照下拍摄的图片之间,为每一个像素点都找到它对应的“另一半”。这门技术是三维重建、视觉定位等众多应用的基础,重要性不言而喻。但长久以来,大家都在“精度”和“速度”之间做着艰难的取舍。有些模型精度高,但跑起来又慢又吃显存;有些跑得快,但在复杂场景下又容易“翻车”。

而 RoMa v2 就像一位全能选手,试图打破这个僵局。它不仅在精度上树立了新的SOTA(State-of-the-Art,即当前最佳水平),在运行速度和效率上也有了质的飞跃。

  • 论文标题: RoMa v2: Harder Better Faster Denser Feature Matching
  • 作者: Johan Edstedt, David Nordström, Yushan Zhang, Georg Bökman, Jonathan Astermark, Viktor Larsson, Anders Heyden, Fredrik Kahl, Mårten Wadenbäck, Michael Felsberg
  • 机构: 林雪平大学、查尔姆斯理工大学、阿姆斯特丹大学、隆德大学
  • 论文地址https://arxiv.org/abs/2511.15706
  • 代码仓库(已开源,星标快速上升中)https://github.com/Parskatt/romav2

下面我们来看看,RoMa v2 究竟是如何做到这一切的。从这张性能雷达图就能直观感受到 RoMa v2 的全面领先,它在一系列位姿估计和密集匹配的基准测试中都表现出色。

01 背景:在速度与精度的权衡中寻求突破

在 RoMa v2 之前,密集匹配领域有几位“明星选手”。比如它的前身 RoMa,通过引入冻结的视觉基础模型(Foundation Model)特征,在应对剧烈光照和模态变化时表现得非常鲁棒,但缺点是速度慢、计算开销大。另一位选手 UFM 则另辟蹊径,实现了更快的匹配速度,但在需要亚像素级精度的任务上,以及在某些极端外观变化的数据集上(如 WxBS),表现就不如 RoMa。

这就形成了一个两难的局面:我们想要一个既能像 RoMa 那样应对各种“魔鬼”场景“从从容容”,又能像 UFM 那样跑得飞快“游刃有余”。RoMa v2 的研究动机,正是要将二者的优点结合起来,打造一个既鲁棒又高效的全能匹配器。

上图展示了 RoMa v2 在各种真实世界场景下的定性匹配结果,从宽基线、动态物体到光照变化,它都能准确地建立像素级的对应关系。图中每个像素的颜色来自另一张图中对应位置的RGB值,颜色越亮表示模型对该匹配的置信度越低。

02 方法:RoMa v2 的“独门秘籍”

RoMa v2 并非简单地修修补补,而是一次系统性的全面升级。其核心在于一个全新的 两阶段匹配-精调(matching-then-refinement) 架构,并在一系列关键技术点上进行了创新。

上图是 RoMa v2 的整体架构概览。输入两张图片  和 ,模型会经过一个粗匹配(Coarse Matcher)和一个精调器(Refiners)两个阶段,最终输出双向的密集匹配场(Warp)和置信度图(Confidence)。值得注意的是,它还创新性地输出了一个**逐像素的协方差矩阵 **,这为下游任务提供了宝贵的不确定性信息。

2.1 更强的粗匹配器:DINOv3 与新架构的强强联合

粗匹配阶段的目标是快速建立一个大致准确的对应关系。

  • 拥抱 DINOv3: RoMa v2 将特征提取器从 DINOv2 升级到了更新、更强的 DINOv3。实验证明(如下表所示),冻结的 DINOv3 特征在匹配任务中具有更强的鲁棒性。
  • 全新的匹配架构: 作者发现 RoMa 中的高斯过程(GP)回归虽然有一定作用,但梯度信息不足,影响了多视图上下文的学习。因此,RoMa v2 大胆地用一个简单的 单头注意力机制 替换了高斯过程,并引入了一个基于负对数似然(Negative Log-Likelihood)的辅助损失   。

这个损失函数的目标是,对于图像A中的每个块(patch),最大化其在图像B中正确匹配块的概率。这种设计,可以看作是 LoFTR 等方法的密集化、有向化版本,它让模型在粗匹配阶段就能更好地利用两张图的全局信息。

上图是粗匹配器的内部结构,它使用一个多视图 Transformer 交替进行帧内和全局的注意力计算,最终输出一个 4 倍下采样分辨率的粗略匹配场。

从下面的对比实验可以看出,RoMa v2 的新匹配架构在 Hypersim 数据集上相比 UFM 的架构,精度(PCK,即正确关键点百分比)实现了碾压性的提升。

2.2  更快更省的精调器:CUDA 内核与架构优化

粗匹配给出了一个大概位置,精调器(Refiner)则负责将匹配精度提升到亚像素级别。

  • 定制 CUDA 内核: 作者发现,RoMa 的精调器在计算局部相关性(local correlation)时非常消耗显存。为了解决这个问题,他们手写了一个 定制的 CUDA 内核,在功能不变的前提下,显著降低了高分辨率下的显存占用。
  • 架构瘦身: 由于粗匹配的输出分辨率从 stride 14 提升到了 stride 4,精调器也得以简化,只需要在 {4, 2, 1} 三个尺度上进行。同时,网络通道数被调整为2的幂次方,进一步提升了计算效率。

上图展示了精调器的内部结构,它是一个类似 UNet 的网络,输入粗匹配结果,输出全分辨率的精确匹配。

2.3 更聪明的训练策略:多样化数据与 EMA 抗偏置

好的模型离不开好的“教材”。

  • 丰富的数据“食谱”: RoMa 只在 MegaDepth 数据集上训练,而 RoMa v2 则采用了包含10个不同数据集的多样化混合训练数据。这份“食谱”既有 MegaDepth、AerialMD 这样的宽基线(wide-baseline)数据集,用于提升模型对大视角变化的鲁棒性;也包含了 FlyingThings3D 这样的小基线(small-baseline)数据集,用于提升对精细动态物体的捕捉能力。

多样化的训练数据带来了肉眼可见的提升。如下图所示,相比 RoMa,RoMa v2 能够更好地捕捉动态小物体的匹配。

  • EMA 消除亚像素偏置: 团队在训练中观察到一个有趣的现象:模型的预测结果会存在一个微小但持续波动的亚像素偏置(subpixel bias)。他们发现这种偏置在训练过程中近似随机,于是想出了一个简单而有效的方法——使用权重的指数移动平均(Exponential Moving Average, EMA)。通过保存一份模型的“慢速更新”版本作为最终模型,成功消除了这种恼人的偏置。

2.4 预测不确定性:像素级协方差估计

这是 RoMa v2 的一个非常亮眼的新特性。除了预测匹配位置,它还能为每个像素测一个   的协方差矩阵,用来量化预测的不确定性。这意味着模型不仅知道“应该匹配到哪里”,还知道自己对这个预测“有多大把握”,以及误差可能出现在哪个方向。

上图直观地展示了协方差的预测效果。在右图中,作者模拟了运动模糊,可以看到模型预测出的协方差(椭圆)也相应地变大,尤其是在模糊的方向上,这说明模型准确地捕捉到了不确定性的增加。这个信息对于下游的位姿估计等任务非常宝贵。

03 实验:全方位制霸各大榜单

RoMa v2 在一系列标准测试集上与当前最先进的方法进行了正面交锋,结果堪称“屠榜”。

3.1 运行效率:速度与内存双优

首先看大家最关心的效率。在 640x640 分辨率下,RoMa v2 的吞吐量达到了 30.9 pairs/s,比 RoMa 快了 1.7 倍,同时内存占用还略有降低。相比 UFM,虽然速度稍慢,但内存占用小得多。

3.2 精度对比:新 SOTA 诞生

  • 相对位姿估计: 在 MegaDepth-1500 和 ScanNet-1500 这两个经典的位姿估计基准上,RoMa v2 的精度(以 AUC 指标衡量)均超越了包括 RoMa、UFM、LightGlue 在内的所有对手。
  • 密集匹配精度: 在更考验“像素级”能力的密集匹配任务上,RoMa v2 在 TA-WB、MegaDepth、ScanNet++ 等 6 个数据集上实现了全面领先,无论是平均端点误差(EPE)还是不同像素阈值下的正确率(PCK),都取得了最佳成绩。值得一提的是,它既在 UFM 擅长的 TA-WB 上击败了 UFM,也在 RoMa 的“主场” MegaDepth 上超越了 RoMa。

  • 跨模态与新挑战: 在极具挑战性的 WxBS(跨模态、跨视角、跨光照)和作者新推出的 SatAst(宇航员照片对卫星图)基准上,RoMa v2 也表现出了强大的泛化能力。尤其是在 SatAst 上,它以巨大优势领先,展现了在未知领域的强大潜力。

04 总结

总的来说,RoMa v2 通过一系列系统性的改进,成功地在精度、速度和鲁棒性之间找到了一个更优的平衡点,为密集特征匹配树立了新的标杆。特别是协方差预测的引入,为下游任务打开了新的想象空间。

重要的是,作者已经开源了代码,感兴趣的朋友不妨去亲自体验一下这个“更快、更强、更密集”的匹配神器。


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读8.7k
粉丝0
内容8.2k