极市导读
Upsample Anything 为 ViT 等下采样 14× 的特征提出“0 训练”测试时优化:把低分辨率特征/深度/概率图一次性溅射到原图网格,在语义分割、深度估计和 Middlebury 深度上采样三项任务均达 SOTA,真正即插即用。>>加入极市CV技术交流群,走在计算机视觉的最前沿
论文信息
标题:Upsample Anything: A Simple and Hard to Beat Baseline for Feature Upsampling
作者:Minseok Seo, Mark Hamilton, Changick Kim
机构:KAIST, MIT, 微软
原文链接:https://arxiv.org/abs/2511.16301
代码链接:https://seominseok0429.github.io/Upsample-Anything/
01 导读
我们提出了“Upsample Anything”这一轻量级的测试时优化框架,该框架无需任何训练即可将低分辨率特征逐像素恢复为高分辨率输出。尽管视觉基础模型在多种下游任务中表现出强大的泛化能力,但其表示形式通常会被下采样14倍或16倍(例如ViT),这限制了它们在像素级应用中的直接使用。现有的特征上采样方法要么依赖于针对特定数据集的重新训练,要么需要复杂的隐式优化过程,从而影响了其可扩展性和泛化能力。“Upsample Anything”通过一种针对单张图像的简单优化算法解决了这些问题,该算法学习了一种能够结合空间与距离信息的各向异性高斯核函数,有效地将高斯散点采样技术与双向上采样技术结合起来。这种学习得到的核函数是一种通用的、具备边缘感知能力的运算符,能够无缝地应用于不同的架构和模态中,从而实现特征、深度或概率图的高精度高分辨率重建。该算法处理224×224尺寸的图像仅需0.419秒,并且在语义分割、深度估计以及深度与概率图的上采样任务中均取得了业界领先的性能。
02 效果展示
我们的方法能够在无需进行任何数据集级别训练的情况下实现轻量级的测试时优化,优化耗时仅为0.419秒/张图片。该方法能够无缝地应用于不同领域,并且能够保证每张图片的重建质量始终如一。(所有示例均为随机选取,而非经过刻意挑选。)
03 引言
面向像素级预测任务的现代计算机视觉系统,诸如语义分割、实例分割和全景分割或深度估计等像素级预测任务,现代计算机视觉系统常采用编码器-解码器范式。编码器从输入图像中提取层次化特征,这些特征能够捕捉语义抽象信息;解码器则从这些特征中重建出密集的、针对特定任务的预测结果,例如在原始空间分辨率下的类别图、深度图或光流图。
大规模自监督学习领域的最新进展引入了被称为视觉基础模型(Vision Foundation Models,VFMs)的通用编码器,这些模型可作为各种下游任务的通用主干网络。这一范式转变催生了诸如DINO、CLIP、SigLIP和MAE等视觉基础模型,它们仅需进行极少的针对特定任务的微调,就能提供可迁移且语义丰富的特征。
通过将编码器与下游任务解耦,这些基础模型显著降低了适应不同任务所需的数据和训练成本,同时在跨领域场景中保持了强大的泛化能力。然而,尽管具备这些优势,高性能的像素级系统仍需要大型且复杂的解码器,如DPT、UPerNet或SegFormer,以便从低分辨率特征中恢复空间细节。在视觉Transformer架构中,基础特征通常会被下采样14-16倍;在基于卷积神经网络(CNN)的主干网络中,则通过多个池化阶段实现等效的下采样。因此,这些特征缺乏细粒度的空间信息,迫使解码器依赖计算成本高、内存占用大且往往难以推广到新架构或分辨率的重型上采样网络。
为解决这一分辨率差距问题,越来越多的研究探索了特征上采样方法,旨在在不修改编码器的情况下,恢复预训练表示中的空间细节。这些方法学习一个上采样算子,将低分辨率的基础特征映射到更高分辨率,从而在下游解码器之前有效弥合语义-空间差距。通过这种方式,即使仅使用单个1×1卷积解码器,它们也能在各种像素级任务中实现出色的性能。
根据上采样器的优化方式,特征上采样方法大致可分为两种范式:(a) 数据集级训练和(b) 测试时优化(Test-Time Optimization,TTO),如图2所示。在数据集级训练范式中,特征上采样器通过在目标数据集上进行训练,要么使用如SAM等方法生成伪标签进行零样本监督,要么采用多视图训练目标。
尽管这种方法能泛化到某些未见数据,但仍需进行数据集级训练,这意味着每当主干网络架构或目标数据集发生变化时,上采样器都必须重新训练。此外,由于内存占用大,大多数训练好的上采样器仅能处理分辨率最高为112–224像素的图像。测试时优化范式以FeatUp(Implicit)等方法为代表,通过在推理时直接针对每个测试图像优化特征上采样器,避免了数据集级训练。尽管这消除了离线训练的需求,但每幅图像的优化过程计算成本高昂,对于224像素大小的图像,平均需要49秒才能收敛。
04 主要贡献
我们提出了“上采样万物”(Upsample Anything),这是一种用于特征上采样的测试时优化(TTO)框架,如图2-(b)所示。与以往需要数据集级训练的方法不同,它执行轻量级的每图像优化,处理224像素大小的图像仅需约0.419秒。给定一幅输入图像,“上采样万物”将RGB引导图像调整大小以匹配低分辨率(LR)特征图尺寸,通过优化重建高分辨率(HR)彩色图像,并学习像素级的各向异性高斯参数——(σx, σy, θ, σr)——这些参数定义了一个连续的空间-范围喷溅核。然后,将这些优化后的核应用于基础编码器生成的低分辨率特征图,生成与原始图像网格对齐的高分辨率特征图。尽管优化过程仅由颜色重建引导,但学习到的核隐式地捕捉了几何和语义信息。
因此,“上采样万物”不仅能增强2D特征分辨率,还能无需重新训练即可推广到其他像素级或体素级信号(如深度、分割,甚至3D表示)。这一特性凸显了其作为2D和3D领域统一、轻量级且无分辨率限制的上采样算子的潜力。尽管无需数据集级训练,它在多个像素级基准测试(包括语义分割和深度估计)上始终达到或接近最先进(SOTA)性能。
05 方法
如图3所示,我们的方法“上采样万物”包括两个阶段:(i) 测试时优化(TTO)和(ii) 特征渲染。在TTO阶段,“上采样万物”通过从其分块下采样版本Ilr重建高分辨率图像Ihr,学习每个像素的各向异性高斯参数{σx, σy, θ, σr}。这一过程使每个像素能够学习如何在空间和光度上相似地融合相邻像素,从而有效地发现超出图像域的局部混合权重。一旦优化完成,这些高斯核将直接转移到基础特征空间,其中低分辨率特征图通过相同的各向异性加权机制喷溅,生成高分辨率特征。
由于喷溅权重仅取决于空间-范围相似性,这种转移自然具有领域无关性,使学习到的核能够作为通用上采样算子。排除视觉基础模型(VFM)的特征提取时间,对224×224图像的整个优化和推理过程仅需约0.419秒。
06 实验结果
为进行公平比较,我们采用传统的线性探测协议,其中先前的工作仅对1×1卷积头进行10个周期的微调。然而,我们发现这种浅层训练计划往往训练不足。因此,我们将训练延长至100个周期,并应用余弦学习率调度,以逐渐降低头部的学习率。在这种设置下,我们在表1中的结果显示出与先前报告不同的趋势:尽管所有方法收敛迅速,但当主干表示能力较强时,它们相对于简单双线性上采样的最终增益有限。这引发了一个问题:在高容量主干下,特征上采样对语义分割有多大帮助。尽管如此,我们提出的“上采样万物”在COCO、PASCALVOC和ADE20K数据集上均取得了最佳准确率,AnyUp始终位居第二。
“上采样万物”(概率版)。除了对特征图进行上采样外,我们还评估了一种低计算量变体,该变体在特征分辨率下预测分割(不进行特征上采样),生成概率图,然后使用我们的方法将概率上采样到原始图像大小。由于对数几率/概率位于小得多的空间网格上,这一流程实现了最低的计算成本,同时在表1中达到了最高准确率。
这表明了一种有前景的分割范式:对任务概率而非中间特征进行上采样。
深度估计 我们在NYUv2数据集上使用冻结的DINOv2主干网络评估我们的方法。遵循先前的工作(AnyUp,LoftUp),我们采用轻量级DPT风格解码头进行密集预测(详细信息见附录)。与原始DPT不同,我们的“上采样万物”移除了内部插值层,因为特征图已经上采样到高分辨率。如表2所示,“上采样万物”在深度和表面法线估计(均方根误差RMSE 0.498,δ1 0.829,平均21.5°)上均取得了最佳性能,表明精确的特征上采样对面向几何的任务特别有益,而LoftUp则因领域差距而无法泛化。这表明,特征上采样在深度和表面法线估计中的作用比在语义分割中更为关键。
深度图上采样 与特征上采样任务不同,我们的“上采样万物”还可应用于其他模态,如原始深度图。在表3中,我们通过将高分辨率深度图下采样至32×32并恢复至512×52分辨率来评估“上采样万物”。这一设置与我们的特征实验共享相同的双边上采样流程,只是低分辨率输入本身就是深度图。我们与最先进的引导插值方法(GLU)[21]和双线性基线进行了比较。如图4所示,“上采样万物”在Middlebury数据集上取得了最佳性能,生成了更清晰、更一致的结构。
相比之下,在NYUv2数据集上,双线性方法产生了略低的均方根误差(0.159 vs. 0.237),这可能是因为真实深度图模糊且包含更平滑的结构。尽管如此,定性结果表明,“上采样万物”更有效地保留了几何信息,特别是对于高频和边缘主导的区域。
07 总结 & 未来工作
我们提出了“上采样万物”,这是一个统一框架,在连续公式下结合了联合双边上采样(JBU)和高斯喷溅(GS)。它执行轻量级的测试时优化,无需预训练或架构约束,实现了跨不同分辨率和领域的高效且鲁棒的上采样。它能在0.419秒内优化一幅224×224图像,同时在特征和深度上采样方面均取得显著增益。广泛实验表明,“上采样万物”无需任何可学习模块即可达到最先进性能,作为一个通用、即插即用的框架,结合了JBU的简洁性和高斯表示的表现力。局限性。尽管具有通用性,“上采样万物”在严重遮挡或低信噪比引导下可能面临挑战,此时优化变得不稳定。未来工作将专注于增强框架在各种领域的鲁棒性和适应性,旨在使其在更具挑战性的条件下更具韧性。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

