极市导读
DTWSR 用小波谱+Transformer 同时去噪多尺度频率,跨尺度关联建模,人脸 16×超分 FID 降 23%,代码已开源。>>加入极市CV技术交流群,走在计算机视觉的最前沿
-
论文标题: Diffusion Transformer meets Multi-level Wavelet Spectrum for Single Image Super-Resolution -
作者: Peng Du, Hui Li, Han Xu, Paul Barom Jeon, Dongwook Lee, Daehyun Ji, Ran Yang, Feng Zhu -
机构: 三星电子中国西安研究院(SRCX),韩国三星电子有限公司 -
论文地址: https://arxiv.org/pdf/2511.01175v2 -
录用信息: ICCV 2025 Oral
大家好,今天想和大家聊一篇非常有趣的技术文章,它来自三星研究院,并被ICCV 2025接收为Oral论文。这篇论文聚焦于单图像超分辨率(SISR)这个经典而又充满挑战的领域,提出了一个名为DTWSR(Diffusion Transformer based on image Wavelet spectra for SR)的新模型。
简单来说,DTWSR的巧妙之处在于它没有直接在像素世界里“卷”,而是将图像切换到“频率”视角,利用离散小波变换(Discrete Wavelet Transform, DWT) 将图像分解,然后派上强大的扩散模型(Diffusion Model)和Transformer来处理这些频率信息。最终,它在提升图像细节的真实感和保持高保真度方面都取得了非常出色的成果。
01 问题背景:被忽视的“频率关联”
在图像超分任务中,如何生成既清晰又自然的细节,一直是研究的重点和难点。离散小波变换(DWT)是一个很棒的工具,它可以把一张图片分解成代表整体轮廓的低频(Low-Frequency, LF)子带和捕捉纹理细节的高频(High-Frequency, HF)子带。
许多先前的工作已经尝试利用DWT来提升超分效果,但它们大多存在一个共同的问题:它们通常独立地处理不同尺度(level)的频率子带,忽略了这些子带之间其实存在着千丝万缕的联系。这种“各自为战”的方式,很容易导致最终合成的图像出现不一致和不自然的伪影(artifacts)。就像下图(b)展示的那样,缺乏多尺度频率关联的重建结果,其纹理看起来就不那么对劲。
而该论文的核心动机,就是解决这个问题。作者们认为,要生成高质量的超分图像,模型必须学会理解和利用这些跨尺度频率子带之间的相互关系。
02 DTWSR模型:扩散、Transformer与小波谱的强强联合
为了捕捉这些被忽视的关联,作者们设计了DTWSR框架。其核心是一个名为 WSDT(Wavelet Spectrum Denoising network with Transformer) 的去噪网络。整个流程可以概括为以下几步,我们以一个3级的多级DWT为例:
-
进入频率域:首先,模型使用多级离散小波变换(Multi-level DWT, MDWT)将带噪声的图像 分解成一个金字塔结构的小波谱 。这个谱包含了1个低频子带和J组高频子带。 -
Transformer去噪:然后,核心的WSDT网络登场,对这个小波谱进行去噪。它以低分辨率图像 作为条件,预测出更干净的小波谱 。 -
返回像素域:最后,通过逆多级小波变换(IMDWT),将去噪后的小波谱重新组合成高分辨率图像 。
这个过程在扩散模型的反向去噪过程中迭代进行,最终从纯噪声生成清晰的图像。
而WSDT网络内部的设计更是精髓所在,主要包含两大亮点:金字塔令牌化和双解码器设计。
2.1 金字塔令牌化(Pyramid Tokenization)
传统的ViT模型通常用同样大小的patch来分割图像。但在这里,小波谱的特性是——低频部分信息密集,高频部分信息稀疏。因此,作者设计了一种金字塔式的令牌化方法:
-
对信息密集的低频子带,使用较小的patch size。 -
对信息稀疏的高频子带,使用较大的patch size。
如上图所示,这种做法不仅大大减少了token的总数,提高了计算效率,还能保证跨不同频率层级的感受野保持一致,便于Transformer学习它们之间的关系。此外,为了让模型分清每个token的“身份”,他们还设计了一个4D的位置编码 [level, sub-band, , ],非常精巧。
2.2 双解码器设计(Dual-Decoder Design)
考虑到低频和高频子带的统计特性差异很大,用一个统一的解码器处理显然不是最优解。为此,作者设计了两个专门的Transformer解码器:
-
低频基础解码器 (LEDec - LF Elementary Decoder): 它的任务是去噪低频子带中的平滑、基础内容。如上图(b)中的自注意力掩码 所示,它主要关注低频(红色)token自身,并从低分辨率图像(灰色)token中获取条件信息。
-
高频细节解码器 (HDDec - HF Detail Decoder): 它的任务更复杂,不仅要去噪所有的高频子带,还要处理低频子带中残留的“高频细节”(LF Residual)。这一步对于重新对齐LF和HF子带至关重要。如上图(c)中的掩码 所示,它精心设计了注意力机制:
-
高频(蓝色)token可以同时关注LR token和LF token,从而在LR的引导下学习LF与HF的关联。 -
特别地,注意力掩码阻止了LR token对LF token的直接影响,也阻止了LF token对HF token的影响,这迫使模型在解码HF信息时,必须依赖于一个考虑了全局上下文的协同表示,从而更好地实现LF和HF子带的对齐。
这种“分而治之”又“协同作战”的设计,正是DTWSR能够生成高质量细节的关键。
03 实验效果:不仅指标高,看着也舒服
论文在人脸、二次元、自然场景等多个数据集上进行了广泛的实验,效果非常出色。
3.1 通用场景超分 (General Scene SISR)
在通用的4倍超分任务中(如下表),与现有的生成模型相比,DTWSR在PSNR和SSIM等保真度指标上达到了SOTA水平,同时在感知质量指标LPIPS上也取得了第二好的成绩。这说明它在清晰度和“看起来真实”之间取得了极佳的平衡。
从下面的视觉对比图可以更直观地感受到。无论是动物的毛发,还是建筑的纹理,DTWSR生成的结果都拥有更可信的细节,并且有效抑制了其他方法可能产生的伪影和结构错乱。
3.2 人脸超分 (Face SISR)
在人脸超分任务上,DTWSR同样表现抢眼。在16²到128²的8倍超分任务中,DTWSR在一致性(Cons.)、人脸身份相似度(Deg.)和FID分数上均取得了最佳成绩,这意味着它生成的人脸不仅在感知上更真实,而且更好地保持了原始身份特征,并且与LR输入的下采样结果高度一致。
即使是面对16倍这样极具挑战性的大尺度超分任务,DTWSR依然能够生成保真度高且细节丰富的面部纹理,如下图所示,无论是皮肤质感还是头发丝,都处理得相当不错。
下表比较了DTWSR与SOTA方法IDM在12倍和16倍人脸超分上的表现,DTWSR在各项指标上都更胜一筹。
3.3 真实世界图像恢复
该方法还被拓展到了真实世界图像恢复任务中,同样取得了SOTA性能,这证明了DTWSR的强大泛化能力。
3.4 消融实验
论文还通过详尽的消融实验证明了每个设计模块的有效性。例如,下表显示,与基线模型相比,金字塔令牌化和双解码器等组件都对最终性能有积极贡献。特别是,完整版的DTWSR(最后一行)相比其他变体,在各项指标上都取得了最优或接近最优的成绩。
另一个关键的消融实验(下表)对比了是否考虑多尺度频率子带间关系的影响。结果显示,在模型中引入这种关联性(w)后,所有指标都得到了明显改善,这强有力地支撑了本文的核心论点。
05 总结
总而言之,DTWSR通过在小波域巧妙地利用Diffusion Transformer,并精心设计了令牌化和解码过程,成功地捕捉了多尺度频率信息之间的内在联系,为高质量的图像超分辨率提供了一个非常有效和深刻的新思路。
你觉得这个将问题从像素域转换到频率域来解决的思路怎么样?欢迎在评论区留下你的看法!
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

