ICCV 2025 Oral | 三星提出DTWSR：Transformer巧解小波频率难题，图像超分告别伪影

极市平台

2025-11-18

导读：↑ 点击蓝字关注极市平台作者丨我爱计算机视觉来源丨我爱计算机视觉编辑丨极市平台极市导读 DTWSR 用小波谱

↑ 点击蓝字关注极市平台

作者丨我爱计算机视觉

来源丨我爱计算机视觉

编辑丨极市平台

极市导读

DTWSR 用小波谱+Transformer 同时去噪多尺度频率，跨尺度关联建模，人脸 16×超分 FID 降 23%，代码已开源。>>加入极市CV技术交流群，走在计算机视觉的最前沿

论文标题: Diffusion Transformer meets Multi-level Wavelet Spectrum for Single Image Super-Resolution
作者: Peng Du, Hui Li, Han Xu, Paul Barom Jeon, Dongwook Lee, Daehyun Ji, Ran Yang, Feng Zhu
机构: 三星电子中国西安研究院（SRCX），韩国三星电子有限公司
论文地址: https://arxiv.org/pdf/2511.01175v2
录用信息: ICCV 2025 Oral

大家好，今天想和大家聊一篇非常有趣的技术文章，它来自三星研究院，并被ICCV 2025接收为Oral论文。这篇论文聚焦于单图像超分辨率（SISR）这个经典而又充满挑战的领域，提出了一个名为DTWSR（Diffusion Transformer based on image Wavelet spectra for SR）的新模型。

简单来说，DTWSR的巧妙之处在于它没有直接在像素世界里“卷”，而是将图像切换到“频率”视角，利用离散小波变换（Discrete Wavelet Transform, DWT） 将图像分解，然后派上强大的扩散模型（Diffusion Model）和Transformer来处理这些频率信息。最终，它在提升图像细节的真实感和保持高保真度方面都取得了非常出色的成果。

01 问题背景：被忽视的“频率关联”

在图像超分任务中，如何生成既清晰又自然的细节，一直是研究的重点和难点。离散小波变换（DWT）是一个很棒的工具，它可以把一张图片分解成代表整体轮廓的低频（Low-Frequency, LF）子带和捕捉纹理细节的高频（High-Frequency, HF）子带。

许多先前的工作已经尝试利用DWT来提升超分效果，但它们大多存在一个共同的问题：它们通常独立地处理不同尺度（level）的频率子带，忽略了这些子带之间其实存在着千丝万缕的联系。这种“各自为战”的方式，很容易导致最终合成的图像出现不一致和不自然的伪影（artifacts）。就像下图(b)展示的那样，缺乏多尺度频率关联的重建结果，其纹理看起来就不那么对劲。

而该论文的核心动机，就是解决这个问题。作者们认为，要生成高质量的超分图像，模型必须学会理解和利用这些跨尺度频率子带之间的相互关系。

02 DTWSR模型：扩散、Transformer与小波谱的强强联合

为了捕捉这些被忽视的关联，作者们设计了DTWSR框架。其核心是一个名为 WSDT（Wavelet Spectrum Denoising network with Transformer） 的去噪网络。整个流程可以概括为以下几步，我们以一个3级的多级DWT为例：

进入频率域：首先，模型使用多级离散小波变换（Multi-level DWT, MDWT）将带噪声的图像分解成一个金字塔结构的小波谱。这个谱包含了1个低频子带和J组高频子带。
Transformer去噪：然后，核心的WSDT网络登场，对这个小波谱进行去噪。它以低分辨率图像作为条件，预测出更干净的小波谱。
返回像素域：最后，通过逆多级小波变换（IMDWT），将去噪后的小波谱重新组合成高分辨率图像。

这个过程在扩散模型的反向去噪过程中迭代进行，最终从纯噪声生成清晰的图像。

而WSDT网络内部的设计更是精髓所在，主要包含两大亮点：金字塔令牌化和双解码器设计。

2.1 金字塔令牌化（Pyramid Tokenization）

传统的ViT模型通常用同样大小的patch来分割图像。但在这里，小波谱的特性是——低频部分信息密集，高频部分信息稀疏。因此，作者设计了一种金字塔式的令牌化方法：

对信息密集的低频子带，使用较小的patch size。
对信息稀疏的高频子带，使用较大的patch size。

如上图所示，这种做法不仅大大减少了token的总数，提高了计算效率，还能保证跨不同频率层级的感受野保持一致，便于Transformer学习它们之间的关系。此外，为了让模型分清每个token的“身份”，他们还设计了一个4D的位置编码 [level, sub-band, , ]，非常精巧。

2.2 双解码器设计（Dual-Decoder Design）

考虑到低频和高频子带的统计特性差异很大，用一个统一的解码器处理显然不是最优解。为此，作者设计了两个专门的Transformer解码器：

低频基础解码器 (LEDec - LF Elementary Decoder): 它的任务是去噪低频子带中的平滑、基础内容。如上图(b)中的自注意力掩码所示，它主要关注低频（红色）token自身，并从低分辨率图像（灰色）token中获取条件信息。
高频细节解码器 (HDDec - HF Detail Decoder): 它的任务更复杂，不仅要去噪所有的高频子带，还要处理低频子带中残留的“高频细节”（LF Residual）。这一步对于重新对齐LF和HF子带至关重要。如上图(c)中的掩码所示，它精心设计了注意力机制：

高频（蓝色）token可以同时关注LR token和LF token，从而在LR的引导下学习LF与HF的关联。
特别地，注意力掩码阻止了LR token对LF token的直接影响，也阻止了LF token对HF token的影响，这迫使模型在解码HF信息时，必须依赖于一个考虑了全局上下文的协同表示，从而更好地实现LF和HF子带的对齐。

这种“分而治之”又“协同作战”的设计，正是DTWSR能够生成高质量细节的关键。