极市导读
本文提出“迁移 VAE 训练”策略,把 Stable Diffusion 的 8× 下采样 VAE 无损替换为 4× 版本,既保留与预训练 UNet 的兼容,又显著提升了文字、纹理等精细结构的还原度,且算力更低。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
基于Stable Diffusion(SD)的图像超分辨率(Super-resolution)技术已取得惊人效果,但它们普遍存在一个痛点:由于SD模型内置的VAE(变分自编码器)采用了高达8倍的激进下采样率,导致其在重建图像的精细结构(如微小文字、复杂纹理)时表现不佳,细节模糊。
为了解决这一问题,来自香港理工大学和OPPO研究院的研究者们提出了一种创新的“迁移VAE训练”(Transfer VAE Training, TVT)策略。该方法巧妙地将高倍率下采样VAE“迁移”为低倍率版本,并使其与预训练的SD模型无缝衔接,在显著提升精细结构还原度的同时,甚至比当前顶尖的单步扩散模型计算量更小。该工作已被计算机视觉顶会ICCV 2025接收。
-
论文标题: Fine-structure Preserved Real-world Image Super-resolution via Transfer VAE Training -
作者: Qiaosi Yi, Shuai Li, Rongyuan Wu, Lingchen Sun, Yuhui Wu, Lei Zhang -
机构: 香港理工大学;OPPO研究院 -
论文地址: https://arxiv.org/pdf/2507.20291v1 -
项目地址: https://github.com/Joyies/TVT -
录用会议: ICCV 2025
研究背景与意义
真实世界图像超分辨率(Real-world Image Super-resolution, Real-ISR)旨在从低质量、含真实退化的图像中恢复出高清晰度的图像。近年来,强大的预训练生成模型,特别是Stable Diffusion,被广泛用于此任务并取得了巨大成功。
然而,成功背后也有限制。SD模型的工作流程依赖于一个VAE,它首先将高分辨率图像压缩(编码)到一个紧凑的潜在空间(latent space),然后由核心的UNet网络在这个低维空间中进行去噪和内容生成,最后再由VAE解码回图像空间。问题在于,SD v1/v2中使用的VAE会将图像尺寸缩小8倍,这个过程会不可避免地丢失大量精细信息。这就好比为了节省运输空间,先把一个精密仪器拆成几个大块,运输后再组装,很多小零件就丢了。
一个直观的解决方案是换用一个下采样率更低的VAE,比如4倍。但这会带来两个新挑战:1)新的VAE产生的潜在特征与预训练好的、耗费大量资源训练的UNet无法匹配;2) 在更高分辨率的潜在空间上运行UNet会急剧增加计算成本。
TVT:巧妙的VAE“迁移”与适配
为了解决上述挑战,研究者提出了核心方法——迁移VAE训练 (TVT)。其目标是将一个标准的8倍下采样VAE(VAE-D8)平滑地迁移到一个新的4倍下采样VAE(VAE-D4),并保证后者能与原有的UNet协同工作。
TVT策略分为两步:
-
训练4倍解码器(Decoder):首先,研究者固定原始VAE-D8的编码器,用其输出的潜在特征作为输入,来训练一个新的4倍解码器(VAE-D4 Decoder)。训练目标是让这个新解码器能够高质量地将来自原始潜在空间的特征重建为图像。这一步确保了新的解码器理解并兼容原始SD模型的“语言”。 -
训练4倍编码器(Encoder):随后,固定上一步训练好的新解码器,再来训练一个4倍编码器(VAE-D4 Encoder)。训练目标是让这个新编码器能够将图像正确地映射到新解码器所对应的潜在空间。
通过这两步,新训练的VAE-D4便实现了与原始VAE潜在空间的对齐,可以无缝替换原有的VAE-D8,同时由于下采样率降低,保留了更多图像细节。
此外,为了控制计算成本,研究者还对网络结构进行了优化,设计了更紧凑的VAE和计算高效的UNet(CE-UNet),在保证性能的同时减少了参数量和计算量。
从下表的重建性能对比可以看出,新设计的VAE-D4在各项指标上均优于原始的VAE-D8。
实验结果与分析
研究者将他们的方法与多种顶尖的Real-ISR方法进行了广泛比较,包括基于SD的方法和其他类型的超分方法。
视觉效果对比:
从下图的视觉对比中可以清晰地看到,无论是在文字重建还是纹理细节恢复上,TVT方法都显著优于其他基于SD的方法(如SeeSR, DiffBIR)。其他方法生成的文字往往模糊不清、无法辨认,而TVT则能生成清晰、锐利的边缘和结构。
量化指标与计算效率:
在量化指标上,TVT同样表现出色。下表显示,在多个真实世界超分数据集上,TVT在常用的LPIPS、DISTS等感知指标上取得了最佳或次佳的成绩。
更重要的是,TVT在效率上实现了突破。如下表所示,与当前最先进的单步扩散模型SeeSR相比,TVT的FLOPs(浮点运算次数)要少得多,证明了其在提升图像质量的同时,也兼顾了计算效率。
消融实验:
为了验证TVT策略的有效性,研究者进行了消融研究。结果表明,相比于从头开始训练一个新的VAE-D4或者直接微调,TVT策略能够取得最好的性能,证明了其设计的合理性。
当然,该方法也存在一些局限性,例如当图像中的精细结构退化得过于严重时,恢复效果会面临挑战。
论文贡献与价值
本文的核心贡献在于:
-
提出了TVT策略:一种新的迁移训练方法,用于在保留与预训练UNet兼容性的同时,将高下采样率的VAE转换为低下采样率版本。 -
显著提升细节恢复能力:有效解决了现有基于SD的超分方法在精细结构(如文字、纹理)上重建效果差的问题。 -
兼顾性能与效率:通过TVT和网络结构优化,实现了比SOTA方法更高的效率和更强的性能。 -
开源贡献:作者开源了代码,方便社区进行复现和进一步研究。
这项工作为如何利用和改进现有的大型预训练模型(如Stable Diffusion)来完成下游任务提供了一个非常好的范例,展示了在不牺牲原有模型强大能力的基础上,通过巧妙的“外科手术式”改造来解决特定痛点的可能性。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

