ICCV 2025 | TVT：迁移VAE训练，让Stable Diffusion超分模型看清“精细结构”

极市平台

2025-07-30

↑ 点击蓝字关注极市平台

来源丨我爱计算机视觉

编辑丨极市平台

极市导读

本文提出“迁移 VAE 训练”策略，把 Stable Diffusion 的 8× 下采样 VAE 无损替换为 4× 版本，既保留与预训练 UNet 的兼容，又显著提升了文字、纹理等精细结构的还原度，且算力更低。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

基于Stable Diffusion（SD）的图像超分辨率（Super-resolution）技术已取得惊人效果，但它们普遍存在一个痛点：由于SD模型内置的VAE（变分自编码器）采用了高达8倍的激进下采样率，导致其在重建图像的精细结构（如微小文字、复杂纹理）时表现不佳，细节模糊。

为了解决这一问题，来自香港理工大学和OPPO研究院的研究者们提出了一种创新的“迁移VAE训练”（Transfer VAE Training, TVT）策略。该方法巧妙地将高倍率下采样VAE“迁移”为低倍率版本，并使其与预训练的SD模型无缝衔接，在显著提升精细结构还原度的同时，甚至比当前顶尖的单步扩散模型计算量更小。该工作已被计算机视觉顶会ICCV 2025接收。

论文标题: Fine-structure Preserved Real-world Image Super-resolution via Transfer VAE Training
作者: Qiaosi Yi, Shuai Li, Rongyuan Wu, Lingchen Sun, Yuhui Wu, Lei Zhang
机构: 香港理工大学；OPPO研究院
论文地址: https://arxiv.org/pdf/2507.20291v1
项目地址: https://github.com/Joyies/TVT
录用会议: ICCV 2025

研究背景与意义

真实世界图像超分辨率（Real-world Image Super-resolution, Real-ISR）旨在从低质量、含真实退化的图像中恢复出高清晰度的图像。近年来，强大的预训练生成模型，特别是Stable Diffusion，被广泛用于此任务并取得了巨大成功。

然而，成功背后也有限制。SD模型的工作流程依赖于一个VAE，它首先将高分辨率图像压缩（编码）到一个紧凑的潜在空间（latent space），然后由核心的UNet网络在这个低维空间中进行去噪和内容生成，最后再由VAE解码回图像空间。问题在于，SD v1/v2中使用的VAE会将图像尺寸缩小8倍，这个过程会不可避免地丢失大量精细信息。这就好比为了节省运输空间，先把一个精密仪器拆成几个大块，运输后再组装，很多小零件就丢了。

一个直观的解决方案是换用一个下采样率更低的VAE，比如4倍。但这会带来两个新挑战：1）新的VAE产生的潜在特征与预训练好的、耗费大量资源训练的UNet无法匹配；2) 在更高分辨率的潜在空间上运行UNet会急剧增加计算成本。

TVT：巧妙的VAE“迁移”与适配

为了解决上述挑战，研究者提出了核心方法——迁移VAE训练 (TVT)。其目标是将一个标准的8倍下采样VAE（VAE-D8）平滑地迁移到一个新的4倍下采样VAE（VAE-D4），并保证后者能与原有的UNet协同工作。

TVT策略分为两步：

训练4倍解码器（Decoder）：首先，研究者固定原始VAE-D8的编码器，用其输出的潜在特征作为输入，来训练一个新的4倍解码器（VAE-D4 Decoder）。训练目标是让这个新解码器能够高质量地将来自原始潜在空间的特征重建为图像。这一步确保了新的解码器理解并兼容原始SD模型的“语言”。
训练4倍编码器（Encoder）：随后，固定上一步训练好的新解码器，再来训练一个4倍编码器（VAE-D4 Encoder）。训练目标是让这个新编码器能够将图像正确地映射到新解码器所对应的潜在空间。

通过这两步，新训练的VAE-D4便实现了与原始VAE潜在空间的对齐，可以无缝替换原有的VAE-D8，同时由于下采样率降低，保留了更多图像细节。

此外，为了控制计算成本，研究者还对网络结构进行了优化，设计了更紧凑的VAE和计算高效的UNet（CE-UNet），在保证性能的同时减少了参数量和计算量。