清华&快手团队提出SVG：既能语义对齐，又能细节拉满，重新定义 LDM 特征提取器



清华&快手团队提出SVG：既能语义对齐，又能细节拉满，重新定义 LDM 特征提取器

极市平台

2025-12-09

↑ 点击蓝字关注极市平台

作者丨科技猛兽（未经允许不得二次转载，如有需要请私信作者）

编辑丨极市平台

极市导读

SVG 用冻结 DINO 做主特征、轻量残差分支补细节，重建-生成联合训练，ImageNet 256×256 上 5–10 步采样 FID 仍优于传统 VAE，且潜空间语义分离、scaling 不饱和。>>加入极市CV技术交流群，走在计算机视觉的最前沿

本文目录

1 SVG：不使用 VAE 的 Latent Diffusion Model
(来自 MIT：Tianhong Li, Kaiming He)
1 SVG 论文解读
1.1 VAE+Diffusion 范式的局限性
1.2 SVG：语义结构和细粒度细节兼具的 Autoencoder
1.3 实验结果

太长不看版

本文是来自清华大学，快手可灵团队的一篇工作，与 RAE 属于同期工作，思路很接近。

本文的基本方法也是针对 VAE+Diffusion 框架，提出把 VAE 替换成冻结权重的 DINO 模型。在本文中作者觉得 VAE+Diffusion 框架的主要问题是：训练效率低下，推理慢，迁移到其他任务不容易。

作者认为这个问题是由于 VAE latent spaces 的问题：缺乏明显的语义信息。

而上述性质不仅对于感知和理解任务重要，对 Latent Diffusion Model 也同样重要。

基于此，本文提出了 Self-supervised representations for Visual Generation (SVG)，使用自监督训练的视觉编码器 (比如 DINO) 来做 Latent Diffusion Model 的特征提取器。

DINO 可以提供语义清晰的 latent 特征，通过一个轻量化的残差分支完成重建。

有了这个 latent 表征，就可以在上面训练 LDM 了，且训练很高效，如下图 1 所示。

下面是对本文的详细介绍。

SVG：不使用 VAE 的 Latent Diffusion Model

论文名称：Latent Diffusion Model without Variational Autoencoder

论文地址：https://arxiv.org/pdf/2510.15301

项目主页：https://howlin-wang.github.io/svg/

01 SVG 论文解读：

1.1 VAE+Diffusion 范式的局限性

本文立足的方法还是 Latent Diffusion Model，分两个阶段：第一阶段把原始的视觉数据通过 Autoencoder 压缩到一个更加紧凑的 latent space，第二阶段再在这个 latent space 上面训练扩散模型。

VAE+Diffusion 的范式收敛速度慢：在 ImageNet 256×256 任务训练 DiT 需要 7M 步，采样需要 25 步。为了解决这个问题，一些工作比如 REPA 尝试把 DiT 中间部分特征与 DINO 对齐，另一些工作比如 Dispersive Loss 尝试在训练 Diffusion Model 的时候加正则化 Loss 作为目标函数。这些改进措施虽然有效果，但是并没有改变 VAE 提供的 latent 表征。还有一个事实是，VAE 没有被一些现代的多模态大模型使用，且 VAE 的感知能力很有限。这个缺点使得 VAE 很难作为统一 (视觉生成，感知，理解) 的视觉特征提取器。

VAE+Diffusion 这种范式把图片压缩到了低维的 latent space，作者认为这个过程学习到了一些语义结构，但是同时也忽略掉了高频细节。此外，VAE 还有个问题，即：如果训练得重建性能比较好，那一般来讲生成性能就比较差。

t-SNE 可视化分析

如图 2 所示，作者对常用的 VAE 进行了 t-SNE 分析。VA-VAE 将 latent 表征与 DINO 特征对齐。

观察图 2 可以发现，原始的 VAE latent 出现了严重的 "语义纠缠" 现象：各个类别的特征混合在一起，相互交织。

与 VFM 对齐后，则出现了明显变化：类内部更加聚拢，类间更加疏离。

图2：(上) 100 随机 ImageNet 类的 t-SNE 可视化，每类 100 个随机样本；(下) 20 随机 ImageNet 类的 t-SNE 可视化，每类 100 个随机样本

图 3 进一步通过一个 toy 实验解释这个现象：

当 latent space 的语义类别之间表现出了明显的分离现象时，我们可以看到每个类别的平均速度的方向保持一致。来自同一个类别的 latent 朝着同一个方向去移动。来自不同类别的 latent 朝明显不同的方向去移动。这个动力学特征简化了优化过程，允许少步即可采样出高质量结果。
当 latent space 的语义类别之间表现出了明显的语义纠缠时，我们可以看到每个类别的平均速度的方向出现重合，模糊不清。来自同一个类别的 latent 以及来自不同类别的 latent 的速度方向出现重合。这个动力学特征使得优化过程更为复杂，且需要更多的采样步数。

图3：左侧黑色点：source distribution，右侧点：target distribution。样本分为两个语义类别 (绿色和蓝色点)。箭头表示每个点的平均速度场的方向

结论：

这些结果说明：语义的分离对于 LDM 的训练是至关重要的。

之前，人们做生成依赖于 VAE 的部分原因是存在这样的认识，即：仅仅依靠语义信息是不足够进行高质量重建任务的。但是本文 (以及 RAE) 的结论都说明：使用现代的视觉基础模型，我们能够获得兼具语义结构以及重建能力的 latent 特征。

1.2 SVG：语义结构和细粒度细节兼具的 Autoencoder

基于以上分析，本文提出 SVG，如图 4 所示。SVG 给出的 feature space 结合了视觉基础模型的语义结构，以及高质量重建所需的细粒度细节。

图4：SVG Autoencoder 架构：使用 DINO Encoder 以及 Residual Encoder 实现高质量重建效果

SVG Encoder 设计

使用冻结参数的 DINOv3 encoder，外加一个轻量的 Residual Encoder。Residual Encoder 的作用是提供细粒度的细节，弥补 DINOv3 特征的不足。Residual Encoder 的输出与 DINOv3 的特征在 channel 维度拼接在一起。

SVG Decoder 设计

遵循 LDM 的 ViT Decoder 的设计，把 SVG 的特征映射回到像素空间。

这样得到的特征既保留了 DINO 强大的语义结构信息，也保留了感知细节信息。

图 5 中进一步说明了 Residual Encoder 的重要性，可以看到，去除 Residual Encoder 之后，重建质量显著地下降了，尤其是在色彩以及细粒度细节上。

图5：SVG 重建可视化。使用 Residual Encoder 帮助 SVG 更好地保留下了视觉信息，包括色彩和高频细节

使用 SVG 训练扩散模型

将 SVG 得到的高维度特征直接作为扩散模型的训练目标，然后使用 Flow Matching 的目标进行训练。

对于 256×256 的输入图片，DINOv3-ViT-S/16+ encoder 会得到 16×16×384 的特征。在这么高的特征维度上进行训练，由于 DINO 能够提供语义高度分离的特征，因此训练稳定。

相比于 VAE，SVG 训练收敛更快，展示出了更好的生成质量。

SVG 训练流程

训练分为两个阶段：

训练 Residual Encoder 以及 SVG Decoder，使用 Reconstruction Loss。
训练扩散模型，按照 SiT 的做法训练，同时使用 QK-Norm 稳定训练。

1.3 实验结果

这里作者强调的主要是少步生成的效果。如下图 6 所示是 ImageNet 256×256 图像生成的结果。对于 Generation-Specific 特征，在少步 (比如 25 steps) 生成时性能会急剧下降。但是 SVG-XL 的结果更好。训练 500 epochs 时，gFID w/o CFG 达到 3.94。这些结果表明 SVG 的特征对于高效训练，高效推理是友好的。

下面图 7 是 SVG Encoder 不同组件的消融实验结果。可以看到，仅仅依赖于 DINOv3 的重建结果很差。加上 Residual Encoder 之后可以大幅提升重建效果。但是，当 Residual 的特征直接与 DINO 特征拼接在一起时，会造成特征分布不均，破坏了 latent 空间的语义分散。这个特性会影响生成性能，使得 gFID 从 6.12 降到 9.03。将 Residual 特征的分布与冻结的 DINO 特征对齐，可以有效解决这个问题，在不影响重建效果的前提下，促进生成性能。

图7：SVG Encoder 消融实验结果。重建性能：40 epochs 训练，生成能力：500K iterations 训练，使用 CFG。下游任务：使用 ImageNet-1K, ADE20K, NYUv2 微调之后的结果

下图 8 是少步生成的结果以及 scaling 模型尺寸的结果。

少步生成

从图 3 的 toy experiment 能够看出来，当初始分布在语义上更加可分的时候，不同类别的平均速度的方向也分得越开；相同类别的平均速度的方向更加一致。这样的结果就是求解 ODE 的时候，即每次采样的时候，采样误差就会更小了，那么就反过来提升了少步采样的采样质量。如下图 8-(a) 所示，当步数特别少，比如 5 步或者 10 步的时候，SVG 效果好很多。