极市导读
SVG 用冻结 DINO 做主特征、轻量残差分支补细节,重建-生成联合训练,ImageNet 256×256 上 5–10 步采样 FID 仍优于传统 VAE,且潜空间语义分离、scaling 不饱和。>>加入极市CV技术交流群,走在计算机视觉的最前沿
本文目录
1 SVG:不使用 VAE 的 Latent Diffusion Model
(来自 MIT:Tianhong Li, Kaiming He)
1 SVG 论文解读
1.1 VAE+Diffusion 范式的局限性
1.2 SVG:语义结构和细粒度细节兼具的 Autoencoder
1.3 实验结果
太长不看版
本文是来自清华大学,快手可灵团队的一篇工作,与 RAE 属于同期工作,思路很接近。
本文的基本方法也是针对 VAE+Diffusion 框架,提出把 VAE 替换成冻结权重的 DINO 模型。在本文中作者觉得 VAE+Diffusion 框架的主要问题是:训练效率低下,推理慢,迁移到其他任务不容易。
作者认为这个问题是由于 VAE latent spaces 的问题:缺乏明显的语义信息。
而上述性质不仅对于感知和理解任务重要,对 Latent Diffusion Model 也同样重要。
基于此,本文提出了 Self-supervised representations for Visual Generation (SVG),使用自监督训练的视觉编码器 (比如 DINO) 来做 Latent Diffusion Model 的特征提取器。
DINO 可以提供语义清晰的 latent 特征,通过一个轻量化的残差分支完成重建。
有了这个 latent 表征,就可以在上面训练 LDM 了,且训练很高效,如下图 1 所示。
下面是对本文的详细介绍。
SVG:不使用 VAE 的 Latent Diffusion Model
论文名称:Latent Diffusion Model without Variational Autoencoder
论文地址:https://arxiv.org/pdf/2510.15301
项目主页:https://howlin-wang.github.io/svg/
01 SVG 论文解读:
1.1 VAE+Diffusion 范式的局限性
本文立足的方法还是 Latent Diffusion Model,分两个阶段:第一阶段把原始的视觉数据通过 Autoencoder 压缩到一个更加紧凑的 latent space,第二阶段再在这个 latent space 上面训练扩散模型。
VAE+Diffusion 的范式收敛速度慢:在 ImageNet 256×256 任务训练 DiT 需要 7M 步,采样需要 25 步。为了解决这个问题,一些工作比如 REPA 尝试把 DiT 中间部分特征与 DINO 对齐,另一些工作比如 Dispersive Loss 尝试在训练 Diffusion Model 的时候加正则化 Loss 作为目标函数。这些改进措施虽然有效果,但是并没有改变 VAE 提供的 latent 表征。还有一个事实是,VAE 没有被一些现代的多模态大模型使用,且 VAE 的感知能力很有限。这个缺点使得 VAE 很难作为统一 (视觉生成,感知,理解) 的视觉特征提取器。
VAE+Diffusion 这种范式把图片压缩到了低维的 latent space,作者认为这个过程学习到了一些语义结构,但是同时也忽略掉了高频细节。此外,VAE 还有个问题,即:如果训练得重建性能比较好,那一般来讲生成性能就比较差。
t-SNE 可视化分析
如图 2 所示,作者对常用的 VAE 进行了 t-SNE 分析。VA-VAE 将 latent 表征与 DINO 特征对齐。
观察图 2 可以发现,原始的 VAE latent 出现了严重的 "语义纠缠" 现象:各个类别的特征混合在一起,相互交织。
与 VFM 对齐后,则出现了明显变化:类内部更加聚拢,类间更加疏离。
图 3 进一步通过一个 toy 实验解释这个现象:
-
当 latent space 的语义类别之间表现出了明显的分离现象时,我们可以看到每个类别的平均速度的方向保持一致。来自同一个类别的 latent 朝着同一个方向去移动。来自不同类别的 latent 朝明显不同的方向去移动。这个动力学特征简化了优化过程,允许少步即可采样出高质量结果。 -
当 latent space 的语义类别之间表现出了明显的语义纠缠时,我们可以看到每个类别的平均速度的方向出现重合,模糊不清。来自同一个类别的 latent 以及来自不同类别的 latent 的速度方向出现重合。这个动力学特征使得优化过程更为复杂,且需要更多的采样步数。
结论:
这些结果说明:语义的分离对于 LDM 的训练是至关重要的。
之前,人们做生成依赖于 VAE 的部分原因是存在这样的认识,即:仅仅依靠语义信息是不足够进行高质量重建任务的。但是本文 (以及 RAE) 的结论都说明:使用现代的视觉基础模型,我们能够获得兼具语义结构以及重建能力的 latent 特征。
1.2 SVG:语义结构和细粒度细节兼具的 Autoencoder
基于以上分析,本文提出 SVG,如图 4 所示。SVG 给出的 feature space 结合了视觉基础模型的语义结构,以及高质量重建所需的细粒度细节。
SVG Encoder 设计
使用冻结参数的 DINOv3 encoder,外加一个轻量的 Residual Encoder。Residual Encoder 的作用是提供细粒度的细节,弥补 DINOv3 特征的不足。Residual Encoder 的输出与 DINOv3 的特征在 channel 维度拼接在一起。
SVG Decoder 设计
遵循 LDM 的 ViT Decoder 的设计,把 SVG 的特征映射回到像素空间。
这样得到的特征既保留了 DINO 强大的语义结构信息,也保留了感知细节信息。
图 5 中进一步说明了 Residual Encoder 的重要性,可以看到,去除 Residual Encoder 之后,重建质量显著地下降了,尤其是在色彩以及细粒度细节上。
使用 SVG 训练扩散模型
将 SVG 得到的高维度特征直接作为扩散模型的训练目标,然后使用 Flow Matching 的目标进行训练。
对于 256×256 的输入图片,DINOv3-ViT-S/16+ encoder 会得到 16×16×384 的特征。在这么高的特征维度上进行训练,由于 DINO 能够提供语义高度分离的特征,因此训练稳定。
相比于 VAE,SVG 训练收敛更快,展示出了更好的生成质量。
SVG 训练流程
训练分为两个阶段:
-
训练 Residual Encoder 以及 SVG Decoder,使用 Reconstruction Loss。 -
训练扩散模型,按照 SiT 的做法训练,同时使用 QK-Norm 稳定训练。
1.3 实验结果
这里作者强调的主要是少步生成的效果。如下图 6 所示是 ImageNet 256×256 图像生成的结果。对于 Generation-Specific 特征,在少步 (比如 25 steps) 生成时性能会急剧下降。但是 SVG-XL 的结果更好。训练 500 epochs 时,gFID w/o CFG 达到 3.94。这些结果表明 SVG 的特征对于高效训练,高效推理是友好的。
下面图 7 是 SVG Encoder 不同组件的消融实验结果。可以看到,仅仅依赖于 DINOv3 的重建结果很差。加上 Residual Encoder 之后可以大幅提升重建效果。但是,当 Residual 的特征直接与 DINO 特征拼接在一起时,会造成特征分布不均,破坏了 latent 空间的语义分散。这个特性会影响生成性能,使得 gFID 从 6.12 降到 9.03。将 Residual 特征的分布与冻结的 DINO 特征对齐,可以有效解决这个问题,在不影响重建效果的前提下,促进生成性能。
下图 8 是少步生成的结果以及 scaling 模型尺寸的结果。
少步生成
从图 3 的 toy experiment 能够看出来,当初始分布在语义上更加可分的时候,不同类别的平均速度的方向也分得越开;相同类别的平均速度的方向更加一致。这样的结果就是求解 ODE 的时候,即每次采样的时候,采样误差就会更小了,那么就反过来提升了少步采样的采样质量。如下图 8-(a) 所示,当步数特别少,比如 5 步或者 10 步的时候,SVG 效果好很多。
Scaling 模型尺寸
如图 8-(b) 所示,在模型 scaling 到不同尺寸时,SVG 总可以获得更好的结果。而且,SVG 相比于 SD 的提升,在不同模型尺寸下表现稳定,在 675M 量级下没有饱和的迹象。这说明 SVG 提供的特征允许扩散模型高效地缩放。
图 9 对比了不同 Encoder 的重建性能。SigLIP2 的重建质量很差。MAE 的重建质量很好。DINO 的重建质量一般,有了 SVG 的 Residual Encoder 来帮助捕捉细粒度的细节,重建质量得以大幅提升。
那么 SVG 的优势在于,它在维持住了重建性能的同时,也保留了 DINO 的语义表征能力,使其很适合作为统一特征空间的基础模型。
图 10 是 Zero-shot image editing 实验结果。SVG 可以产生连贯的,遵循目标类别的编辑效果,同时非编辑区域保持一致。
公众号后台回复“极市直播”获取100+期极市技术直播回放+PPT
极市干货
# 极市平台签约作者#
科技猛兽
知乎:科技猛兽
清华大学自动化系19级硕士
研究领域:AI边缘计算 (Efficient AI with Tiny Resource):专注模型压缩,搜索,量化,加速,加法网络,以及它们与其他任务的结合,更好地服务于端侧设备。
作品精选


