大数跨境
0
0

清华&快手团队提出SVG:既能语义对齐,又能细节拉满,重新定义 LDM 特征提取器

清华&快手团队提出SVG:既能语义对齐,又能细节拉满,重新定义 LDM 特征提取器 极市平台
2025-12-09
2
↑ 点击蓝字 关注极市平台
作者丨科技猛兽(未经允许不得二次转载,如有需要请私信作者)
编辑丨极市平台

极市导读

 

SVG 用冻结 DINO 做主特征、轻量残差分支补细节,重建-生成联合训练,ImageNet 256×256 上 5–10 步采样 FID 仍优于传统 VAE,且潜空间语义分离、scaling 不饱和。>>加入极市CV技术交流群,走在计算机视觉的最前沿

本文目录

1 SVG:不使用 VAE 的 Latent Diffusion Model
(来自 MIT:Tianhong Li, Kaiming He)
1 SVG 论文解读
1.1 VAE+Diffusion 范式的局限性
1.2 SVG:语义结构和细粒度细节兼具的 Autoencoder
1.3 实验结果

太长不看版

本文是来自清华大学,快手可灵团队的一篇工作,与 RAE 属于同期工作,思路很接近。

本文的基本方法也是针对 VAE+Diffusion 框架,提出把 VAE 替换成冻结权重的 DINO 模型。在本文中作者觉得 VAE+Diffusion 框架的主要问题是:训练效率低下,推理慢,迁移到其他任务不容易。

作者认为这个问题是由于 VAE latent spaces 的问题:缺乏明显的语义信息。

而上述性质不仅对于感知和理解任务重要,对 Latent Diffusion Model 也同样重要。

基于此,本文提出了 Self-supervised representations for Visual Generation (SVG),使用自监督训练的视觉编码器 (比如 DINO) 来做 Latent Diffusion Model 的特征提取器。

DINO 可以提供语义清晰的 latent 特征,通过一个轻量化的残差分支完成重建。

有了这个 latent 表征,就可以在上面训练 LDM 了,且训练很高效,如下图 1 所示。

图1:(a) 方法对比。(b) 训练和推理效率对比

下面是对本文的详细介绍。

SVG:不使用 VAE 的 Latent Diffusion Model

论文名称:Latent Diffusion Model without Variational Autoencoder

论文地址:https://arxiv.org/pdf/2510.15301

项目主页:https://howlin-wang.github.io/svg/

01 SVG 论文解读:

1.1 VAE+Diffusion 范式的局限性

本文立足的方法还是 Latent Diffusion Model,分两个阶段:第一阶段把原始的视觉数据通过 Autoencoder 压缩到一个更加紧凑的 latent space,第二阶段再在这个 latent space 上面训练扩散模型。

VAE+Diffusion 的范式收敛速度慢:在 ImageNet 256×256 任务训练 DiT 需要 7M 步,采样需要 25 步。为了解决这个问题,一些工作比如 REPA 尝试把 DiT 中间部分特征与 DINO 对齐,另一些工作比如 Dispersive Loss 尝试在训练 Diffusion Model 的时候加正则化 Loss 作为目标函数。这些改进措施虽然有效果,但是并没有改变 VAE 提供的 latent 表征。还有一个事实是,VAE 没有被一些现代的多模态大模型使用,且 VAE 的感知能力很有限。这个缺点使得 VAE 很难作为统一 (视觉生成,感知,理解) 的视觉特征提取器。

VAE+Diffusion 这种范式把图片压缩到了低维的 latent space,作者认为这个过程学习到了一些语义结构,但是同时也忽略掉了高频细节。此外,VAE 还有个问题,即:如果训练得重建性能比较好,那一般来讲生成性能就比较差。

t-SNE 可视化分析

如图 2 所示,作者对常用的 VAE 进行了 t-SNE 分析。VA-VAE 将 latent 表征与 DINO 特征对齐。

观察图 2 可以发现,原始的 VAE latent 出现了严重的 "语义纠缠" 现象:各个类别的特征混合在一起,相互交织。

与 VFM 对齐后,则出现了明显变化:类内部更加聚拢,类间更加疏离。

图2:(上) 100 随机 ImageNet 类的 t-SNE 可视化,每类 100 个随机样本;(下) 20 随机 ImageNet 类的 t-SNE 可视化,每类 100 个随机样本

图 3 进一步通过一个 toy 实验解释这个现象:

  • 当 latent space 的语义类别之间表现出了明显的分离现象时,我们可以看到每个类别的平均速度的方向保持一致。来自同一个类别的 latent 朝着同一个方向去移动。来自不同类别的 latent 朝明显不同的方向去移动。这个动力学特征简化了优化过程,允许少步即可采样出高质量结果。
  • 当 latent space 的语义类别之间表现出了明显的语义纠缠时,我们可以看到每个类别的平均速度的方向出现重合,模糊不清。来自同一个类别的 latent 以及来自不同类别的 latent 的速度方向出现重合。这个动力学特征使得优化过程更为复杂,且需要更多的采样步数。
图3:左侧黑色点:source distribution,右侧点:target distribution。样本分为两个语义类别 (绿色和蓝色点)。箭头表示每个点的平均速度场的方向

结论:

这些结果说明:语义的分离对于 LDM 的训练是至关重要的

之前,人们做生成依赖于 VAE 的部分原因是存在这样的认识,即:仅仅依靠语义信息是不足够进行高质量重建任务的。但是本文 (以及 RAE) 的结论都说明:使用现代的视觉基础模型,我们能够获得兼具语义结构以及重建能力的 latent 特征。

1.2 SVG:语义结构和细粒度细节兼具的 Autoencoder

基于以上分析,本文提出 SVG,如图 4 所示。SVG 给出的 feature space 结合了视觉基础模型的语义结构,以及高质量重建所需的细粒度细节。

图4:SVG Autoencoder 架构:使用 DINO Encoder 以及 Residual Encoder 实现高质量重建效果

SVG Encoder 设计

使用冻结参数的 DINOv3 encoder,外加一个轻量的 Residual Encoder。Residual Encoder 的作用是提供细粒度的细节,弥补 DINOv3 特征的不足。Residual Encoder 的输出与 DINOv3 的特征在 channel 维度拼接在一起。

SVG Decoder 设计

遵循 LDM 的 ViT Decoder 的设计,把 SVG 的特征映射回到像素空间。

这样得到的特征既保留了 DINO 强大的语义结构信息,也保留了感知细节信息。

图 5 中进一步说明了 Residual Encoder 的重要性,可以看到,去除 Residual Encoder 之后,重建质量显著地下降了,尤其是在色彩以及细粒度细节上。

图5:SVG 重建可视化。使用 Residual Encoder 帮助 SVG 更好地保留下了视觉信息,包括色彩和高频细节

使用 SVG 训练扩散模型

将 SVG 得到的高维度特征直接作为扩散模型的训练目标,然后使用 Flow Matching 的目标进行训练。

对于 256×256 的输入图片,DINOv3-ViT-S/16+ encoder 会得到 16×16×384 的特征。在这么高的特征维度上进行训练,由于 DINO 能够提供语义高度分离的特征,因此训练稳定。

相比于 VAE,SVG 训练收敛更快,展示出了更好的生成质量。

SVG 训练流程

训练分为两个阶段:

  1. 训练 Residual Encoder 以及 SVG Decoder,使用 Reconstruction Loss。
  2. 训练扩散模型,按照 SiT 的做法训练,同时使用 QK-Norm 稳定训练。

1.3 实验结果

这里作者强调的主要是少步生成的效果。如下图 6 所示是 ImageNet 256×256 图像生成的结果。对于 Generation-Specific 特征,在少步 (比如 25 steps) 生成时性能会急剧下降。但是 SVG-XL 的结果更好。训练 500 epochs 时,gFID w/o CFG 达到 3.94。这些结果表明 SVG 的特征对于高效训练,高效推理是友好的。

图6:ImageNet 256×256 结果对比

下面图 7 是 SVG Encoder 不同组件的消融实验结果。可以看到,仅仅依赖于 DINOv3 的重建结果很差。加上 Residual Encoder 之后可以大幅提升重建效果。但是,当 Residual 的特征直接与 DINO 特征拼接在一起时,会造成特征分布不均,破坏了 latent 空间的语义分散。这个特性会影响生成性能,使得 gFID 从 6.12 降到 9.03。将 Residual 特征的分布与冻结的 DINO 特征对齐,可以有效解决这个问题,在不影响重建效果的前提下,促进生成性能。

图7:SVG Encoder 消融实验结果。重建性能:40 epochs 训练,生成能力:500K iterations 训练,使用 CFG。下游任务:使用 ImageNet-1K, ADE20K, NYUv2 微调之后的结果

下图 8 是少步生成的结果以及 scaling 模型尺寸的结果。

少步生成

从图 3 的 toy experiment 能够看出来,当初始分布在语义上更加可分的时候,不同类别的平均速度的方向也分得越开;相同类别的平均速度的方向更加一致。这样的结果就是求解 ODE 的时候,即每次采样的时候,采样误差就会更小了,那么就反过来提升了少步采样的采样质量。如下图 8-(a) 所示,当步数特别少,比如 5 步或者 10 步的时候,SVG 效果好很多。

图8:少步生成的结果以及 scaling 模型尺寸的结果。训练 80 epochs 的 FID 结果。SD:SD-VAE,VA:VA-VAE

Scaling 模型尺寸

如图 8-(b) 所示,在模型 scaling 到不同尺寸时,SVG 总可以获得更好的结果。而且,SVG 相比于 SD 的提升,在不同模型尺寸下表现稳定,在 675M 量级下没有饱和的迹象。这说明 SVG 提供的特征允许扩散模型高效地缩放。

图 9 对比了不同 Encoder 的重建性能。SigLIP2 的重建质量很差。MAE 的重建质量很好。DINO 的重建质量一般,有了 SVG 的 Residual Encoder 来帮助捕捉细粒度的细节,重建质量得以大幅提升。

图9:不同 Encoder 和特征空间对比

那么 SVG 的优势在于,它在维持住了重建性能的同时,也保留了 DINO 的语义表征能力,使其很适合作为统一特征空间的基础模型。

图 10 是 Zero-shot image editing 实验结果。SVG 可以产生连贯的,遵循目标类别的编辑效果,同时非编辑区域保持一致。

图10:Zero-shot class-conditioned editing 结果


公众号后台回复“极市直播”获取100+期极市技术直播回放+PPT


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

极市平台签约作者#


科技猛兽

知乎:科技猛兽


清华大学自动化系19级硕士

研究领域:AI边缘计算 (Efficient AI with Tiny Resource):专注模型压缩,搜索,量化,加速,加法网络,以及它们与其他任务的结合,更好地服务于端侧设备。


作品精选

搞懂 Vision Transformer 原理和代码,看这篇技术综述就够了
用Pytorch轻松实现28个视觉Transformer,开源库 timm 了解一下!(附代码解读)
轻量高效!清华智能计算实验室开源基于PyTorch的视频 (图片) 去模糊框架SimDeblur



投稿方式:
添加小编微信Fengcall(微信号:fengcall19),备注:姓名-投稿
△长按添加极市平台小编

觉得有用麻烦给个在看啦~  

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读7.6k
粉丝0
内容8.2k