极市导读
本文提出了一种全新的视觉tokenizer训练思路:令 tokenizer 在潜在空间中学会去噪重建干净图像,与 downstream 的生成模型训练目标(如 diffusion 或 autoregressive)保持一致,从而提升生成质量。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
本文目录
1 l-DeTok:视觉 Tokenizer 的 Embedding 与去噪目标对齐
(来自 USC,MIT [Tianhong Li],Google DeepMind [Lijie Fan] 等)
1.1 l-DeTok 研究背景
1.2 生成式模型的训练目标
1.3 Latent Denoising Tokenizer
1.4 实验设置
1.5 主要性质
1.6 泛化性实验
1.7 与其他生成模型的系统级对比
太长不看版
把 Tokenizer 的 Embedding 直接与 "去噪" 目标对齐。
本文提出了一种用于视觉生成模型的 Tokenizer 的训练方法。尽管大家都知道 Tokenizer 对一个生成模型来讲很重要,但是我们不知道到底是什么让 Tokenizer 在生成任务里面表现更好。本文观察到现代的生成式模型的训练目标都比较相似,即都是一种 "去噪" 过程:从被破坏 (高斯噪声或者 mask) 的输入,重建清晰的数据。
基于这一点,本文提出:把 Tokenizer 的 Embedding 直接与 "去噪" 目标对齐,鼓励 Latent embedding 更容易去重建,即便是在高度破坏的状态下。
本文提出的方法叫做 Latent Denoising Tokenizer (l-DeTok),一种高效的用于视觉生成模型的 Tokenizer。l-DeTok 经过训练,可以从被破坏的 Latent embedding 来重建干净的图片。l-DeTok 在 ImageNet 256×256 实验进行了验证。
本文强调了去噪作为视觉 Tokenizer 设计的基本原则,希望能够为未来 Tokenizer 的设计提供新的观点。
1 l-DeTok:视觉 Tokenizer 的 Embedding 与去噪目标对齐
论文名称:Latent Denoising Makes Good Visual TokenizersLatent Denoising Makes Good Visual Tokenizers
论文地址:
https://arxiv.org/pdf/2507.15856
代码链接:
https://github.com/Jiawei-Yang/DeTok
1.1 l-DeTok 研究背景
现代视觉生成式模型总是在由 Tokenizer 提取出的 Latent embedding 上运作,来避免在 pixel-level 运作复杂度很高的问题。当前的 Tokenizer 一般按照标准 Tokenizer 进行训练,优化的方式是 pixel-level 的重建。尽管 Tokenizer 对于生成模型的质量影响很大,但是直到现在,究竟是何种因素使得 Tokenizer 更加有效,这个问题的答案始终不太清晰。Tokenizer 的发展其实是滞后于生成模型本身的。
本文提出了这样一个问题:究竟有哪些性质可使视觉 Tokenizer 对于生成式建模而言更有效?作者观察到:现代的生成式模型的训练目标都很接近:从被破坏的数据中重建原始数据。比如,扩散模型从加噪的数据中去掉噪声,重建原始数据。自回归模型从加了 mask 的数据中重建完整数据,很像去 "masking noise"。在本文中,作者把这些 Reconstruction-from-deconstruction 的过程称之为 "去噪"。
现代生成模型的统一去噪观点认为:一个 Tokenizer 应该能够生成即便破坏很严重时依然能够重建的 Latent Embedding。这样的 Embedding 自然地与下游生成模型的去噪目标保持一致,促进了它们的训练,随后提高了它们的生成质量。
受此启发,本文提出可以按照 Latent Denoising Autoencoder 的方式来训练 Tokenizer。具体的做法是:
Deconstruction: 给原始的 Embedding 加一些 Gaussian Noise,得到被破坏的 Latent。作者还探索了类似 MAE 的 Random Masking,发现也很有效果。
Construction: 训练 Tokenizer Decoder 根据这些加噪的 Latent Embedding,来重建干净的图片。
从概念上讲,这样的 Deconstruction-reconstruction 策略鼓励 Latent Embedding 鲁棒,稳定,而且即便是破坏很严重时也易于重建,与下游去噪任务对齐。本文实验表明,在 l-DeTok 训练中使用的更强的噪声 (更强的 Latent 噪声和更高的 Mask ratio) 通常会导致下游的生成性能更好。
总的来讲,l-DeTok 展示了一种简单有效的 insight,即:将 Denoising Objective 显式地合并到 Tokenizer 的训练,可以提高它们对生成建模的有效性,因为它是与下游任务对齐的。作者希望这种观点可以启发 Tokenizer 设计的新方向,加速生成建模的未来进展。
1.2 生成式模型的训练目标
首先回顾所有现代生成模型共享的核心训练目标,即:去噪。
现代生成模型主要可以分为非自回归 (Non-AR) 和自回归 (AR) 范式。尽管方法存在差异,但这两种范式都旨在逐渐从重构的表征中重建原始的表征。
非自回归生成模型
非自回归生成模型,比如 Diffusion 和 Flow Matching,训练模型从噪声中逐渐 Refine 出 Latent 表征。给定图像的 Latent 表征 ,前向加噪过程逐渐破坏这些表征得到 :
其中, 是 noise schedule。生成模型的训练目标是去复原这个 Deconstruction 的过程:
其中, 可学习的 Noise Estimator。本质上,Non-AR 的扩散模型学习:从被噪声破坏的中间 Latent 重建原始 Latent。
自回归生成模型
自回归生成模型,将图像生成分解为顺序预测问题。给定一个有序的 Latent token 序列 ,AR 方法将联合分布分解为:
其中, 表示第 步生成的 Latent token。
还有一些 AR 模型改变了生成的顺序,比如 MAR[1]或者 RandAR[2]。但是目标基本上是一致的,都是从一部分序列重建全部序列。换句话说,AR 模型学习从 masked 的中间 Latent 重建原始 Latent。
1.3 Latent Denoising Tokenizer
Latent Denoising Tokenizer (l-DeTok) 是一种 Tokenizer,在训练的时候,从被破坏的 Latent 表征来重建原始的图像。这个 Deconstruction-reconstruction 设计与现代生成模型使用的去噪任务一致。
加噪破坏
如图 1 所示,l-DeTok 是一个 Encoder-Decoder 的框架。图片被分成 Non-overlapping patches,通过 Linear Projection 得到 Embedding,再加上位置编码。
在训练的时候,要对 Embedding 进行 Deconstruction,主要通过下面两个策略:
-
给 Latent Embedding 加 noise。 -
随机 mask 掉一些 image patches。
Decoder 根据这些破坏之后的 Embedding,来重建原始图像。这个策略会鼓励 Tokenizer 给出一些容易重建的 Embedding,目的是让下游去噪任务变得更容易些。
对于加噪的过程,l-DeTok 把噪声加在了 Latent Embedding 上面。给定来自编码器的 Latent Embedding \mathbf{x} ,将它们与高斯噪声进行插值,如下所示:
式中, 控制噪声的标准差, 控制噪声等级。
加噪采取的是一种插值的策略,不同于标准 VAE 或 DAE 使用的传统加性噪声,即 ,因为它确保当噪声等级 较高时,可以有效地损坏 latent。噪声等级 随机抽样鼓励 Latent 对于不同的破坏都可以保持鲁棒性。
本文不是直接在像素空间中应用加性噪声,而是在 Latent space 进行插值,与下游生成模型 (在 Latent space 中运行)对齐。在推理时,设置 。
加 mask 破坏
作者还尝试了另外一种形式的破坏方式,即 Masking。受 MAE 的启发,随机屏蔽 image patches 的子集。与 MAE 不同,本文使用随机的 mask ratio。具体来讲,给定一个输入图像划分为 patches,作者 mask 掉一个随机的 image patch 的子集,masking ratio 从一个略有 bias 的均匀分布中采样:
其中, 表示 上的均匀分布。轻微的 bias 减少了训练和推理(no masking)之间的分布差距。Encoder 仅处理可见的 patches,掩码位置由 Decoder 输入的 learnable[MASK]token 来表示。推理时,所有 patches 都可见 。
训练目标
Decoder 从被破坏的 Latent Embedding 重建原始图像。训练目标有:pixel-wise mean-squared-error (MSE)、latent-space KL-正则、perceptual loss (VGG-based 和 ConvNeXt-based),以及 adversarial GAN 目标:
1.4 实验设置
Tokenizer Baseline
首先是一些作为 baseline 的 tokenizer。
-
MAR-VAE[1]:在 ImageNet 上预训练。 -
VA-VAE[3]:将 Latent Embedding 与 DINOv2 特征对齐。 -
MAETok[4]:通过辅助 Decoder 提取 HOG、DINOv2 和 CLIP 特征。 -
SD-VAE[5]:来自 Stable Diffusion,在更大的数据集上进行训练。
除此之外,作为对比,作者还训练了自己的 baseline tokenizer,但是不用本文提出的方法。
Tokenizer 初始化
本文的 Tokenizer 使用 ViT 实现 Encoder 和 Decoder。采用了 LLaMA 的一些最新的组件,包括 RoPE,RMSNorm,SwiGLU-FFN。Encoder 的 patch size 为 16,为每个 256×256 的图像生成 256 个 latent token。Decoder 的 patch size 为 1,因为没有分辨率变化。Latent 维度设置为 16。
Tokenizer 训练
在消融实验中,使用 ViT-S 作为 Encoder,ViT-B 用于 Decoder,不使用 GAN Loss,并训练 50 个 epoch。作者观察到,使用 GAN Loss 会锐化重建效果,但训练时间大致翻一番,而不会改变结果趋势。
对于最终实验,Encoder 和 Decoder 使用 ViT-B,训练 200 个 epoch,并从 epoch 100 开始激活 GAN Loss。
所有 tokenizer 都使用 AdamW,global batch size 为 1024,峰值学习率为 4.0 × 10^{−4} (对应于 base learning rate 为 1.0 × 10^{−4} 然后按照 global batch size/256 缩放)、linear warm-up, 以及 cosine learning schedule。
生成模型
为了评估 tokenizer 的有效性,作者尝试了 6 种具有代表性的生成模型,包括 3 个非自回归模型:DiT[6]、SiT[7]和 LightningDiT[3];以及 3 个自回归模型:MAR、Causal RandomAR, 以及 RasterAR。
作者按照官方发布的实现,在统一的代码库中重新实现所有方法,标准化训练和评估。之前的关于视觉 tokenizer 的工作通常专门评估 Non-AR 模型 (例如,DiT、SiT),但本文发现 Non-AR 模型的改进不一定转化为 AR 模型的改进。
生成模型训练
对所有生成模型使用标准化 training recipe。具体来说,遵循 LightningDiT[3]中的超参数,使用 AdamW 优化器,恒定学习率为 训练,global batch size 为 1024,无需 warm-up, gradient clipping, 或者 weight decay。
AR 模型采用 MAR 中的 3 层 1024-channel diffloss MLP。
对于消融实验,训练生成模型 100 个 epoch。对于 MAR 模型的大规模实验,训练 800 个 epoch。所有模型都使用衰减率为 0.9999 的 EMA。总是通过减去平均值并除以标准偏差来标准化标记器输出,这两者都是从 ImageNet 训练集计算的。对于公开可用的分词器,使用他们的官方标准化步骤。除非另有说明,否则使用 classifier-free guidance (CFG) 报告 FID@50k 分数,并从 FID@10k 结果中搜索最佳 CFG scale。
1.5 主要性质
分别使用 SiT-B 和 MAR-B 作为具有代表性的 Non-AR 和 AR 模型。
1.5.1 Latent Noising 消融实验
作者首先研究在破坏时只使用 Latent Noising,不加任何 Masking。
插值噪声还是加性噪声
l-DeTok 中一个重要的设计选择是使用插值的潜在噪声而不是加性噪声,作者对此进行了消融实验。比较两种 latent noising 方式:
-
插值噪声: -
加性噪声:
噪声标准差设置为 。实验结果如下图 2(a)所示。
插值噪声明显优于 SiT 和 MAR 的加性噪声。这与预期一致:插值噪声可以确保当添加很高噪声等级时,原始的信号被破坏;而相反加性噪声加了之后,原始信号还是存在的,就比较容易学习到 Shortcut,让模型偷懒。尽管如此,依然可以观察到加性潜在噪声仍然提高了 MAR 的生成性能,但是 SiT 就观察不到这个现象了。
噪声标准差
图 2(b) 研究了噪声标准差 (式 4 的 ) 的影响。使用插值噪声,SiT 和 MAR 都取得了一致性的改进。当标准差适当高些时,性能来到了峰值。这说明更强的破坏会产生更有效的 latent。这个结果也证实了作者的主要假设:比较有挑战性的去噪任务,自然会得到鲁棒且与下游任务对齐的 latent,利好生成式建模。
1.5.2 Masking 的性质
作者继续研究在破坏时只使用 Masking,不加任何 Latent Noising。
Masking Ratio
作者研究了 masking ratio (式 5 的 ) 的变化如何影响生成质量。
如图 3(a) 所示,SiT 和 MAR 在生成质量上,都受益于基于 Masking 的 tokenizer 训练。与较低的 masking ratio (比如 30%) 相比,70% 到 90% 之间的 masking ratio 产生更强的性能。这些结果与 Latent Noising 的观察结果一致,即具有挑战性的去噪是更有益的。
有趣的是,尽管在其自己的训练期间没有明确处理 masking input,但是 SiT 仍然受益于基于掩码的 l-DeTok。作者认为原因是 masking 隐含地促进了 Encoder 来学习一些 Embedding。这些 Embedding 对其他类型的噪声也有鲁棒性,比如基于 Diffusion 的扰动噪声。
恒定 Masking Ratio 和随机 Masking Ratio
图 3(b) 比较了随机 Masking Ratio 与 MAE[8]中使用的恒定 Masking Ratio。对于恒定 Masking Ratio 的实验,作者在全部可见 latent 上微调 tokenizer Decoder 另外 10 个 epoch,以减轻训练和推理之间的分布不匹配,因为在恒定比率训练期间不存在完全可见的输入。从图 3(b) 中,可以看到随机 Masking Ratio 优于恒定 Masking Ratio。随机 Masking Ratio 鼓励 latent embedding 能够对不同破坏等级鲁棒。这与下游任务更加一致,即跨不同破坏程度的去噪任务。
1.5.3 Joint Noising
之前的消融实验表明,Latent Noising 和 Masking 都可以独立地提高生成的质量,Latent Noising 表现出更强的效果。作者继续研究了联合去噪的效果。基于先验结果,将噪声标准差固定为 ,Masking Ratio 固定为 。结果如图 4 和图 5 所示。
通过联合去噪,l-DeTok 在使用 CFG 的情况下,实现了 5.50 (SiT-B) 和 2.65 (MAR-B) 的 FID。相比之下,baseline tokenizer 使用相同的设置进行训练,但没有任何噪声,获得了明显更差的结果:6.97 (SiT-B) 和 3.31 (MAR-B)。作者观察到联合去噪对 MAR 更有效,但如果已经应用了 Latent Noising,为 SiT 提供的好处就很有限。这表明 Latent Noising 必不可少,而基于 Masking 的去噪可能是可选的。
最后,通过联合去噪,把 Encoder 增加到 Base 大小,训练 200 个 epoch,并使 GAN Loss 从 epoch 100 开始。在这种情况下,性能提高到 5.13 (SiT) 和 2.43 (MAR)。作者采用这种改进的 tokenizer 进行后续评估。
1.6 泛化性实验
为了全面评估 tokenizer 的泛化性,作者比较了六种代表性生成模型的性能:
3 个非自回归模型:DiT、SiT、LightningDiT
3 个自回归模型:MAR、RandomAR、RasterAR
RandomAR 和 RasterAR 是改编自 RAR[9]的基于 Transformer 的 Decoder-only 的变体。
与标准的卷积 tokenizer 对比
实验结果如图 6 所示。与现有的最佳 tokenizer (MAR-VAE) 相比,本文方法显着提高了 FID,从 MAR 的 3.71 提高到 2.43,从 RandomAR 的 11.78 提高到 5.22,从 RasterAR 的 7.99 提高到 4.46。非自回归模型的改进也很一致。这些实质性的改进支持了本文的核心假设,即:去噪为生成模型做出了更有效的 tokenizer。
与具有语义蒸馏的 tokenizer 对比
l-DeTok 的泛化性明显优于具有语义蒸馏的 tokenizer。图 6 还对比了具有语义蒸馏的 tokenizer (例如 VA-VAE 和 MAETok)。实验发现,尽管这些标记器在 Non-AR 模型中具有良好的性能,但却不能很好地泛化到 AR 模型。比如,MAR、RandomAR 和 RasterAR 的 FID 分数分别从 3.71、11.78 和 7.99 急剧下降到 16.66、38.13 和 15.88。本文这些实验挑战了一个假设,即:"在一个生成范式中观察到的 tokenizer 改进自然地扩展到其他范式中"。本文挑战了这个假设,揭示了 tokenizer 迁移性能的一个 gap,即:一个生成范式中的 tokenizer 的有效性不一定能够迁移到其他范式中。
相比之下,本文方法在 Non-AR 和 AR 模型中的泛化明显更好。而且,l-DeTok 不需要大规模预训练 Encoder 的语义蒸馏,但大大超过了标准的 tokenizer。
1.7 与其他生成模型的系统级对比
作者在图 7 中与其他的生成模型进行了系统级的比较。作者训练了 MAR-B 和 MAR-L 800 epoch。采用本文的 tokenizer,在不改变 MAR 架构的情况下,显着提高了生成性能:MAR-B 实现了 1.55 的 FID (从 2.31),MAR-L 进一步提高了 1.35 (从 1.78)。值得注意的是,本文的 MAR-B 和 MAR-L 都匹配或超过了之前表现最好的 huge-size MAR 模型 (1.35 vs. 1.55)。定性结果如后文图 8。
参考
-
Autoregressive image generation without vector quantization -
Randar: Decoder-only autoregressive visual generation in random orders -
Reconstruction vs. generation: Taming optimization dilemma in latent diffusion models -
Masked autoencoders are effective tokenizers for diffusion models -
High-resolution image synthesis with latent diffusion models -
Scalable diffusion models with transformers -
Sit: Exploring flow and diffusion-based generative models with scalable interpolant transformers -
Masked autoencoders are scalable vision learners -
Randomized autoregressive visual generation
公众号后台回复“极市直播”获取100+期极市技术直播回放+PPT
极市干货
# 极市平台签约作者#
科技猛兽
知乎:科技猛兽
清华大学自动化系19级硕士
研究领域:AI边缘计算 (Efficient AI with Tiny Resource):专注模型压缩,搜索,量化,加速,加法网络,以及它们与其他任务的结合,更好地服务于端侧设备。
作品精选


