让视觉 tokenizer 自带去噪能力！l‑DeTok ：重塑 latent embedding 与去噪训练一致性



让视觉 tokenizer 自带去噪能力！l‑DeTok ：重塑 latent embedding 与去噪训练一致性

极市平台

2025-07-28

↑ 点击蓝字关注极市平台

作者丨科技猛兽

编辑丨极市平台

极市导读

本文提出了一种全新的视觉tokenizer训练思路：令 tokenizer 在潜在空间中学会去噪重建干净图像，与 downstream 的生成模型训练目标（如 diffusion 或 autoregressive）保持一致，从而提升生成质量。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

本文目录

1 l-DeTok：视觉 Tokenizer 的 Embedding 与去噪目标对齐
(来自 USC，MIT [Tianhong Li]，Google DeepMind [Lijie Fan] 等)
1.1 l-DeTok 研究背景
1.2 生成式模型的训练目标
1.3 Latent Denoising Tokenizer
1.4 实验设置
1.5 主要性质
1.6 泛化性实验
1.7 与其他生成模型的系统级对比

太长不看版

把 Tokenizer 的 Embedding 直接与 "去噪" 目标对齐。

本文提出了一种用于视觉生成模型的 Tokenizer 的训练方法。尽管大家都知道 Tokenizer 对一个生成模型来讲很重要，但是我们不知道到底是什么让 Tokenizer 在生成任务里面表现更好。本文观察到现代的生成式模型的训练目标都比较相似，即都是一种 "去噪" 过程：从被破坏 (高斯噪声或者 mask) 的输入，重建清晰的数据。

基于这一点，本文提出：把 Tokenizer 的 Embedding 直接与 "去噪" 目标对齐，鼓励 Latent embedding 更容易去重建，即便是在高度破坏的状态下。

本文提出的方法叫做 Latent Denoising Tokenizer (l-DeTok)，一种高效的用于视觉生成模型的 Tokenizer。l-DeTok 经过训练，可以从被破坏的 Latent embedding 来重建干净的图片。l-DeTok 在 ImageNet 256×256 实验进行了验证。

本文强调了去噪作为视觉 Tokenizer 设计的基本原则，希望能够为未来 Tokenizer 的设计提供新的观点。

1 l-DeTok：视觉 Tokenizer 的 Embedding 与去噪目标对齐

论文名称：Latent Denoising Makes Good Visual TokenizersLatent Denoising Makes Good Visual Tokenizers

论文地址：

https://arxiv.org/pdf/2507.15856

代码链接：

https://github.com/Jiawei-Yang/DeTok

1.1 l-DeTok 研究背景

现代视觉生成式模型总是在由 Tokenizer 提取出的 Latent embedding 上运作，来避免在 pixel-level 运作复杂度很高的问题。当前的 Tokenizer 一般按照标准 Tokenizer 进行训练，优化的方式是 pixel-level 的重建。尽管 Tokenizer 对于生成模型的质量影响很大，但是直到现在，究竟是何种因素使得 Tokenizer 更加有效，这个问题的答案始终不太清晰。Tokenizer 的发展其实是滞后于生成模型本身的。

本文提出了这样一个问题：究竟有哪些性质可使视觉 Tokenizer 对于生成式建模而言更有效？作者观察到：现代的生成式模型的训练目标都很接近：从被破坏的数据中重建原始数据。比如，扩散模型从加噪的数据中去掉噪声，重建原始数据。自回归模型从加了 mask 的数据中重建完整数据，很像去 "masking noise"。在本文中，作者把这些 Reconstruction-from-deconstruction 的过程称之为 "去噪"。

现代生成模型的统一去噪观点认为：一个 Tokenizer 应该能够生成即便破坏很严重时依然能够重建的 Latent Embedding。这样的 Embedding 自然地与下游生成模型的去噪目标保持一致，促进了它们的训练，随后提高了它们的生成质量。

受此启发，本文提出可以按照 Latent Denoising Autoencoder 的方式来训练 Tokenizer。具体的做法是：

Deconstruction： 给原始的 Embedding 加一些 Gaussian Noise，得到被破坏的 Latent。作者还探索了类似 MAE 的 Random Masking，发现也很有效果。

Construction： 训练 Tokenizer Decoder 根据这些加噪的 Latent Embedding，来重建干净的图片。

从概念上讲，这样的 Deconstruction-reconstruction 策略鼓励 Latent Embedding 鲁棒，稳定，而且即便是破坏很严重时也易于重建，与下游去噪任务对齐。本文实验表明，在 l-DeTok 训练中使用的更强的噪声 (更强的 Latent 噪声和更高的 Mask ratio) 通常会导致下游的生成性能更好。

总的来讲，l-DeTok 展示了一种简单有效的 insight，即：将 Denoising Objective 显式地合并到 Tokenizer 的训练，可以提高它们对生成建模的有效性，因为它是与下游任务对齐的。作者希望这种观点可以启发 Tokenizer 设计的新方向，加速生成建模的未来进展。

1.2 生成式模型的训练目标

首先回顾所有现代生成模型共享的核心训练目标，即：去噪。

现代生成模型主要可以分为非自回归 (Non-AR) 和自回归 (AR) 范式。尽管方法存在差异，但这两种范式都旨在逐渐从重构的表征中重建原始的表征。

非自回归生成模型

非自回归生成模型，比如 Diffusion 和 Flow Matching，训练模型从噪声中逐渐 Refine 出 Latent 表征。给定图像的 Latent 表征，前向加噪过程逐渐破坏这些表征得到：

其中，是 noise schedule。生成模型的训练目标是去复原这个 Deconstruction 的过程：

其中，可学习的 Noise Estimator。本质上，Non-AR 的扩散模型学习：从被噪声破坏的中间 Latent 重建原始 Latent。

自回归生成模型

自回归生成模型，将图像生成分解为顺序预测问题。给定一个有序的 Latent token 序列，AR 方法将联合分布分解为：

其中，表示第步生成的 Latent token。

还有一些 AR 模型改变了生成的顺序，比如 MAR[1]或者 RandAR[2]。但是目标基本上是一致的，都是从一部分序列重建全部序列。换句话说，AR 模型学习从 masked 的中间 Latent 重建原始 Latent。

1.3 Latent Denoising Tokenizer

Latent Denoising Tokenizer (l-DeTok) 是一种 Tokenizer，在训练的时候，从被破坏的 Latent 表征来重建原始的图像。这个 Deconstruction-reconstruction 设计与现代生成模型使用的去噪任务一致。

加噪破坏

如图 1 所示，l-DeTok 是一个 Encoder-Decoder 的框架。图片被分成 Non-overlapping patches，通过 Linear Projection 得到 Embedding，再加上位置编码。

图1：latent denoising tokenizer。在 tokenizer 训练过程中，随机 mask 一些 input patch，给 latent embedding 加一些高斯噪声。Decoder 根据这些 mask token 以及带噪的 latent 重建原始图片。作者把这个过程称为去噪

在训练的时候，要对 Embedding 进行 Deconstruction，主要通过下面两个策略：

给 Latent Embedding 加 noise。
随机 mask 掉一些 image patches。

Decoder 根据这些破坏之后的 Embedding，来重建原始图像。这个策略会鼓励 Tokenizer 给出一些容易重建的 Embedding，目的是让下游去噪任务变得更容易些。

对于加噪的过程，l-DeTok 把噪声加在了 Latent Embedding 上面。给定来自编码器的 Latent Embedding \mathbf{x} ，将它们与高斯噪声进行插值，如下所示：

式中，控制噪声的标准差，控制噪声等级。

加噪采取的是一种插值的策略，不同于标准 VAE 或 DAE 使用的传统加性噪声，即，因为它确保当噪声等级较高时，可以有效地损坏 latent。噪声等级随机抽样鼓励 Latent 对于不同的破坏都可以保持鲁棒性。

本文不是直接在像素空间中应用加性噪声，而是在 Latent space 进行插值，与下游生成模型（在 Latent space 中运行）对齐。在推理时，设置。

加 mask 破坏

作者还尝试了另外一种形式的破坏方式，即 Masking。受 MAE 的启发，随机屏蔽 image patches 的子集。与 MAE 不同，本文使用随机的 mask ratio。具体来讲，给定一个输入图像划分为 patches，作者 mask 掉一个随机的 image patch 的子集，masking ratio 从一个略有 bias 的均匀分布中采样：

其中，表示上的均匀分布。轻微的 bias 减少了训练和推理（no masking）之间的分布差距。Encoder 仅处理可见的 patches，掩码位置由 Decoder 输入的 learnable［MASK］token 来表示。推理时，所有 patches 都可见。

训练目标

Decoder 从被破坏的 Latent Embedding 重建原始图像。训练目标有：pixel-wise mean-squared-error (MSE)、latent-space KL-正则、perceptual loss (VGG-based 和 ConvNeXt-based)，以及 adversarial GAN 目标：

1.4 实验设置

Tokenizer Baseline

首先是一些作为 baseline 的 tokenizer。

MAR-VAE[1]：在 ImageNet 上预训练。
VA-VAE[3]：将 Latent Embedding 与 DINOv2 特征对齐。
MAETok[4]：通过辅助 Decoder 提取 HOG、DINOv2 和 CLIP 特征。
SD-VAE[5]：来自 Stable Diffusion，在更大的数据集上进行训练。

除此之外，作为对比，作者还训练了自己的 baseline tokenizer，但是不用本文提出的方法。

Tokenizer 初始化

本文的 Tokenizer 使用 ViT 实现 Encoder 和 Decoder。采用了 LLaMA 的一些最新的组件，包括 RoPE，RMSNorm，SwiGLU-FFN。Encoder 的 patch size 为 16，为每个 256×256 的图像生成 256 个 latent token。Decoder 的 patch size 为 1，因为没有分辨率变化。Latent 维度设置为 16。

Tokenizer 训练

在消融实验中，使用 ViT-S 作为 Encoder，ViT-B 用于 Decoder，不使用 GAN Loss，并训练 50 个 epoch。作者观察到，使用 GAN Loss 会锐化重建效果，但训练时间大致翻一番，而不会改变结果趋势。

对于最终实验，Encoder 和 Decoder 使用 ViT-B，训练 200 个 epoch，并从 epoch 100 开始激活 GAN Loss。

所有 tokenizer 都使用 AdamW，global batch size 为 1024，峰值学习率为 4.0 × 10^{−4} (对应于 base learning rate 为 1.0 × 10^{−4} 然后按照 global batch size/256 缩放)、linear warm-up, 以及 cosine learning schedule。

生成模型

为了评估 tokenizer 的有效性，作者尝试了 6 种具有代表性的生成模型，包括 3 个非自回归模型：DiT[6]、SiT[7]和 LightningDiT[3]；以及 3 个自回归模型：MAR、Causal RandomAR, 以及 RasterAR。

作者按照官方发布的实现，在统一的代码库中重新实现所有方法，标准化训练和评估。之前的关于视觉 tokenizer 的工作通常专门评估 Non-AR 模型 (例如，DiT、SiT)，但本文发现 Non-AR 模型的改进不一定转化为 AR 模型的改进。

生成模型训练

对所有生成模型使用标准化 training recipe。具体来说，遵循 LightningDiT[3]中的超参数，使用 AdamW 优化器，恒定学习率为训练，global batch size 为 1024，无需 warm-up, gradient clipping, 或者 weight decay。

AR 模型采用 MAR 中的 3 层 1024-channel diffloss MLP。

对于消融实验，训练生成模型 100 个 epoch。对于 MAR 模型的大规模实验，训练 800 个 epoch。所有模型都使用衰减率为 0.9999 的 EMA。总是通过减去平均值并除以标准偏差来标准化标记器输出，这两者都是从 ImageNet 训练集计算的。对于公开可用的分词器，使用他们的官方标准化步骤。除非另有说明，否则使用 classifier-free guidance (CFG) 报告 FID@50k 分数，并从 FID@10k 结果中搜索最佳 CFG scale。

1.5 主要性质

分别使用 SiT-B 和 MAR-B 作为具有代表性的 Non-AR 和 AR 模型。

1.5.1 Latent Noising 消融实验

作者首先研究在破坏时只使用 Latent Noising，不加任何 Masking。

插值噪声还是加性噪声

l-DeTok 中一个重要的设计选择是使用插值的潜在噪声而不是加性噪声，作者对此进行了消融实验。比较两种 latent noising 方式：

插值噪声：
加性噪声：

噪声标准差设置为。实验结果如下图 2（a）所示。

插值噪声明显优于 SiT 和 MAR 的加性噪声。这与预期一致：插值噪声可以确保当添加很高噪声等级时，原始的信号被破坏；而相反加性噪声加了之后，原始信号还是存在的，就比较容易学习到 Shortcut，让模型偷懒。尽管如此，依然可以观察到加性潜在噪声仍然提高了 MAR 的生成性能，但是 SiT 就观察不到这个现象了。

噪声标准差

图 2(b) 研究了噪声标准差 (式 4 的 ) 的影响。使用插值噪声，SiT 和 MAR 都取得了一致性的改进。当标准差适当高些时，性能来到了峰值。这说明更强的破坏会产生更有效的 latent。这个结果也证实了作者的主要假设：比较有挑战性的去噪任务，自然会得到鲁棒且与下游任务对齐的 latent，利好生成式建模。

图2：latent noise 设计的消融实验。(a) 使用加性噪声还是插值噪声。插值噪声在 MAR 和 SiT 明显优于的加性噪声。(b) Latent noise 标准差消融实验。l-DeTok 在各种噪声标准偏差中保持稳健。通常，增加 γ 可以提高生成质量，最佳结果在 γ = 3.0 左右

1.5.2 Masking 的性质

作者继续研究在破坏时只使用 Masking，不加任何 Latent Noising。

Masking Ratio

作者研究了 masking ratio (式 5 的 ) 的变化如何影响生成质量。

如图 3(a) 所示，SiT 和 MAR 在生成质量上，都受益于基于 Masking 的 tokenizer 训练。与较低的 masking ratio (比如 30%) 相比，70% 到 90% 之间的 masking ratio 产生更强的性能。这些结果与 Latent Noising 的观察结果一致，即具有挑战性的去噪是更有益的。

有趣的是，尽管在其自己的训练期间没有明确处理 masking input，但是 SiT 仍然受益于基于掩码的 l-DeTok。作者认为原因是 masking 隐含地促进了 Encoder 来学习一些 Embedding。这些 Embedding 对其他类型的噪声也有鲁棒性，比如基于 Diffusion 的扰动噪声。

恒定 Masking Ratio 和随机 Masking Ratio

图 3(b) 比较了随机 Masking Ratio 与 MAE[8]中使用的恒定 Masking Ratio。对于恒定 Masking Ratio 的实验，作者在全部可见 latent 上微调 tokenizer Decoder 另外 10 个 epoch，以减轻训练和推理之间的分布不匹配，因为在恒定比率训练期间不存在完全可见的输入。从图 3(b) 中，可以看到随机 Masking Ratio 优于恒定 Masking Ratio。随机 Masking Ratio 鼓励 latent embedding 能够对不同破坏等级鲁棒。这与下游任务更加一致，即跨不同破坏程度的去噪任务。

图3：Masking Ratio 消融实验。(a) 随机 Masking Ratio 结果。(b) 恒定 Masking Ratio 结果。MAR 和 SiT 都受益于基于 Masking 的 tokenizer。随机 Masking Ratio 效果始终优于恒定 Masking Ratio

1.5.3 Joint Noising

之前的消融实验表明，Latent Noising 和 Masking 都可以独立地提高生成的质量，Latent Noising 表现出更强的效果。作者继续研究了联合去噪的效果。基于先验结果，将噪声标准差固定为，Masking Ratio 固定为。结果如图 4 和图 5 所示。

图4：tokenizer 训练策略对生成性能的影响。联合噪声进一步提高了 MAR 的性能，但对于 SiT，如果已经应用了 Latent Noising，那么额外的好处有限

图5：去噪的影响。这里报告在 50,000 张图像上进行评估的 FID 和 IS。与 baseline 相比，在使用 l-DeTok 时可以看到生成模型显著的收益

通过联合去噪，l-DeTok 在使用 CFG 的情况下，实现了 5.50 (SiT-B) 和 2.65 (MAR-B) 的 FID。相比之下，baseline tokenizer 使用相同的设置进行训练，但没有任何噪声，获得了明显更差的结果：6.97 (SiT-B) 和 3.31 (MAR-B)。作者观察到联合去噪对 MAR 更有效，但如果已经应用了 Latent Noising，为 SiT 提供的好处就很有限。这表明 Latent Noising 必不可少，而基于 Masking 的去噪可能是可选的。

最后，通过联合去噪，把 Encoder 增加到 Base 大小，训练 200 个 epoch，并使 GAN Loss 从 epoch 100 开始。在这种情况下，性能提高到 5.13 (SiT) 和 2.43 (MAR)。作者采用这种改进的 tokenizer 进行后续评估。

1.6 泛化性实验

为了全面评估 tokenizer 的泛化性，作者比较了六种代表性生成模型的性能：

3 个非自回归模型：DiT、SiT、LightningDiT

3 个自回归模型：MAR、RandomAR、RasterAR

RandomAR 和 RasterAR 是改编自 RAR[9]的基于 Transformer 的 Decoder-only 的变体。

与标准的卷积 tokenizer 对比

实验结果如图 6 所示。与现有的最佳 tokenizer (MAR-VAE) 相比，本文方法显着提高了 FID，从 MAR 的 3.71 提高到 2.43，从 RandomAR 的 11.78 提高到 5.22，从 RasterAR 的 7.99 提高到 4.46。非自回归模型的改进也很一致。这些实质性的改进支持了本文的核心假设，即：去噪为生成模型做出了更有效的 tokenizer。

图6：不同生成模型，使用不同 tokenizer 的结果。l-DeTok tokenizer 在 AR 模型方面优于其他 tokenizer，并且还超越了在没有语义蒸馏的情况下针对 Non-AR 模型训练的 tokenizer

与具有语义蒸馏的 tokenizer 对比

l-DeTok 的泛化性明显优于具有语义蒸馏的 tokenizer。图 6 还对比了具有语义蒸馏的 tokenizer (例如 VA-VAE 和 MAETok)。实验发现，尽管这些标记器在 Non-AR 模型中具有良好的性能，但却不能很好地泛化到 AR 模型。比如，MAR、RandomAR 和 RasterAR 的 FID 分数分别从 3.71、11.78 和 7.99 急剧下降到 16.66、38.13 和 15.88。本文这些实验挑战了一个假设，即："在一个生成范式中观察到的 tokenizer 改进自然地扩展到其他范式中"。本文挑战了这个假设，揭示了 tokenizer 迁移性能的一个 gap，即：一个生成范式中的 tokenizer 的有效性不一定能够迁移到其他范式中。

相比之下，本文方法在 Non-AR 和 AR 模型中的泛化明显更好。而且，l-DeTok 不需要大规模预训练 Encoder 的语义蒸馏，但大大超过了标准的 tokenizer。

1.7 与其他生成模型的系统级对比

作者在图 7 中与其他的生成模型进行了系统级的比较。作者训练了 MAR-B 和 MAR-L 800 epoch。采用本文的 tokenizer，在不改变 MAR 架构的情况下，显着提高了生成性能：MAR-B 实现了 1.55 的 FID (从 2.31)，MAR-L 进一步提高了 1.35 (从 1.78)。值得注意的是，本文的 MAR-B 和 MAR-L 都匹配或超过了之前表现最好的 huge-size MAR 模型 (1.35 vs. 1.55)。定性结果如后文图 8。

图7：ImageNet 256×256 class-conditional generation 的系统级比较

图8：定性结果。使用本文 tokenizer 训练的 MAR-L 在 ImageNet 256×256 上的 class-conditional generation 示例

参考

Autoregressive image generation without vector quantization
Randar: Decoder-only autoregressive visual generation in random orders
Reconstruction vs. generation: Taming optimization dilemma in latent diffusion models
Masked autoencoders are effective tokenizers for diffusion models
High-resolution image synthesis with latent diffusion models
Scalable diffusion models with transformers
Sit: Exploring flow and diffusion-based generative models with scalable interpolant transformers
Masked autoencoders are scalable vision learners
Randomized autoregressive visual generation