大数跨境
0
0

让视觉 tokenizer 自带去噪能力!l‑DeTok :重塑 latent embedding 与去噪训练一致性

让视觉 tokenizer 自带去噪能力!l‑DeTok :重塑 latent embedding 与去噪训练一致性 极市平台
2025-07-28
1
↑ 点击蓝字 关注极市平台
作者丨科技猛兽
编辑丨极市平台

极市导读

 

本文提出了一种全新的视觉tokenizer训练思路:令 tokenizer 在潜在空间中学会去噪重建干净图像,与 downstream 的生成模型训练目标(如 diffusion 或 autoregressive)保持一致,从而提升生成质量。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

本文目录

1 l-DeTok:视觉 Tokenizer 的 Embedding 与去噪目标对齐
(来自 USC,MIT [Tianhong Li],Google DeepMind [Lijie Fan] 等)
1.1 l-DeTok 研究背景
1.2 生成式模型的训练目标
1.3 Latent Denoising Tokenizer
1.4 实验设置
1.5 主要性质
1.6 泛化性实验
1.7 与其他生成模型的系统级对比

太长不看版

把 Tokenizer 的 Embedding 直接与 "去噪" 目标对齐。

本文提出了一种用于视觉生成模型的 Tokenizer 的训练方法。尽管大家都知道 Tokenizer 对一个生成模型来讲很重要,但是我们不知道到底是什么让 Tokenizer 在生成任务里面表现更好。本文观察到现代的生成式模型的训练目标都比较相似,即都是一种 "去噪" 过程:从被破坏 (高斯噪声或者 mask) 的输入,重建清晰的数据。

基于这一点,本文提出:把 Tokenizer 的 Embedding 直接与 "去噪" 目标对齐,鼓励 Latent embedding 更容易去重建,即便是在高度破坏的状态下。

本文提出的方法叫做 Latent Denoising Tokenizer (l-DeTok),一种高效的用于视觉生成模型的 Tokenizer。l-DeTok 经过训练,可以从被破坏的 Latent embedding 来重建干净的图片。l-DeTok 在 ImageNet 256×256 实验进行了验证。

本文强调了去噪作为视觉 Tokenizer 设计的基本原则,希望能够为未来 Tokenizer 的设计提供新的观点。

1 l-DeTok:视觉 Tokenizer 的 Embedding 与去噪目标对齐

论文名称:Latent Denoising Makes Good Visual TokenizersLatent Denoising Makes Good Visual Tokenizers

论文地址:

https://arxiv.org/pdf/2507.15856

代码链接:

https://github.com/Jiawei-Yang/DeTok

1.1 l-DeTok 研究背景

现代视觉生成式模型总是在由 Tokenizer 提取出的 Latent embedding 上运作,来避免在 pixel-level 运作复杂度很高的问题。当前的 Tokenizer 一般按照标准 Tokenizer 进行训练,优化的方式是 pixel-level 的重建。尽管 Tokenizer 对于生成模型的质量影响很大,但是直到现在,究竟是何种因素使得 Tokenizer 更加有效,这个问题的答案始终不太清晰。Tokenizer 的发展其实是滞后于生成模型本身的。

本文提出了这样一个问题:究竟有哪些性质可使视觉 Tokenizer 对于生成式建模而言更有效?作者观察到:现代的生成式模型的训练目标都很接近:从被破坏的数据中重建原始数据。比如,扩散模型从加噪的数据中去掉噪声,重建原始数据。自回归模型从加了 mask 的数据中重建完整数据,很像去 "masking noise"。在本文中,作者把这些 Reconstruction-from-deconstruction 的过程称之为 "去噪"。

现代生成模型的统一去噪观点认为:一个 Tokenizer 应该能够生成即便破坏很严重时依然能够重建的 Latent Embedding。这样的 Embedding 自然地与下游生成模型的去噪目标保持一致,促进了它们的训练,随后提高了它们的生成质量。

受此启发,本文提出可以按照 Latent Denoising Autoencoder 的方式来训练 Tokenizer。具体的做法是:

Deconstruction: 给原始的 Embedding 加一些 Gaussian Noise,得到被破坏的 Latent。作者还探索了类似 MAE 的 Random Masking,发现也很有效果。

Construction: 训练 Tokenizer Decoder 根据这些加噪的 Latent Embedding,来重建干净的图片。

从概念上讲,这样的 Deconstruction-reconstruction 策略鼓励 Latent Embedding 鲁棒,稳定,而且即便是破坏很严重时也易于重建,与下游去噪任务对齐。本文实验表明,在 l-DeTok 训练中使用的更强的噪声 (更强的 Latent 噪声和更高的 Mask ratio) 通常会导致下游的生成性能更好。

总的来讲,l-DeTok 展示了一种简单有效的 insight,即:将 Denoising Objective 显式地合并到 Tokenizer 的训练,可以提高它们对生成建模的有效性,因为它是与下游任务对齐的。作者希望这种观点可以启发 Tokenizer 设计的新方向,加速生成建模的未来进展。

1.2 生成式模型的训练目标

首先回顾所有现代生成模型共享的核心训练目标,即:去噪。

现代生成模型主要可以分为非自回归 (Non-AR) 和自回归 (AR) 范式。尽管方法存在差异,但这两种范式都旨在逐渐从重构的表征中重建原始的表征。

非自回归生成模型

非自回归生成模型,比如 Diffusion 和 Flow Matching,训练模型从噪声中逐渐 Refine 出 Latent 表征。给定图像的 Latent 表征   ,前向加噪过程逐渐破坏这些表征得到    :

其中,  是 noise schedule。生成模型的训练目标是去复原这个 Deconstruction 的过程:

其中,  可学习的 Noise Estimator。本质上,Non-AR 的扩散模型学习:从被噪声破坏的中间 Latent 重建原始 Latent。

自回归生成模型

自回归生成模型,将图像生成分解为顺序预测问题。给定一个有序的 Latent token 序列 ,AR 方法将联合分布分解为:

其中,   表示第   步生成的 Latent token。

还有一些 AR 模型改变了生成的顺序,比如 MAR[1]或者 RandAR[2]。但是目标基本上是一致的,都是从一部分序列重建全部序列。换句话说,AR 模型学习从 masked 的中间 Latent 重建原始 Latent。

1.3 Latent Denoising Tokenizer

Latent Denoising Tokenizer (l-DeTok) 是一种 Tokenizer,在训练的时候,从被破坏的 Latent 表征来重建原始的图像。这个 Deconstruction-reconstruction 设计与现代生成模型使用的去噪任务一致。

加噪破坏

如图 1 所示,l-DeTok 是一个 Encoder-Decoder 的框架。图片被分成 Non-overlapping patches,通过 Linear Projection 得到 Embedding,再加上位置编码。

图1:latent denoising tokenizer。在 tokenizer 训练过程中,随机 mask 一些 input patch,给 latent embedding 加一些高斯噪声。Decoder 根据这些 mask token 以及带噪的 latent 重建原始图片。作者把这个过程称为去噪

在训练的时候,要对 Embedding 进行 Deconstruction,主要通过下面两个策略:

  1. 给 Latent Embedding 加 noise。
  2. 随机 mask 掉一些 image patches。

Decoder 根据这些破坏之后的 Embedding,来重建原始图像。这个策略会鼓励 Tokenizer 给出一些容易重建的 Embedding,目的是让下游去噪任务变得更容易些。

对于加噪的过程,l-DeTok 把噪声加在了 Latent Embedding 上面。给定来自编码器的 Latent Embedding \mathbf{x} ,将它们与高斯噪声进行插值,如下所示:

式中,  控制噪声的标准差,  控制噪声等级。

加噪采取的是一种插值的策略,不同于标准 VAE 或 DAE 使用的传统加性噪声,即   ,因为它确保当噪声等级   较高时,可以有效地损坏 latent。噪声等级   随机抽样鼓励 Latent 对于不同的破坏都可以保持鲁棒性。

本文不是直接在像素空间中应用加性噪声,而是在 Latent space 进行插值,与下游生成模型 (在 Latent space 中运行)对齐。在推理时,设置   。

加 mask 破坏

作者还尝试了另外一种形式的破坏方式,即 Masking。受 MAE 的启发,随机屏蔽 image patches 的子集。与 MAE 不同,本文使用随机的 mask ratio。具体来讲,给定一个输入图像划分为 patches,作者 mask 掉一个随机的 image patch 的子集,masking ratio 从一个略有 bias 的均匀分布中采样:

其中,   表示   上的均匀分布。轻微的 bias 减少了训练和推理(no masking)之间的分布差距。Encoder 仅处理可见的 patches,掩码位置由 Decoder 输入的 learnable[MASK]token 来表示。推理时,所有 patches 都可见   。

训练目标

Decoder 从被破坏的 Latent Embedding 重建原始图像。训练目标有:pixel-wise mean-squared-error (MSE)、latent-space KL-正则、perceptual loss (VGG-based 和 ConvNeXt-based),以及 adversarial GAN 目标:

1.4 实验设置

Tokenizer Baseline

首先是一些作为 baseline 的 tokenizer。

  1. MAR-VAE[1]:在 ImageNet 上预训练。
  2. VA-VAE[3]:将 Latent Embedding 与 DINOv2 特征对齐。
  3. MAETok[4]:通过辅助 Decoder 提取 HOG、DINOv2 和 CLIP 特征。
  4. SD-VAE[5]:来自 Stable Diffusion,在更大的数据集上进行训练。

除此之外,作为对比,作者还训练了自己的 baseline tokenizer,但是不用本文提出的方法。

Tokenizer 初始化

本文的 Tokenizer 使用 ViT 实现 Encoder 和 Decoder。采用了 LLaMA 的一些最新的组件,包括 RoPE,RMSNorm,SwiGLU-FFN。Encoder 的 patch size 为 16,为每个 256×256 的图像生成 256 个 latent token。Decoder 的 patch size 为 1,因为没有分辨率变化。Latent 维度设置为 16。

Tokenizer 训练

在消融实验中,使用 ViT-S 作为 Encoder,ViT-B 用于 Decoder,不使用 GAN Loss,并训练 50 个 epoch。作者观察到,使用 GAN Loss 会锐化重建效果,但训练时间大致翻一番,而不会改变结果趋势。

对于最终实验,Encoder 和 Decoder 使用 ViT-B,训练 200 个 epoch,并从 epoch 100 开始激活 GAN Loss。

所有 tokenizer 都使用 AdamW,global batch size 为 1024,峰值学习率为 4.0 × 10^{−4} (对应于 base learning rate 为 1.0 × 10^{−4} 然后按照 global batch size/256 缩放)、linear warm-up, 以及 cosine learning schedule。

生成模型

为了评估 tokenizer 的有效性,作者尝试了 6 种具有代表性的生成模型,包括 3 个非自回归模型:DiT[6]、SiT[7]和 LightningDiT[3];以及 3 个自回归模型:MAR、Causal RandomAR, 以及 RasterAR。

作者按照官方发布的实现,在统一的代码库中重新实现所有方法,标准化训练和评估。之前的关于视觉 tokenizer 的工作通常专门评估 Non-AR 模型 (例如,DiT、SiT),但本文发现 Non-AR 模型的改进不一定转化为 AR 模型的改进。

生成模型训练

对所有生成模型使用标准化 training recipe。具体来说,遵循 LightningDiT[3]中的超参数,使用 AdamW 优化器,恒定学习率为   训练,global batch size 为 1024,无需 warm-up, gradient clipping, 或者 weight decay。

AR 模型采用 MAR 中的 3 层 1024-channel diffloss MLP。

对于消融实验,训练生成模型 100 个 epoch。对于 MAR 模型的大规模实验,训练 800 个 epoch。所有模型都使用衰减率为 0.9999 的 EMA。总是通过减去平均值并除以标准偏差来标准化标记器输出,这两者都是从 ImageNet 训练集计算的。对于公开可用的分词器,使用他们的官方标准化步骤。除非另有说明,否则使用 classifier-free guidance (CFG) 报告 FID@50k 分数,并从 FID@10k 结果中搜索最佳 CFG scale。

1.5 主要性质

分别使用 SiT-B 和 MAR-B 作为具有代表性的 Non-AR 和 AR 模型。

1.5.1 Latent Noising 消融实验

作者首先研究在破坏时只使用 Latent Noising,不加任何 Masking。

插值噪声还是加性噪声

l-DeTok 中一个重要的设计选择是使用插值的潜在噪声而不是加性噪声,作者对此进行了消融实验。比较两种 latent noising 方式:

  • 插值噪声: 
  • 加性噪声: 

噪声标准差设置为   。实验结果如下图 2(a)所示。

插值噪声明显优于 SiT 和 MAR 的加性噪声。这与预期一致:插值噪声可以确保当添加很高噪声等级时,原始的信号被破坏;而相反加性噪声加了之后,原始信号还是存在的,就比较容易学习到 Shortcut,让模型偷懒。尽管如此,依然可以观察到加性潜在噪声仍然提高了 MAR 的生成性能,但是 SiT 就观察不到这个现象了。

噪声标准差

图 2(b) 研究了噪声标准差 (式 4 的   ) 的影响。使用插值噪声,SiT 和 MAR 都取得了一致性的改进。当标准差适当高些时,性能来到了峰值。这说明更强的破坏会产生更有效的 latent。这个结果也证实了作者的主要假设:比较有挑战性的去噪任务,自然会得到鲁棒且与下游任务对齐的 latent,利好生成式建模。

图2:latent noise 设计的消融实验。(a) 使用加性噪声还是插值噪声。插值噪声在 MAR 和 SiT 明显优于的加性噪声。(b) Latent noise 标准差消融实验。l-DeTok 在各种噪声标准偏差中保持稳健。通常,增加 γ 可以提高生成质量,最佳结果在 γ = 3.0 左右

1.5.2 Masking 的性质

作者继续研究在破坏时只使用 Masking,不加任何 Latent Noising。

Masking Ratio

作者研究了 masking ratio (式 5 的   ) 的变化如何影响生成质量。

如图 3(a) 所示,SiT 和 MAR 在生成质量上,都受益于基于 Masking 的 tokenizer 训练。与较低的 masking ratio (比如 30%) 相比,70% 到 90% 之间的 masking ratio 产生更强的性能。这些结果与 Latent Noising 的观察结果一致,即具有挑战性的去噪是更有益的。

有趣的是,尽管在其自己的训练期间没有明确处理 masking input,但是 SiT 仍然受益于基于掩码的 l-DeTok。作者认为原因是 masking 隐含地促进了 Encoder 来学习一些 Embedding。这些 Embedding 对其他类型的噪声也有鲁棒性,比如基于 Diffusion 的扰动噪声。

恒定 Masking Ratio 和随机 Masking Ratio

图 3(b) 比较了随机 Masking Ratio 与 MAE[8]中使用的恒定 Masking Ratio。对于恒定 Masking Ratio 的实验,作者在全部可见 latent 上微调 tokenizer Decoder 另外 10 个 epoch,以减轻训练和推理之间的分布不匹配,因为在恒定比率训练期间不存在完全可见的输入。从图 3(b) 中,可以看到随机 Masking Ratio 优于恒定 Masking Ratio。随机 Masking Ratio 鼓励 latent embedding 能够对不同破坏等级鲁棒。这与下游任务更加一致,即跨不同破坏程度的去噪任务。

图3:Masking Ratio 消融实验。(a) 随机 Masking Ratio 结果。(b) 恒定 Masking Ratio 结果。MAR 和 SiT 都受益于基于 Masking 的 tokenizer。随机 Masking Ratio 效果始终优于恒定 Masking Ratio

1.5.3 Joint Noising

之前的消融实验表明,Latent Noising 和 Masking 都可以独立地提高生成的质量,Latent Noising 表现出更强的效果。作者继续研究了联合去噪的效果。基于先验结果,将噪声标准差固定为   ,Masking Ratio 固定为   。结果如图 4 和图 5 所示。

图4:tokenizer 训练策略对生成性能的影响。联合噪声进一步提高了 MAR 的性能,但对于 SiT,如果已经应用了 Latent Noising,那么额外的好处有限
图5:去噪的影响。这里报告在 50,000 张图像上进行评估的 FID 和 IS。与 baseline 相比,在使用 l-DeTok 时可以看到生成模型显著的收益

通过联合去噪,l-DeTok 在使用 CFG 的情况下,实现了 5.50 (SiT-B) 和 2.65 (MAR-B) 的 FID。相比之下,baseline tokenizer 使用相同的设置进行训练,但没有任何噪声,获得了明显更差的结果:6.97 (SiT-B) 和 3.31 (MAR-B)。作者观察到联合去噪对 MAR 更有效,但如果已经应用了 Latent Noising,为 SiT 提供的好处就很有限。这表明 Latent Noising 必不可少,而基于 Masking 的去噪可能是可选的。

最后,通过联合去噪,把 Encoder 增加到 Base 大小,训练 200 个 epoch,并使 GAN Loss 从 epoch 100 开始。在这种情况下,性能提高到 5.13 (SiT) 和 2.43 (MAR)。作者采用这种改进的 tokenizer 进行后续评估。

1.6 泛化性实验

为了全面评估 tokenizer 的泛化性,作者比较了六种代表性生成模型的性能:

3 个非自回归模型:DiT、SiT、LightningDiT

3 个自回归模型:MAR、RandomAR、RasterAR

RandomAR 和 RasterAR 是改编自 RAR[9]的基于 Transformer 的 Decoder-only 的变体。

与标准的卷积 tokenizer 对比

实验结果如图 6 所示。与现有的最佳 tokenizer (MAR-VAE) 相比,本文方法显着提高了 FID,从 MAR 的 3.71 提高到 2.43,从 RandomAR 的 11.78 提高到 5.22,从 RasterAR 的 7.99 提高到 4.46。非自回归模型的改进也很一致。这些实质性的改进支持了本文的核心假设,即:去噪为生成模型做出了更有效的 tokenizer。

图6:不同生成模型,使用不同 tokenizer 的结果。l-DeTok tokenizer 在 AR 模型方面优于其他 tokenizer,并且还超越了在没有语义蒸馏的情况下针对 Non-AR 模型训练的 tokenizer

与具有语义蒸馏的 tokenizer 对比

l-DeTok 的泛化性明显优于具有语义蒸馏的 tokenizer。图 6 还对比了具有语义蒸馏的 tokenizer (例如 VA-VAE 和 MAETok)。实验发现,尽管这些标记器在 Non-AR 模型中具有良好的性能,但却不能很好地泛化到 AR 模型。比如,MAR、RandomAR 和 RasterAR 的 FID 分数分别从 3.71、11.78 和 7.99 急剧下降到 16.66、38.13 和 15.88。本文这些实验挑战了一个假设,即:"在一个生成范式中观察到的 tokenizer 改进自然地扩展到其他范式中"。本文挑战了这个假设,揭示了 tokenizer 迁移性能的一个 gap,即:一个生成范式中的 tokenizer 的有效性不一定能够迁移到其他范式中

相比之下,本文方法在 Non-AR 和 AR 模型中的泛化明显更好。而且,l-DeTok 不需要大规模预训练 Encoder 的语义蒸馏,但大大超过了标准的 tokenizer。

1.7 与其他生成模型的系统级对比

作者在图 7 中与其他的生成模型进行了系统级的比较。作者训练了 MAR-B 和 MAR-L 800 epoch。采用本文的 tokenizer,在不改变 MAR 架构的情况下,显着提高了生成性能:MAR-B 实现了 1.55 的 FID (从 2.31),MAR-L 进一步提高了 1.35 (从 1.78)。值得注意的是,本文的 MAR-B 和 MAR-L 都匹配或超过了之前表现最好的 huge-size MAR 模型 (1.35 vs. 1.55)。定性结果如后文图 8。

图7:ImageNet 256×256 class-conditional generation 的系统级比较
图8:定性结果。使用本文 tokenizer 训练的 MAR-L 在 ImageNet 256×256 上的 class-conditional generation 示例

参考

  1. Autoregressive image generation without vector quantization
  2. Randar: Decoder-only autoregressive visual generation in random orders
  3. Reconstruction vs. generation: Taming optimization dilemma in latent diffusion models
  4. Masked autoencoders are effective tokenizers for diffusion models
  5. High-resolution image synthesis with latent diffusion models
  6. Scalable diffusion models with transformers
  7. Sit: Exploring flow and diffusion-based generative models with scalable interpolant transformers
  8. Masked autoencoders are scalable vision learners
  9. Randomized autoregressive visual generation



公众号后台回复“极市直播”获取100+期极市技术直播回放+PPT


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

极市平台签约作者#


科技猛兽

知乎:科技猛兽


清华大学自动化系19级硕士

研究领域:AI边缘计算 (Efficient AI with Tiny Resource):专注模型压缩,搜索,量化,加速,加法网络,以及它们与其他任务的结合,更好地服务于端侧设备。


作品精选

搞懂 Vision Transformer 原理和代码,看这篇技术综述就够了
用Pytorch轻松实现28个视觉Transformer,开源库 timm 了解一下!(附代码解读)
轻量高效!清华智能计算实验室开源基于PyTorch的视频 (图片) 去模糊框架SimDeblur



投稿方式:
添加小编微信Fengcall(微信号:fengcall19),备注:姓名-投稿
△长按添加极市平台小编

觉得有用麻烦给个在看啦~  

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k