快手可图联合清华大学提出VQRAE, 首个能同时产生连续表征和离散表征的统一tokenizer!



快手可图联合清华大学提出VQRAE, 首个能同时产生连续表征和离散表征的统一tokenizer!

快手技术

2025-12-12

导读：AI画图总跑偏？可图联手清华提出VQRAE，根源解决“想的和画的不一样”！

你有没有过这样的体验：让AI根据你的描述生成图片，它却get不到核心语义，明明要 "阳光穿透森林的清晨"，结果画出一片昏暗的树林；或者让AI分析图片，它只能泛泛而谈“有山有水”，却无法将理解转化为生成模型所需的精准指令？

这并非AI不够智能，而是其内部存在一道“技术沟通障碍”。当前，负责“理解”的多模态模型（如GPT-4o、CLIP）与负责“生成”的文生图模型（如Stable Diffusion），实际上使用着两套不同的“语言系统”。理解模型通常基于CLIP等编码器，输出连续、高维的语义特征；而生图模型则使用的是VAE编码器，产生底层且连续的低维特征。两者编码方式的不匹配，就像两位语言不通的顶尖专家，难以进行高效、深度的协作。

尽管GPT-4o等一体化模型展现了多模态理解的强大潜力，但要让理解能力真正赋能高质量图像生成，关键在于统一两者背后的特征表示。近期，可图研究团队联合清华大学与华中科技大学提出了一项突破性工作——VQRAE（向量量化的表征自编码器）。VQRAE是首个能同时产生连续表征和离散表征的 Tokenizer，其中语义且连续的特征用于多模态理解任务，底层且离散的token用于图像生成和重建。与以往方法不同，VQRAE直接从CLIP-based语义编码器出发，通过构建高维度的码本进行多任务训练得到。这项研究为打破多模态理解与生成之间的“语言隔阂”，实现更精准、可控的视觉创作。

[🔮论文标题] ：

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

[📖 论文地址] ：

https://arxiv.org/pdf/2511.23386

一、设计动机

现有统一 tokenizer 方案始终面临 “架构冗余” 与 “性能偏科” 的双重困境，核心症结在于未能高效协调多模态理解与视觉生成的特征需求。为此，我们针对性提出 VQRAE的设计思路，具体对比现有方案与本研究的核心差异如下：

(a) Janus系列采用独立的编码器分别处理理解和生成，(b)QLIP和UniTok直接使用CLIP loss监督离散特征同时用于理解和生成。(a)(b)都是dual-encoder架构，即训练时会有两类encoder同时参与。

连续特征（Continuous, C）：保留核心语义信息，专门适配多模态理解任务；
高维离散 token（Discrete, D）：捕捉细粒度像素细节，精准支撑图像重建与生成任务。

这种设计不仅让 tokenizer 的结构更简洁高效，彻底消除了双编码器架构的冗余性，更通过 “一类架构、两类特征” 的天然适配，实现了理解与生成任务的性能最优 trade-off，从根源上解决了现有方案的核心痛点。Single-encoder的结构为连续和离散特征提供了一个统一的表征空间，为未来探索真正的unified model奠定了坚实的基础。

二、VQRAE框架

VQRAE是向量量化的表征自编码器，其整体框架和训练过程如下：

纯 ViT 架构的自编码器设计：

VQRAE 采用全 ViT-based 自编码器结构，以预训练语义编码器（如 CLIP ViT）为基础，通过高维离散码本对高维特征直接量化，再搭配与编码器完全对称的 ViT 解码器，最终映射至像素空间。这一设计实现了 “一举两得”—— 既能输出连续语义表征支撑多模态理解，又能生成离散 token 满足生成式建模需求，彻底摆脱了传统双编码器（dual encoder）设计的冗余问题，架构更简洁高效。

高维离散码本的突破性创新：

区别于传统 VQVAE 的研究结论，基于 CNN 的编码器，其中间的bottleneck feature特征在离散化过程中更适配低维码本（例如 Llamagen、IBQ 等模型，码本维度通常介于 8-256 之间）。而本研究发现，从预训练 ViT 编码器出发进行特征离散化时，反而更依赖高维码本 —— 若码本维度不足，会直接引发码本坍塌（codebook collapse）与训练过程崩溃。最终，团队成功训练出维度达1536、利用率 100% 的离散码本，这一高维高利用率码本在业内尚属首次实现。

两阶段训练策略：平衡理解与重建的精妙设计：

为在保留 tokenizer 原有理解能力的基础上，大幅提升其图像重建性能，研究团队设计了两阶段训练策略：

第一阶段冻结编码器（encoder），仅训练高维VQ 码本与解码器（decoder），优先构建基础重建能力；
第二阶段解冻编码器，通过微调补充细粒度（fine-grained）重建细节，同时引入自蒸馏损失（self-distillation loss）约束语义表征的一致性，避免理解能力退化。

实验证明，该训练方式下的 tokenizer 无需针对理解任务额外微调，就能取得与基线理解模型（baseline）近乎持平的性能；这一优势可大幅缩短 tokenizer 的迭代周期，省去 “训练 tokenizer - 微调理解任务 - 评测效果” 的冗长验证流程，显著提升研发效率。

三、实验结果

为全面验证 VQRAE 的性能，研究团队基于大规模开源数据集 BLIP3-o 完成预训练，该数据集包含 2700 万个经 Qwen2.5-VL-7B 重新描述的高质量样本、500 万个来自 CC12M 的真实场景样本，以及 400 万张来自 JourneyDB 的合成图像，数据覆盖真实与虚拟场景，兼具多样性与代表性。

实验中，VQRAE 分别基于 SigLIP2-so400m-p16-256px、SigLIP2-so400m-p16-512px 及 InternViT-300M-448px 三类编码器实现统一表征输出，并采用 rFID（越低越优）、PSNR（越高越优）、SSIM（越高越优）三项指标，在 ImageNet-1K 验证集完成图像重建质量评估；多模态理解与视觉生成任务则采用对应领域主流基准评测。

在图像重建任务中，VQRAE 取得了 1.39 的 rFID、22.88dB 的 PSNR 及 0.784 的 SSIM 优异成绩。相较于以往复杂设计的统一 tokenizer，VQRAE 在保持架构更简洁、冗余度更低的同时，实现了重建质量的全面超越，可视化结果也直观呈现出更细腻的图像细节与更精准的场景还原度。

在多模态理解层面，VQRAE 在未针对任何理解任务进行额外微调的情况下，其多模态理解性能不仅达到了原有基线模型（baseline）水平，在某些benchmark上更实现了小幅超越。这一结果与传统统一 tokenizer 形成鲜明对比，此前同类工作即便经过针对性优化，仍难以追平 LLaVA-1.5 的基准性能，充分印证了 VQRAE 语义表征的有效性与稳定性。

在视觉生成任务中，VQRAE 展现出极强的参数效率：仅需 0.6B（6 亿）参数规模，便取得了 0.76 的 GenEval 分数与 86.67 的 DPG-Bench 分数。这一结果显著优于同参数量级的传统模型，有力证明了 VQRAE 经优化的统一表征对生成任务的赋能价值 —— 通过消除理解与生成的特征鸿沟，实现了 “小参数、高性能” 的高效生成效果。

四、消融实验

4.1 表征研究

为深入揭示 VQRAE 输出的两种表征的本质差异，我们对 ImageNet-1K 验证集样本的连续特征与离散标记分别进行了 K-means 聚类分析，可视化结果如下图所示，连续表征更偏语义带有判别性（discriminative）特质，离散特征更偏像素带有细颗粒（fine-grained）特质。

(a) 为基于连续特征的聚类分组，(b) 为基于离散标记的聚类结果 —— 两类特征均源自同一 VQRAE 模型，未引入任何额外优化

4.2 VQ codebook

对VQ codebook的超参数码本大小和维度消融发现，从预训练的ViT出发进行量化反而更偏好高维度的码本，在低维度的设定下反而会导致码本崩溃，这与以前CNN-based的自编码器结论相反，我们首次训练得到一个1536维度的100%利用率的VQ codebook。

4.3 训练方式

为验证训练策略对统一 tokenizer 的影响，我们针对 “理解 - 重建” 协同优化目标设计了消融实验，结果下图（训练策略可视化结果）所示：

采用两阶段训练策略和自蒸馏损失，可以在图像重建和理解之间取得平衡。

五、结果概览

5.1 图像重建

5.2 多模态理解

5.3 视觉生成

六、总结

本文提出VQRAE，一种面向统一tokenizer的向量量化表征自编码器，首次尝试同时生成用于多模态理解的连续语义表征与面向视觉生成的细粒度离散token。通过采用纯ViT架构与两阶段训练策略，我们在训练统一tokenizer时消除了对像素编码器的依赖，实现了视觉理解、生成与重建的有机融合。基于预训练视觉基础模型，VQRAE首次实现了适用于离散自回归建模的高利用率高维码本。在多模态理解、生成与重建基准上的大量实验表明，本方法在扩散生成模型与采用统一tokenizer的自回归模型中均展现出巨大优势。

-END-

”

欢迎加入