

Ming-UniVision：在连续的视觉世界里，统一理解与生成

百灵大模型

2025-10-03

导读：📢 最近连续有发布的「百灵大模型」系列再添新成员 — 今天我们带来全新的视觉 AI 框架 Ming‑UniVision 👀 👀

📢 最近连续有发布的「百灵大模型」系列再添新成员 — 今天我们带来全新的视觉 AI 框架 Ming‑UniVision 👀 👀 来，上视频～

技术亮点 TL；DR

业界首个 “连续统一的视觉分词器” MingTok：
无量化失真，在单一连续潜空间内无缝支持图像理解与生成，彻底消除了量化过程，并有效打通了不同模态；
采用连续视觉 Token 的 NTP 式自回归 MLLM：
基于 MingTok，Ming-UniVision 在一个共享的“下一词元预测 (NTP)”框架下统一了图像的理解与生成，实现了对多种视觉任务的端到端自回归建模；
缓解表征竞争 → 实现 3.5 倍收敛加速：
统一的连续表征协同了语义理解与生成的目标，在不牺牲性能的前提下，显著加速了模型的联合训练过程；
单一特征空间内的多轮上下文学习：
所有操作（理解、生成、编辑）均在同一个连续空间内完成，彻底避免了代价高昂的跨空间转换，使得训练与推理多轮图像交互变得更简洁、更高效。

Ming-UniVision 的独特定位

领域挑战 - “看” 与 “画” 的逆向天性

自回归（Autoregression），这种通过 “预测下一个 token” 来建模世界的强大范式，已经成功统一了语言、音频等多种模态。下一个前沿领域，是将视觉理解（看懂图像）与视觉生成（画出图像）也纳入这个统一的序列预测框架。

然而，这一宏伟目标面临一个深层的挑战：在很多方面，理解与生成是互为逆向的任务。

【理解】像素 → 高维、抽象的语义概念
【生成】概念 → 精细、高保真的像素细节

这两种任务对底层视觉表征有着截然不同，甚至是相互竞争的偏好。

为何现有方案存在不足？

现有模型尝试通过两种有限的策略来统一它们：

非对称设计：为每个任务使用不同的、异构的特征空间。这导致在多轮交互中，模型必须在不同空间之间进行低效的“往返”，从而引入延迟和工程复杂性。
共享离散令牌：一个全新的、统一的令牌空间，但引入了量化误差。这既损害了生成图像的保真度，也削弱了其理解能力。

我们的解决方案：Ming-UniVision 与 MingTok

为了打破这一僵局，我们推出了 Ming-UniVision，一个构建于颠覆性创新

MingTok 之上的新一代自回归视觉语言模型。

MingTok 是首个基于连续潜空间的视觉分词器。它提供了一个真正统一且高效的表征，构成了 Ming-UniVision 统一 “下一词元预测 (NTP)” 框架的基石 —— 在一个统一的上下文学习多模态闭环中，将图像理解、生成和编辑融为一体。

核心设计：三段式架构，调和表征冲突

Ming-UniVision 的核心是 MingTok 分词器，它是一个三段式序列架构，旨在优雅地调和理解与生成对表征的竞争性需求。

图1：(a) 现有模型中理解与生成使用两套独立的视觉表征；(b) MingTok 使用统一的分词方案生成语义与低维图像表征；(c) 相比传统的SD-VAE方案，MingTok 在文生图任务上实现了超过3.5倍的训练收敛加速。

1. 低维编码器 (Low-level Encoder)

将输入图像映射为一个紧凑、连续的潜码序列。该序列为高质量、高效率的自回归生成进行了优化；

2. 语义解码器 (Semantic Decoder)

以自回归方式，将紧凑的潜码序列逐层“精炼”为高维、丰富的语义特征。这些特征与CLIP等顶尖理解模型所用的特征空间对齐，适用于深度视觉语言推理；

3. 像素解码器 (Pixel Decoder)

作为质量保证，确保从语义特征能够高保真地重建原始图像，保证了整个表征转换过程的信息无损性。

MingTok 创造了一个统一的、可微的接口。由语义解码器生成的、用于理解的高维特征，可以直接作为下一轮生成或编辑任务的条件输入，彻底消除了在不同特征空间之间，尤其是通过像素空间进行低效特征转换的必要。

效率提升：训练与交互的双重加速

通过集成 MingTok，Ming-UniVision 在理解和生成任务上均取得了极具竞争力的结果（见图2），充分证明了这一方案的可行性与有效性。在此基础上，MingTok的核心突破 —— 统一的连续潜空间 —— 又带来了两个层面的根本性效率提升，从底层解决了传统架构的瓶颈。

图 2. 我们的方法在通用识别任务上取得接近分离表征（Separated Representation）模型的性能，显著优于其它统一表征（Unified Representation）模型的理解效果。在生成方面，得益于统一的理解-生成特征空间设计以及基于 per-token 的建模方式，我们在颜色识别（Color）与位置感知（Position）等细粒度生成任务上表现出明显优势。

1. 训练效率革命：收敛速度提升超 3.5 倍，源于任务冲突的减缓

传统方案（如 SD-VAE）为理解（如 CLIP）和生成（如 VAE）采用两套异构的视觉表征。这导致模型在联合训练时，必须耗费大量计算资源去对齐这两个性质迥异的表征空间，从而产生内在的“任务冲突”，拖慢了学习效率。

MingTok 通过一个统一的 tokenizer 同时处理理解与生成，减缓了相关冲突。我们的消融实验清晰地证明了这一点：

【实验证明】

当模型同时使用 MingTok 进行理解和生成时，在两类任务上的综合性能（理解任务 Average: 53.57，生成任务 GenEval: 0.4654）均达到最佳。这表明，统一表征不仅避免了因任务冲突导致的性能折损，反而促进了理解与生成能力的协同增强。

【核心结论】

由于避免了在对齐不同表征空间上的低效消耗，模型可以将全部“精力”用于核心任务的学习。这种效率的提升直接体现为训练收敛速度的大幅加快。在文生图等任务上，我们的模型达到同等性能水平所需的时间，相比传统的分离式表征方案，缩短了超过 3.5 倍。

图3：不同理解（U）与生成（G）tokenizer组合下的预训练生成性能对比。 在纯生成训练中，MingTok (G) 表现最佳，远超 VAE (G)。当采用统一的 MingTok 表征（G & U）进行联合训练时，与纯生成训练的性能差距最小，证明了统一视觉表征的优势。

2. 交互效率革命：告别“像素中转站”，实现真正的高效多轮对话

多轮交互（如 “生成 → 编辑 → 再生成”）的效率，取决于模型在 “理解 → 生成” 循环中的速度与保真度 —— 传统架构的核心瓶颈正在于此。

架构类型	多轮交互能力	核心瓶颈	下一轮交互的路径	效率与保真度
DiT-based Models	原生不支持	非自回归、无状态设计	不适用 (需完全重启流程)	效率低
混合架构 (Hybrid)	支持，但低效	双分支，特征空间不统一	`潜码 → 像素 → 理解特征`	效率低，复杂的注意力，且有信息损耗
统一AR (异构空间)	支持，但低效	特征空间异构	`潜码 → 像素 → 理解特征`	效率低，且有信息损耗
Ming-UniVision	原生支持且高效	统一的连续潜空间	`特征 → 特征` (在潜空间内闭环)	效率高，且无损

从上表可以清晰地看到，只要 “理解” 和 “生成” 空间分离，模型就无法逃脱 潜码 → 像素 → 理解特征 这一低效的往返宿命。这个 “像素中转站” 不仅带来了巨大的延迟，编解码过程本身还会导致上下文信息在多轮传递中不断衰减。

Ming-UniVision实现了 特征 → 特征 的直接闭环。理解任务产生的高维特征，可以直接、无损地被下一轮生成任务消费，从而解锁了真正连贯的多模态序列建模能力。由于所有模态（文本令牌、视觉潜码）都在同一个 “预测下一词元” 的范式下处理，任何由文本、视觉或混合模态组成的序列前缀，都可以被无缝地消费，以指导后续的生成或推理。

这使得过去需要多个专用模型或复杂流程才能完成的任务，如今可以在同一个统一框架内自然涌现：

【迭代式图像修复与增强】

用户可以先让模型执行超分辨率，然后直接在结果之上继续执行上色或去噪，每一步都基于前一步的上下文。

【基于生成式的思维链】

模型可以进行生成式CoT，先执行一个理解任务（如“分割出图中的汽车”），然后直接对该分割区域应用一个编辑指令（如“把它变成红色”），再对目标主体扣图，实现了理解与生成的无缝联动。

图4：在统一框架内实现的“超分→上色”和通过生成式思维链的“分割→编辑”等多轮交互任务。

理解、生成与编辑，不再是孤立的管道，而是被编织在一场连续的视觉对话之中。

总结与展望

我们认为，通过 MingTok 这样的统一、连续的视觉表征，为构建更灵活、更直观、更接近人类认知方式的多模态交互系统，开辟了新的可能性。

我们深知，这只是漫长探索过程中的一步，模型仍有许多待完善之处。我们已将相关的代码与模型权重初步开源，希望能为社区的研究与开发提供一个可用的基石，并激发更多关于统一表征的讨论。我们期待与业界同仁交流学习，共同推动多模态技术的发展。

欢迎大家访问我们的开源仓库进行下载使用。

HuggingFace：

https://huggingface.co/inclusionAI/Ming-UniVision-16B-A3B

https://huggingface.co/inclusionAI/MingTok-Vision

ModelScope：

https://modelscope.cn/models/inclusionAI/Ming-UniVision-16B-A3B

https://modelscope.cn/models/inclusionAI/MingTok-Vision

【声明】内容源于网络

百灵大模型

分享蚂蚁百灵大模型研发进展

内容 31

粉丝 0

百灵大模型分享蚂蚁百灵大模型研发进展

总阅读8

粉丝0

内容31