📢 最近连续有发布的「百灵大模型」系列再添新成员 — 今天我们带来全新的视觉 AI 框架 Ming‑UniVision 👀 👀 来,上视频~
技术亮点 TL;DR
- 业界首个 “连续统一的视觉分词器” MingTok:
无量化失真,在单一连续潜空间内无缝支持图像理解与生成,彻底消除了量化过程,并有效打通了不同模态; - 采用连续视觉 Token 的 NTP 式自回归 MLLM:
基于 MingTok,Ming-UniVision 在一个共享的“下一词元预测 (NTP)”框架下统一了图像的理解与生成,实现了对多种视觉任务的端到端自回归建模; - 缓解表征竞争 → 实现 3.5 倍收敛加速:
统一的连续表征协同了语义理解与生成的目标,在不牺牲性能的前提下,显著加速了模型的联合训练过程; - 单一特征空间内的多轮上下文学习:
所有操作(理解、生成、编辑)均在同一个连续空间内完成,彻底避免了代价高昂的跨空间转换,使得训练与推理多轮图像交互变得更简洁、更高效。
Ming-UniVision 的独特定位
领域挑战 - “看” 与 “画” 的逆向天性
自回归(Autoregression),这种通过 “预测下一个 token” 来建模世界的强大范式,已经成功统一了语言、音频等多种模态。下一个前沿领域,是将视觉理解(看懂图像)与视觉生成(画出图像)也纳入这个统一的序列预测框架。
然而,这一宏伟目标面临一个深层的挑战:在很多方面,理解与生成是互为逆向的任务。
- 【理解】像素 → 高维、抽象的语义概念
- 【生成】概念 → 精细、高保真的像素细节
这两种任务对底层视觉表征有着截然不同,甚至是相互竞争的偏好。
为何现有方案存在不足?
现有模型尝试通过两种有限的策略来统一它们:
- 非对称设计:为每个任务使用不同的、异构的特征空间。这导致在多轮交互中,模型必须在不同空间之间进行低效的“往返”,从而引入延迟和工程复杂性。
- 共享离散令牌:一个全新的、统一的令牌空间,但引入了量化误差。这既损害了生成图像的保真度,也削弱了其理解能力。
我们的解决方案:Ming-UniVision 与 MingTok
为了打破这一僵局,我们推出了 Ming-UniVision,一个构建于颠覆性创新
MingTok 之上的新一代自回归视觉语言模型。
MingTok 是首个基于连续潜空间的视觉分词器。它提供了一个真正统一且高效的表征,构成了 Ming-UniVision 统一 “下一词元预测 (NTP)” 框架的基石 —— 在一个统一的上下文学习多模态闭环中,将图像理解、生成和编辑融为一体。
核心设计:三段式架构,调和表征冲突
Ming-UniVision 的核心是 MingTok 分词器,它是一个三段式序列架构,旨在优雅地调和理解与生成对表征的竞争性需求。

图1:(a) 现有模型中理解与生成使用两套独立的视觉表征;(b) MingTok 使用统一的分词方案生成语义与低维图像表征;(c) 相比传统的SD-VAE方案,MingTok 在文生图任务上实现了超过3.5倍的训练收敛加速。
MingTok 创造了一个统一的、可微的接口。由语义解码器生成的、用于理解的高维特征,可以直接作为下一轮生成或编辑任务的条件输入,彻底消除了在不同特征空间之间,尤其是通过像素空间进行低效特征转换的必要。
效率提升:训练与交互的双重加速
通过集成 MingTok,Ming-UniVision 在理解和生成任务上均取得了极具竞争力的结果(见图2),充分证明了这一方案的可行性与有效性。在此基础上,MingTok的核心突破 —— 统一的连续潜空间 —— 又带来了两个层面的根本性效率提升,从底层解决了传统架构的瓶颈。
图 2. 我们的方法在通用识别任务上取得接近分离表征(Separated Representation)模型的性能,显著优于其它统一表征(Unified Representation)模型的理解效果。在生成方面,得益于统一的理解-生成特征空间设计以及基于 per-token 的建模方式,我们在颜色识别(Color)与位置感知(Position)等细粒度生成任务上表现出明显优势。
1. 训练效率革命:收敛速度提升超 3.5 倍,源于任务冲突的减缓
传统方案(如 SD-VAE)为理解(如 CLIP)和生成(如 VAE)采用两套异构的视觉表征。这导致模型在联合训练时,必须耗费大量计算资源去对齐这两个性质迥异的表征空间,从而产生内在的“任务冲突”,拖慢了学习效率。
MingTok 通过一个统一的 tokenizer 同时处理理解与生成,减缓了相关冲突。我们的消融实验清晰地证明了这一点:
图3:不同理解(U)与生成(G)tokenizer组合下的预训练生成性能对比。 在纯生成训练中,MingTok (G) 表现最佳,远超 VAE (G)。当采用统一的 MingTok 表征(G & U)进行联合训练时,与纯生成训练的性能差距最小,证明了统一视觉表征的优势。
2. 交互效率革命:告别“像素中转站”,实现真正的高效多轮对话
多轮交互(如 “生成 → 编辑 → 再生成”)的效率,取决于模型在 “理解 → 生成” 循环中的速度与保真度 —— 传统架构的核心瓶颈正在于此。
架构类型 |
多轮交互能力 |
核心瓶颈 |
下一轮交互的路径 |
效率与保真度 |
DiT-based Models |
原生不支持 |
非自回归、无状态设计 |
不适用 (需完全重启流程) |
效率低 |
混合架构 (Hybrid) |
支持,但低效 |
双分支,特征空间不统一 |
|
效率低,复杂的注意力,且有信息损耗 |
统一AR (异构空间) |
支持,但低效 |
特征空间异构 |
|
效率低,且有信息损耗 |
Ming-UniVision |
原生支持且高效 |
统一的连续潜空间 |
|
效率高,且无损 |
从上表可以清晰地看到,只要 “理解” 和 “生成” 空间分离,模型就无法逃脱 潜码 → 像素 → 理解特征 这一低效的往返宿命。这个 “像素中转站” 不仅带来了巨大的延迟,编解码过程本身还会导致上下文信息在多轮传递中不断衰减。
Ming-UniVision实现了 特征 → 特征 的直接闭环。理解任务产生的高维特征,可以直接、无损地被下一轮生成任务消费,从而解锁了真正连贯的多模态序列建模能力。由于所有模态(文本令牌、视觉潜码)都在同一个 “预测下一词元” 的范式下处理,任何由文本、视觉或混合模态组成的序列前缀,都可以被无缝地消费,以指导后续的生成或推理。
这使得过去需要多个专用模型或复杂流程才能完成的任务,如今可以在同一个统一框架内自然涌现:
图4:在统一框架内实现的“超分→上色”和通过生成式思维链的“分割→编辑”等多轮交互任务。
理解、生成与编辑,不再是孤立的管道,而是被编织在一场连续的视觉对话之中。
总结与展望
我们认为,通过 MingTok 这样的统一、连续的视觉表征,为构建更灵活、更直观、更接近人类认知方式的多模态交互系统,开辟了新的可能性。
我们深知,这只是漫长探索过程中的一步,模型仍有许多待完善之处。我们已将相关的代码与模型权重初步开源,希望能为社区的研究与开发提供一个可用的基石,并激发更多关于统一表征的讨论。我们期待与业界同仁交流学习,共同推动多模态技术的发展。
欢迎大家访问我们的开源仓库进行下载使用。
HuggingFace:
https://huggingface.co/inclusionAI/Ming-UniVision-16B-A3B
https://huggingface.co/inclusionAI/MingTok-Vision
ModelScope:
https://modelscope.cn/models/inclusionAI/Ming-UniVision-16B-A3B
https://modelscope.cn/models/inclusionAI/MingTok-Vision

