大数跨境
0
0

Ming-UniVision:在连续的视觉世界里,统一理解与生成

Ming-UniVision:在连续的视觉世界里,统一理解与生成 百灵大模型
2025-10-03
0
导读:📢 最近连续有发布的「百灵大模型」系列再添新成员 — 今天我们带来全新的视觉 AI 框架 Ming‑UniVision 👀 👀


📢 最近连续有发布的「百灵大模型」系列再添新成员 — 今天我们带来全新的视觉 AI 框架 Ming‑UniVision 👀 👀 来,上视频~



技术亮点 TL;DR


  1. 业界首个 “连续统一的视觉分词器” MingTok:
    无量化失真,在单一连续潜空间内无缝支持图像理解与生成,彻底消除了量化过程,并有效打通了不同模态;
  2. 采用连续视觉 Token 的 NTP 式自回归 MLLM
    基于 MingTok,Ming-UniVision 在一个共享的“下一词元预测 (NTP)”框架下统一了图像的理解与生成,实现了对多种视觉任务的端到端自回归建模;
  3. 缓解表征竞争 → 实现 3.5 倍收敛加速
     统一的连续表征协同了语义理解与生成的目标,在不牺牲性能的前提下,显著加速了模型的联合训练过程;
  4. 单一特征空间内的多轮上下文学习:
     所有操作(理解、生成、编辑)均在同一个连续空间内完成,彻底避免了代价高昂的跨空间转换,使得训练与推理多轮图像交互变得更简洁、更高效。


Ming-UniVision 的独特定位

领域挑战 - “看” 与 “画” 的逆向天性

自回归(Autoregression),这种通过 “预测下一个 token” 来建模世界的强大范式,已经成功统一了语言、音频等多种模态。下一个前沿领域,是将视觉理解(看懂图像)与视觉生成(画出图像)也纳入这个统一的序列预测框架。

然而,这一宏伟目标面临一个深层的挑战:在很多方面,理解与生成是互为逆向的任务。

  • 【理解】像素 → 高维、抽象的语义概念
  • 【生成】概念 → 精细、高保真的像素细节

这两种任务对底层视觉表征有着截然不同,甚至是相互竞争的偏好。


为何现有方案存在不足?

现有模型尝试通过两种有限的策略来统一它们:

  1. 非对称设计:为每个任务使用不同的、异构的特征空间。这导致在多轮交互中,模型必须在不同空间之间进行低效的“往返”,从而引入延迟和工程复杂性。
  2. 共享离散令牌:一个全新的、统一的令牌空间,但引入了量化误差。这既损害了生成图像的保真度,也削弱了其理解能力。

我们的解决方案:Ming-UniVision 与 MingTok

为了打破这一僵局,我们推出了 Ming-UniVision,一个构建于颠覆性创新 

MingTok 之上的新一代自回归视觉语言模型。

MingTok 是首个基于连续潜空间的视觉分词器。它提供了一个真正统一且高效的表征,构成了 Ming-UniVision 统一 “下一词元预测 (NTP)” 框架的基石 —— 在一个统一的上下文学习多模态闭环中,将图像理解、生成和编辑融为一体。


核心设计:三段式架构,调和表征冲突


Ming-UniVision 的核心是 MingTok 分词器,它是一个三段式序列架构,旨在优雅地调和理解与生成对表征的竞争性需求。



图1:(a) 现有模型中理解与生成使用两套独立的视觉表征;(b) MingTok 使用统一的分词方案生成语义与低维图像表征;(c) 相比传统的SD-VAE方案,MingTok 在文生图任务上实现了超过3.5倍的训练收敛加速


1. 低维编码器 (Low-level Encoder)
将输入图像映射为一个紧凑、连续的潜码序列。该序列为高质量、高效率的自回归生成进行了优化;

2. 语义解码器 (Semantic Decoder)
以自回归方式,将紧凑的潜码序列逐层“精炼”为高维、丰富的语义特征。这些特征与CLIP等顶尖理解模型所用的特征空间对齐,适用于深度视觉语言推理;

3. 像素解码器 (Pixel Decoder)
作为质量保证,确保从语义特征能够高保真地重建原始图像,保证了整个表征转换过程的信息无损性。

MingTok 创造了一个统一的、可微的接口。由语义解码器生成的、用于理解的高维特征,可以直接作为下一轮生成编辑任务的条件输入,彻底消除了在不同特征空间之间,尤其是通过像素空间进行低效特征转换的必要。


效率提升:训练与交互的双重加速


通过集成 MingTokMing-UniVision 在理解和生成任务上均取得了极具竞争力的结果(见图2),充分证明了这一方案的可行性与有效性。在此基础上,MingTok的核心突破 —— 统一的连续潜空间 —— 又带来了两个层面的根本性效率提升,从底层解决了传统架构的瓶颈。


图 2. 我们的方法在通用识别任务上取得接近分离表征(Separated Representation)模型的性能,显著优于其它统一表征(Unified Representation)模型的理解效果。在生成方面,得益于统一的理解-生成特征空间设计以及基于 per-token 的建模方式,我们在颜色识别(Color)与位置感知(Position)等细粒度生成任务上表现出明显优势。


1. 训练效率革命:收敛速度提升超 3.5 倍,源于任务冲突的减缓

传统方案(如 SD-VAE)为理解(如 CLIP)和生成(如 VAE)采用两套异构的视觉表征。这导致模型在联合训练时,必须耗费大量计算资源去对齐这两个性质迥异的表征空间,从而产生内在的“任务冲突”,拖慢了学习效率。

MingTok 通过一个统一的 tokenizer 同时处理理解与生成,减缓了相关冲突。我们的消融实验清晰地证明了这一点:


【实验证明】
当模型同时使用 MingTok 进行理解和生成时,在两类任务上的综合性能(理解任务 Average: 53.57,生成任务 GenEval: 0.4654)均达到最佳。这表明,统一表征不仅避免了因任务冲突导致的性能折损,反而促进了理解与生成能力的协同增强。

【核心结论】
由于避免了在对齐不同表征空间上的低效消耗,模型可以将全部“精力”用于核心任务的学习。这种效率的提升直接体现为训练收敛速度的大幅加快。在文生图等任务上,我们的模型达到同等性能水平所需的时间,相比传统的分离式表征方案,缩短了超过 3.5 倍

图3:不同理解(U)与生成(G)tokenizer组合下的预训练生成性能对比。 在纯生成训练中,MingTok (G) 表现最佳,远超 VAE (G)。当采用统一的 MingTok 表征(G & U)进行联合训练时,与纯生成训练的性能差距最小,证明了统一视觉表征的优势。


2. 交互效率革命:告别“像素中转站”,实现真正的高效多轮对话

多轮交互(如 “生成 → 编辑 → 再生成”)的效率,取决于模型在 “理解 → 生成” 循环中的速度与保真度 —— 传统架构的核心瓶颈正在于此。


架构类型

多轮交互能力

核心瓶颈

下一轮交互的路径

效率与保真度

DiT-based Models

原生不支持

非自回归、无状态设计

不适用 (需完全重启流程)

效率低

混合架构 (Hybrid)

支持,但低效

双分支,特征空间不统一

潜码 → 像素 → 理解特征

效率低,复杂的注意力,且有信息损耗

统一AR (异构空间)

支持,但低效

特征空间异构

潜码 → 像素 → 理解特征

效率低,且有信息损耗

Ming-UniVision

原生支持且高效

统一的连续潜空间

特征 → 特征 (在潜空间内闭环)

效率高,且无损


从上表可以清晰地看到,只要 “理解” 和 “生成” 空间分离,模型就无法逃脱 潜码 → 像素 → 理解特征 这一低效的往返宿命。这个 “像素中转站” 不仅带来了巨大的延迟,编解码过程本身还会导致上下文信息在多轮传递中不断衰减。

Ming-UniVision实现了 特征 → 特征 的直接闭环。理解任务产生的高维特征,可以直接、无损地被下一轮生成任务消费,从而解锁了真正连贯的多模态序列建模能力。由于所有模态(文本令牌、视觉潜码)都在同一个 “预测下一词元” 的范式下处理,任何由文本、视觉或混合模态组成的序列前缀,都可以被无缝地消费,以指导后续的生成或推理。


这使得过去需要多个专用模型或复杂流程才能完成的任务,如今可以在同一个统一框架内自然涌现:

【迭代式图像修复与增强】
用户可以先让模型执行超分辨率,然后直接在结果之上继续执行上色或去噪,每一步都基于前一步的上下文。

【基于生成式的思维链】
模型可以进行生成式CoT,先执行一个理解任务(如“分割出图中的汽车”),然后直接对该分割区域应用一个编辑指令(如“把它变成红色”),再对目标主体扣图,实现了理解与生成的无缝联动。

图4:在统一框架内实现的“超分→上色”和通过生成式思维链的“分割→编辑”等多轮交互任务。


理解、生成与编辑,不再是孤立的管道,而是被编织在一场连续的视觉对话之中。


总结与展望


我们认为,通过 MingTok 这样的统一、连续的视觉表征,为构建更灵活、更直观、更接近人类认知方式的多模态交互系统,开辟了新的可能性。

我们深知,这只是漫长探索过程中的一步,模型仍有许多待完善之处。我们已将相关的代码与模型权重初步开源,希望能为社区的研究与开发提供一个可用的基石,并激发更多关于统一表征的讨论。我们期待与业界同仁交流学习,共同推动多模态技术的发展。



欢迎大家访问我们的开源仓库进行下载使用。

HuggingFace:

https://huggingface.co/inclusionAI/Ming-UniVision-16B-A3B

https://huggingface.co/inclusionAI/MingTok-Vision


ModelScope:

https://modelscope.cn/models/inclusionAI/Ming-UniVision-16B-A3B

https://modelscope.cn/models/inclusionAI/MingTok-Vision


【声明】内容源于网络
0
0
百灵大模型
分享蚂蚁百灵大模型研发进展
内容 31
粉丝 0
百灵大模型 分享蚂蚁百灵大模型研发进展
总阅读8
粉丝0
内容31