开源信息
Ming-lite-omni当前模型权重和推理代码已开源,后续会陆续开源训练代码和训练数据,欢迎大家下载体验:
Github:
https://github.com/inclusionAI/Ming/tree/main/Ming-omni
Hugging Face:
https://huggingface.co/inclusionAI/Ming-Lite-Omni
ModelScope:
https://modelscope.cn/models/inclusionAI/Ming-Lite-Omni
Project Page:
https://lucaria-academy.github.io/Ming-Omni/
“
AI的“全能超能力”时代来了!
长期以来,人工智能在特定任务上展现出卓越的能力,例如精准的人脸识别、流畅的语音理解或富有创造力的文本生成。然而,人类智能的真正精髓在于其无缝整合视觉、听觉、语言等多种感官信息的能力,并在此基础上进行思考和创造。这正是通用人工智能(AGI)的终极愿景——构建一个能够像人类一样全面理解并与多感官世界互动的智能体。朝着这个目标,蚂蚁集团百灵大模型(Ling)团队开源了统一多模态模型Ming系列。
Ming-lite-omni,是近期Ming系列开源的Ming-lite-uni,以及Ming-lite-omni-preview工作的集成和跨越。 其核心能力是真正的“统一性”:实现了以单一模型处理包括图像、文本、音频和视频在内的广泛输入类型,并且能够以卓越的水平同时实现语音和图像生成。这种多模态统一处理,以及理解与生成的统一,使其区别于许多专注于单一模态或仅支持部分模态的模型,展现出更全面的功能和更广泛的应用潜力。
“
全模态交互能力
视觉感知: AI的“火眼金睛”
Ming-lite-omni能够像从图像和视频中辨识出复杂的细节和深层信息:
-
Ming-lite-omni能够根据视觉输入分析图表,并进行复杂数学推理:
图像生成: AI的“神来之笔”
Ming-lite-omni 不仅能“看”懂世界,还能“画”出奇迹:
-
支持图像编辑及30多种图像风格转换 :
语音能力: 能“听”懂你,更能“说”出心声
Ming-lite-omni 能够以卓越的准确性理解多样化的方言, 并生成自然流畅的语音:
Ming-lite-omni可实现输入一句话音频,完成音色克隆:
音频1
来源音频:
输入:体验是用户感知,是主观的用户价值。
克隆音色的输出:
音频2
来源音频:
输入:The stained glass offered a hypnotic atmosphere.
克隆音色的输出:
更多能力
除此之外, Ming-lite-omni 针对以下交互任务进行了深度优化:
“
核心技术亮点
简洁的模型结构
Ming-lite-omni 基于Ling-lite构建的MoE架构的全模态模型,其总参数22B,激活参数3B。 Ming-lite-omni通过精巧的架构设计和多阶段训练策略,实现了理解和生成的统一。
跨模态融合与统一
-
模态特定路由器,为了避免模态间的冲突,并在处理过程中实现合理的分离和协调,在Ling-lite基础上引入了模态专属路由器。这种设计能够高效处理多模态数据,并保障模型对不同模态信息的有效整合;
-
训练流程精准调控,按照训练阶段、数据模态2个维度来整体规划训练数据配比,其中训练阶段包括预训练、指令微调和强化学习对齐等,数据模态包括图文、视频、音频等。同时引入目标函数动态调权算法,实现多模态、多类型任务均衡训练。
理解与生成统一
-
图像理解与生成,Ming-lite-omni 融合自研轻量级桥接框架,利用MLLM的理解作为图像生成的输入,以及独创性的多尺度可学习令牌(multi-scale learnable tokens)和多尺度表征对齐策略(multi-scale representation alignment strategy)有效推动了图像理解与生成能力的统一,图像生成指标超过SDXL、SEED-X等模型,图像理解指标与Qwen2.5-VL-7B、InternVL2.5-8B等先进模型相当。
-
音频理解与生成,Ming-lite-omni 集成了先进的音频解码器,该解码器接受来自LLM的输出隐藏状态,这使得模型能够处理上下文感知的多模态对话和标准的文本转语音(TTS)转换,从而生成自然流畅的语音 。为了提高韵律性能和实时生成能力,它在音频令牌上采用了字节对编码(BPE),将令牌帧率降低了35% 。此外,它还采用了遵循课程学习范式的多阶段训练策略,分阶段使用文本转语音数据和多模态上下文感知三元组进行训练,以改善上下文感知的语音生成。
“
模型评测
Ming-lite-omni 以仅3B的参数激活量, 在多项理解和生成能力评测中,性能与10B量级领先的多模态大模型相当或更优:
图文理解能力在OpenCompass图文综合评测集、 视觉定位、GUI理解、视频理解、知识性问答、百科图片识别、体验偏好等评测上均达到或超过Qwen2.5 VL-7B等业界领先MLLM;
语音问答能力在开放问答、知识问答和指令遵循等方面达到业界领先,语音ASR识别能力在13个开源中英文数据集上达到同尺寸开源模型综合效果最优,超过Qwen2.5-Omni 与Kimi-Audio等业界领先模型。
视觉生成能力上GenEval整体评分0.64, 达到或超越领先水平。
1. 图文理解
2. 视频理解
备注: 所有模型均使用128帧均匀采样帧作为输入
3. 音频ASR
4. 图像生成和编辑
“
下一步工作
我们将持续优化Ming-lite-omni在全模态理解和生成任务上的效果,并提升Ming-lite-omni的多模复杂推理能力;同时也会训练更大尺寸的全模态模型Ming-plus-omni, 以期进一步解决更多高度专业化或领域化的复杂交互问题,提升交互体验。 当效果符合预期后,我们也会尽快开源到InclusionAI社区里。

