本文整理自蚂蚁集团资深算法专家陈景东在 Hugging Face Papers 直播 AI Insight Talk| Omni 全模态专场的分享。
引言:百灵大模型的整体战略布局
自推出以来,蚂蚁百灵多模态大模型系列已成为我们持续探索 AI 边界的核心实践。百灵大模型的技术布局聚焦于三大底层基石:
极致算力与系统效率:聚焦推理与训练性能优化,以及 GPU/NPU 异构集群的虚拟化和高效调度能力,以支撑高并发、低延迟的商业应用需求;
端到端安全体系:作为金融科技公司,我们将安全评测、对抗攻击防御和内容约束机制视为核心,构建了端到端的安全防护体系;
垂直领域知识力:针对金融、医疗、生活服务等场景,通过专业数据处理、标注和语义体系构建,将深厚的行业知识有效注入模型。
基于这些基石,我们发展出百灵语言大模型(如 Ling-1T 万亿级模型)和百灵多模态大模型(即 Ming 系列)。这些模型正被广泛应用于医疗、民生服务、安全、时空大数据等多个领域,最终为消费者、企业及专业场景提供现代化的 AI 支持。目前,这些模型均已全面开源,并持续通过社区反馈进行迭代优化。
一、战略选择——全模态融合的必然
百灵已在开源社区发布了六款多模态模型,我们的多模态技术路径围绕模态和任务两大维度展开:
1. 纵轴:模态覆盖广度——从单点到全能
我们很早就确定了全模态输入/输出的技术路线。在真实业务场景中,音视图文信息往往同时存在。因此,我们支持音频、图像、视频、文本的全模态输入,并在输出侧支持图像、音频和文本生成(模态支持能力已与 Gemini、GPT-4o 等先进模型对齐)。
核心洞察:音视图文的深度融合是构建用户“超级入口”的必要条件,使人机交互更自由、更自然。
2. 横轴:任务能力演进——理解与生成的深度统一
当前多模态领域的技术热点在于理解与生成的融合统一。从认知角度看,理解与表达本应形成闭环。我们的目标是实现两个协同层次:
跨模态协同理解:音视图文联合表征
任务协同:理解与生成相互促进,打破“相互冲突”的旧阶段
二、Ming 系列的核心技术突破
百灵多模态的发展围绕 Scaling(规模化)和 Unify(融合统一)两条主轴,以下这两项成果共同构成了 Ming-Omni 的主体框架,并在此基础上构建了千亿级全模态模型:
Scaling:通过扩大参数规模与数据量,持续提升模型能力,这已被大量实验验证有效。
Unify:早在 2023 年,我们就尝试图像-文本、音-图-文的多模态融合,但初期因单模态能力不足,难以实现“1+1>2”的互促效果。经过近一年探索,我们于 2025 年 4~5 月突破了模态融合的关键技术。同期,我们还受 Meta 的 Meta Query 启发,完成了图像理解与生成的统一架构。
Ming-Omni 模型,是一款“能看、能听、能说、能画”的全能 AI,覆盖绝大多数多模态任务。其核心突破体现在三个方面:模态协同、任务协同与模型规模提升。
突破一:模态协同,全模态模型架构的尝试
Ming Omni 引入了 MoE(混合专家)架构,核心目的不仅在于提升计算效率,更在于实现模态协同:
模态差异化处理:不同专家可专注于不同模态(如图像专家、语音专家),通过多模态 Router 实现表征融合,兼顾模态差异性与共性。
动态 Top-K 激活策略:针对不同模态训练特性(如图像 token 少且收敛快、语音 token 多且收敛慢,梯度量级不一致),我们提出根据每个 Token 的重要性动态分配激活的专家数量。该策略显著提升模型在不同任务上的表现平稳性,并在推理时可减少约 1/3 的 Token 计算量,大幅提升效率。
突破二:任务协同,图像生成与理解统一
我们聚焦于解决理解与生成梯度不连通、优化困难的本质问题。借鉴 Meta Query 经验,我们探索了多尺度 Query 机制来提升图像生成质量。但最关键的突破是提出了非对称 Token 结构,彻底解决梯度不连通问题:
低维 Token:专门用于支持生成任务。
高维 Token:专门用于支持理解任务。
协同优化:低维和高维 Token 通过梯度驱动实现协同优化,首次实现了理解与生成的端到端联合训练,使收敛速度提升三倍以上,总 Token 量减少 1/3。
核心认知飞跃——“编辑”即统一:我们发现,图像领域“理解与生成一体两面”的任务,其本质是“编辑”。例如,当用户说“戴哨子的男人”,模型不仅要理解语义,还需精准定位到每个像素——这本质上是通过生成方式进行分割与编辑。
实测表明,Ming-lite-omni v1.5 在图像分割任务上表现精准。我们将传统的“二值掩码分割”重构为“彩色编辑任务”,使 REFCOCO 指标从 16.3 大幅提升至 73.0。
突破三:任务协调,语音理解与生成统一,语音领域的“One Token to Rule Them All”
我们将视觉领域的成功经验推广到语音模态,用生成方式实现语音编辑,统一理解与生成目标,以解决语音 AI 长期以来的“理解/生成表征割裂”问题:
终结离散 Token:彻底摒弃了传统方案(如 Qwen2.5-Omni)中语音理解侧编码连续但生成端依赖离散码本导致的梯度不连通和训练复杂性。
连续统一表征:设计了声学特征(Low-level)与语义特征(High-level)协同优化的 backbone,并彻底抛弃离散 tokenizer,首次实现了连续统一表征——单一连续 token 同时承载语义信息与声学细节,端到端联合优化理解、生成与编辑三大能力。
Ming UniAudio:业界主流的语音理解和语音生成方案分别使用两套不同的表征方式,这限制了语音编辑任务的效果上限。基于我们自研的理解生成统一表征 MingTok-Audio,同时完成了语音理解和生成任务,并在此基础上实现高质量的语音编辑能力。
第三部分|Scaling 成果与未来展望
我们在 Ming 1.5 基础上推出了千亿参数的 Ming-Flash-Omni 模型,标志着全模态能力进入新高度。
Scaling 带来的跃升:Ming-Flash-Omni 进一步优化了专家路由机制,采用双路平衡策略——通过 bias 和 loss 共同调控专家负载,实现更精准的多模态融合。Scaling 带来全面能力跃升,理解与生成同步增强,图像生成在 GenEval Benchmark 达到 89.7 分(SOTA),语音上下文建模显著突破。
验证:Ming-Flash-Omni 证明,全模态统一模型完全可达到甚至超越单模态专用模型的效果,前提是妥善处理任务与模态间的冲突。
目前,Ming Flash Omni 已展示强大能力:
图像生成支持细粒度编辑(如换编辑、证件照生成、文本修改)
多图融合与风格迁移仅需简单提示
通过文本指令实现语义、全景、指代表达等多种形式的分割任务
我们相信,未来 AI 的发展在于探索“模态自由组合”带来的泛化能力提升,实现真正的 “1+1>2”。
自年初至今,我们已开源六款模型,诚邀社区共同努力,完善全模态 AI 的生态,共同畅想未来“普通人也能手搓智能设备”的自由人机交互时代。
写在最后 - Ming 系列开源资料与链接
【模型】
Ming-V2 collection: https://huggingface.co/collections/inclusionAI/ming-v2
Ming Collection: https://huggingface.co/collections/inclusionAI/ming
Ming-lite-uni: https://huggingface.co/inclusionAI/Ming-Lite-Uni
【代码】
Ming-Omni: https://github.com/inclusionAI/Ming
Ming-UniVision: https://github.com/inclusionAI/Ming-UniVision
Ming-UniAudio: https://github.com/inclusionAI/Ming-UniAudio
Ming-lite-uni: https://github.com/inclusionAI/Ming/tree/main/Ming-unify
【技术报告】
Ming-Omni: https://huggingface.co/papers/2506.09344
Ming-flash-omni: https://huggingface.co/papers/2510.24821
Ming-UniVision: https://huggingface.co/papers/2510.06590
Ming-UniAudio: https://huggingface.co/papers/2511.05516
Ming-lite-Uni: https://huggingface.co/papers/2505.02471

