摘要
本文介绍了Qwen3-Omni,这是首个真正实现多模态无性能退化的统一大模型。该模型在处理文本、图像、音频和视频等多种模态时,能够保持与同规模单模态模型相当的性能水平,这在多模态系统发展史上是一个重要突破。传统的多模态模型往往存在"模态权衡"问题,即在某一模态上的性能提升往往伴随着其他模态性能的下降,而Qwen3-Omni成功解决了这一长期存在的技术难题。
该模型采用Thinker-Talker混合专家(MoE)架构(如图1所示),统一了跨文本、图像、音频和视频的感知和生成能力,能够产生流畅的文本和自然的实时语音。在音频处理方面表现尤为突出,在36个音频和音视频基准测试中,32个达到开源最优性能,22个达到整体最优性能,超越了Gemini-2.5-Pro、Seed-ASR和GPT-4o-Transcribe等强大的闭源模型。模型支持119种文本语言交互、19种语音理解语言和10种语音生成语言,能够处理长达40分钟的音频录音,在冷启动设置下实现理论端到端首包延迟234毫秒。
图1
图1展示了Qwen3-Omni的多模态处理能力,包括语音对话、视频对话和视频推理等多种应用场景,以及234ms的超低延迟性能。
GitHub:https://github.com/QwenLM/Qwen3-Omni
Huggingface:https://huggingface.co/spaces/Qwen/Qwen3-Omni-Demo
魔塔:https://modelscope.cn/studios/Qwen/Qwen3-Omni-Demo
前言
人类通过并行感知视觉和听觉输入,对这些信号进行认知处理,并通过文本表达、发声和工具介导或身体动作发出响应,从而实现与其他生物的信息交换并展示智能。基于单模态大型模型在理解和推理能力方面的快速进展,原生多模态系统已引起广泛关注。人类学习通常通过多种模态的协调使用进行,其中互补的专业化和跨模态协同作用提高了学习效率。
然而,当代以大语言模型为中心的多模态模型往往表现出模态权衡现象,即在某一模态上的收益伴随着其他模态的性能退化。这一局限性严重制约了多模态系统的实际应用价值。为了解决这一问题,研究团队在主流的基于LLM的范式内探索了集成多模态训练方法,展示了联合多模态训练可以实现所有模态的性能均等,即无模态特定的性能退化,同时显著增强跨模态能力如视频理解。
关键的技术突破在于在文本预训练的早期阶段混合单模态和跨模态数据。通过这种方法,Qwen3-Omni-30B-A3B-Base在广泛的基准测试中,其文本和视觉性能与同规模的单模态文本和视觉基础模型相当,同时表现出强大的音频能力、音视频理解、跨模态“思考”和实时音视频交互能力。这证明了开发无退化多模态系统是一个可实现的目标。
核心贡献
1.技术架构创新
Qwen3-Omni基于Qwen2.5-Omni中引入的Thinker-Talker架构,并进行了五个关键升级。
(1)Thinker和Talker都升级为混合专家(MoE)设计,显著提高了推理效率和并发处理能力。
(2)团队使用自主开发的AuT(Audio Transformer)编码器替代了Whisper音频编码器,该编码器在2000万小时的监督音频数据上从头训练,产生了更强的通用音频表示能力。
(3)在语音生成方面,采用了多码本表示,其增强的容量支持对多样化语音、副语言线索和声学现象的忠实建模。
(4)Talker从单轨转向多轨编解码器建模,通过MTP模块自回归预测多个码本层,而波形阶段(Code2Wav)用轻量级卷积网络(ConvNet)替代了块级DiT。
(5)输入和输出音频编码率降低到12.5Hz,输出编解码器支持单帧即时语音合成,这些改进共同实现了工业规模部署中高并发下的低延迟语音交互。
2.多模态无退化训练
相比于传统多模态模型的性能权衡问题,Qwen3-Omni实现了真正的无退化多模态训练。通过精心设计的训练策略,模型在文本和视觉模态上保持了与同规模单模态Qwen对应模型相当的最先进性能。这一突破证明了完全集成的端到端多模态训练可以在不降低核心语言能力和其他模态能力的情况下实现,为多模态AI系统的发展提供了重要的技术路径。
3.音频处理能力突破
在音频理解和生成方面,Qwen3-Omni展现了显著的技术优势。模型支持超过40分钟输入音频的理解,扩展的语言覆盖范围包括119种书面语言、19种语音理解语言和10种语音生成语言。引入的Thinking模型能够实现全模态推理,包括音频-视频和纯音频场景。改进的流式性能实现了低至234毫秒的端到端延迟,为实时交互应用奠定了技术基础。
方法
整体架构设计
Qwen3-Omni采用Thinker-Talker架构(如图2所示),其中Thinker负责文本生成,而Talker专注于通过直接从Thinker接收高级表示来生成流式语音令牌。为了实现超低延迟流式传输,Talker自回归预测多码本序列。在每个解码步骤中,MTP模块输出当前帧的残差码本,随后Code2Wav渲染器增量合成相应的波形,实现逐帧流式生成。
图2
图2展示了Qwen3-Omni的Thinker-Talker架构设计,包括多模态输入处理、MTP模块和Code2Wav渲染器的流式语音生成流程。
相比Qwen2.5-Omni,新架构引入了几个重要改进。Thinker和Talker都采用混合专家(MoE)架构以支持高并发和快速推理。Talker不再消耗Thinker的高级文本表示,仅基于音频和视觉多模态特征进行条件化,这种设计实现了文本内容的解耦,允许外部模块干预Thinker的文本输出。由于文本表示的解耦,Thinker和Talker可以使用不同的系统提示,独立控制Thinker的响应风格和Talker的音频风格。
音频变换器(AuT)设计
音频变换器(AuT)是基于注意力编码器-解码器的自回归模型(如图3所示),在2000万小时的监督音频数据上从头训练。训练过程中,音频的滤波器组特征在注意力层之前通过Conv2D块进行8倍下采样,将令牌率降低到12.5Hz。为了学习更强和更通用的音频表示,AuT在包含语音识别和音频理解任务的大规模音频数据集上训练,具体包括80%的中英文伪标签ASR数据、10%的其他语言ASR数据和10%的音频理解数据。
图3
图3展示了AuT的编码器-解码器架构,包括Conv2D下采样、注意力层处理和12.5Hz令牌率输出的完整流程。
为了平衡实时预填充缓存的效率与离线音频任务的性能,AuT利用具有动态注意力窗口大小的闪存注意力,覆盖从1到8秒的注意力查询模式。在Qwen3-Omni中,团队采用包含约6亿参数的AuT编码器作为音频编码器,这为模型提供了强大的音频理解能力基础。
多模态感知机制
在处理不同模态输入时,Thinker将文本、音频、图像和视频转换为一系列表示。对于文本输入,使用Qwen的分词器,应用字节级字节对编码,词汇量为151,643个常规令牌。对于音频输入和从视频中提取的音频,重采样至16kHz并将原始波形转换为具有25ms窗口和10ms跳跃的128通道梅尔频谱图。
视觉编码器采用来自Qwen3-VL的设计,从SigLIP2-So400m初始化,具有约5.43亿参数,能够处理图像和视频输入。该编码器在图像和视频数据的混合上训练,确保强大的图像理解和视频理解能力。为了在保持视频信息完整性的同时与音频采样率对齐,采用动态帧率对视频帧进行采样。
时间对齐多模态位置编码
受Qwen2.5-Omni启发,模型采用时间对齐多模态旋转位置编码(TM-RoPE),通过融合绝对时间信息扩展了多模态旋转位置编码(M-RoPE)。TM-RoPE将传统的旋转位置编码分解为三个不同的维度:时间、高度和宽度。在原始M-RoPE公式中,时间依赖性使用前16个旋转角度建模,这些角度对应更高频率并表现出更强的振荡模式。
为了解决这种设计在扩展到长序列时可能阻碍模型能力的限制,团队引入了旋转角度的修改分配。具体来说,时间、高度和宽度维度交错分配24、20和20个旋转角度,这种重新分配促进了局部语义和长程依赖的更平衡表示,从而增强了模型的整体性能。
流式和并发设计优化
在流式音视频交互场景中,首包延迟是影响用户体验的关键因素,模型的并发能力是降低服务成本和提高响应速度的关键。Qwen3-Omni保留了Qwen2.5-Omni中实现的分块预填充机制,其音频和视觉编码器能够沿时间维度输出块。在实时交互过程中,Thinker和Talker模块执行异步预填充:当Thinker完成当前块的预填充时,其输出的高级表示立即用于异步预填充Talker的当前块,同时Thinker预填充其下一个块。
为了最小化用户等待接收第一个生成数据包的时间,提出了仅左上下文多码本生成机制。一旦Talker生成第一个令牌,MTP模块就预测当前帧的其余令牌。这些令牌然后由仅关注左上下文的流式多码本编解码器解码为波形。与需要等待Talker提供足够块上下文才能合成的Qwen2.5-Omni不同,Qwen3-Omni可以在Talker生成每个令牌后立即输出波形,显著降低了首包延迟。
表1:不同并发度下的理论首包延迟
实验 (Experiments)
1
在文本到文本的评估中,团队将Qwen3-Omni与其他领先的大语言模型进行了比较。尽管参数数量较少,Qwen3-Omni-30B-A3B-Instruct在GPQA、AIME25、ZebraLogic、WritingBench和PolyMath等基准测试中超越了更大的开源模型Qwen3-235B-A22B Non-Thinking和强大的闭源模型GPT-4o-0327(如表2所示)。同时,Qwen3-Omni-30B-A3B-Thinking展现出与Gemini-2.5-Flash-Thinking和Qwen3-235B-A22B Non-Thinking相当的性能(如表3所示),证明了模型在保持多模态能力的同时维持了强大的文本处理能力。
表2:Qwen3-Omni-Instruct与其他非推理基线的文本到文本性能对比
表3:Qwen3-Omni-Thinking与其他推理基线的文本到文本性能对比
2
在音频处理方面的表现尤为突出。在自动语音识别(ASR)和语音翻译(S2TT)任务中,Qwen3-Omni-Instruct在Librispeech、Wenetspeech、Fleurs、CommonVoice等数据集上实现了最先进的中英文ASR和歌词ASR性能(如表4所示)。在多语言ASR和S2TT方面,与Voxtral-Small和Gemini-2.5-Pro等专业或通用模型相比,表现出更好或相当的性能。
表4:音频到文本任务的转录性能对比(ASR & S2TT)
在VoiceBench上,Qwen3-Omni-Thinking获得了89.5的平均分,超越了除Gemini-2.5-Pro(89.6)之外的所有其他音频语言模型,展示了模型在语音交互方面的强大能力。在音频推理方面,模型在MMAU基准测试中超越了强大的闭源模型Gemini-2.5-Pro和Gemini-2.5-Flash,在MMSU上超越了Gemini-2.5-Flash和GPT-4o-Audio(如表5所示),证明了在通用音频理解和推理方面的强大能力。
表5:音频到文本任务的语音交互和音频推理性能
3
在视觉到文本的任务中,Qwen3-Omni-Instruct与Qwen2.5-VL-72B和其他表现良好的闭源视觉语言模型进行了全面比较。模型展现出与Qwen2.5-VL-72B相当的性能,在MMMU-Pro整体、MathVista mini和MATH-Vision full等数学和STEM相关任务上取得了比GPT-4o和Gemini-2.0-Flash更好的结果(如表6所示),显示了模型在图像理解和推理任务方面的能力。
表6:Qwen3-Omni-Instruct与其他非推理基线的视觉到文本性能
在Thinking模型的评估中,与几个最先进的推理模型相比取得了显著进展(如表7所示)。例如,在数学和STEM基准测试中,比Qwen3-Omni-Instruct基线高出4.4个百分点。值得注意的是,Qwen3-Omni-30B-A3B-Thinking模型达到了与更大基线模型相当的性能水平,突出了其在效果和计算效率方面的优秀平衡。
表7:Qwen3-Omni-Thinking与其他推理基线的视觉到文本性能
4
在音视频联合理解方面,实验结果验证了Qwen3-Omni在多样化音视频任务中的有效性。在通用理解方面,Qwen3-Omni-Instruct在WorldSense基准测试中实现了最先进的性能,大幅超越其他Omni模型(如表8所示),证明了其在基础多模态集成方面的有效性。模型在需要对互连音频和视觉信息进行推理的复杂推理任务上表现增强(如表9所示),这些发现共同表明Qwen3-Omni在现实世界环境中的高级感知和推理方面具有相当大的潜力。
表8:Qwen3-Omni-Instruct与其他非推理基线的音视频到文本性能
表9:Qwen3-Omni-Thinking与其他推理基线的音视频到文本性能
5
在语音生成能力评估方面,团队主要关注零样本语音生成、多语言语音生成和跨语言语音生成三个方面。在SEED数据集上的零样本语音生成测试中,Qwen3-Omni表现出高度竞争性的性能,特别是在强化学习优化后,在test-en集合上取得了最佳性能(如表10所示)。
表10:SEED-TTS测试集上的零样本语音生成性能
在支持10种语言的多语言语音生成评估中,相比MiniMax-Speech和ElevenLabs Multilingual v2模型,在中文、英文和法语等语言上大幅超越这些模型,在其余语言上提供有竞争力的结果(如表11所示)。
表11:MiniMax多语言测试集上的多语言语音生成性能
在跨语言语音生成方面,在any-to-en和any-to-ko语音克隆任务中超越了CosyVoice3,在any-to-ja任务中即使没有文本规范化也达到了与CosyVoice3相当的性能(如表12所示)。
表12:CosyVoice3跨语言测试集上的跨语言语音生成性能
6
为了验证多模态训练不会导致性能退化,团队设计了控制对比研究。通过预训练三个参数数量匹配的模型:纯文本基线、纯视觉基线和多模态"Omni"模型,并严格控制所有混淆变量。实验结果不仅证明了在文本预训练早期阶段混合单模态和跨模态数据可以在所有模态上实现更好的性能,还表明联合多模态训练能够实现不同模态之间的相互增强,从而改善单模态的性能(如表13所示)。这充分展示了Qwen3-Omni在不同评估标准下的多功能性和鲁棒性,为多模态AI系统的发展提供了重要的技术验证。
表13:同规模30A3模型系列的多模态非退化性能对比
结论与意义
Qwen3-Omni的成功开发代表了多模态AI系统发展的重要里程碑。该模型首次证明了完全集成的端到端多模态训练可以在不降低核心语言能力和其他模态能力的情况下实现,解决了长期困扰多模态系统的性能权衡问题。在实际应用价值方面,Qwen3-Omni-30B-A3B提供了强大的文本和视觉能力、稳健可靠的ASR、支持20多种语言的交互式语音支持、用于交互使用的超低首包延迟以及稳定自然的语音合成能力。
相比于级联管道,该模型展现出明显优势,包括更强的跨模态推理能力、更低的端到端延迟以及更低的系统复杂性和成本。这些技术突破为多模态AI系统在实际应用中的广泛部署奠定了坚实基础,推动了人工智能向更加智能化和实用化的方向发展。未来的研究将在多说话人ASR、视频OCR、音视频主动学习以及增强的基于代理的工作流程和函数调用支持等多个轴线上进一步推进模型发展。

