2025阿里云栖大会发布通义千问AI全家桶,Qwen3-Max性能全球领先
2025年阿里云栖大会正式开幕,阿里巴巴推出“通义千问”AI全家桶,其中旗舰模型Qwen3-Max凭借超万亿参数规模和卓越性能,跻身全球大模型前列。

Qwen3-Max介绍
Qwen3-Max是通义千问家族中目前最大、最强的大模型,于2025年云栖大会重磅发布。该模型参数规模突破万亿,在权威LMArena文本排行榜中位列全球前三,力压GPT-5,成为国内最强的大语言模型。
当前版本为Qwen3-Max-Preview(预览版),正式版即将上线,性能有望进一步提升。
Qwen3-Max分为两个子版本:instruct与thinking。前者适用于无需长时间推理的高效交互任务;后者则针对复杂逻辑与深度推理场景优化。
instruct版:智能体能力全球领先
在衡量大模型智能体(agentic)能力的权威基准Tau2-Bench上,Qwen3-Max-Instruct取得74.8分,超越Claude Opus 4,位居榜首。
Tau2-Bench评估模型在多轮交互、自主决策与环境感知等方面的表现,允许用户与智能体进行复杂任务协作。
thinking版:数学推理能力达顶尖水平
Qwen3-Max-Thinking在极具挑战性的数学推理基准AIME 25和HMMT上均获得满分,表现与GPT-5 Pro、Grok4 Heavy相当,处于全球第一梯队。
Qwen3-Max实测表现
为验证Qwen3-Max的实际能力,从多个维度进行了测试。
数学解题能力测试
选取AIME 25中一道典型题目进行实测:
模型输出完整推导过程,涵盖逻辑分析、公式构建与数值计算,展现出强大的数学理解与推理能力。在如此高难度数据集上实现全对,技术门槛极高,目前全球仅有少数模型可达此水平。
前端代码生成能力测试
将一个练习题网站的界面截图输入Qwen3-Max,要求生成对应前端代码。
不到三分钟,模型生成HTML、CSS、JavaScript三个文件:
生成结果与原始设计高度一致:
表明其在UI布局理解、视觉元素识别与前端工程化方面具备出色能力。
网页检索与信息整合能力测试
测试模型对小众产品DeepSeekMine的理解能力。提问“DeepSeekMine介绍”后,Qwen3-Max准确总结其功能定位,并列出参考来源页面,有效辅助信息收集。
输出内容全面无误,体现了强大的网络检索、语义理解和多源信息融合能力。
Qwen3-Omni:首款全能型多模态大模型
除Qwen3-Max外,阿里同步发布Qwen3-Omni,首个真正意义上的统一多模态大模型,支持文本、图像、音频、视频的联合处理与生成。

其架构包含以下核心模块:
- Vision Encoder:将图像帧编码为特征向量
- AuT:处理音频时序信号
- MoE Thinker:负责跨模态深度理解与推理
- MoE Talker:实现跨模态交互与文本生成
- MTP模块 + Streaming Codec Decoder:支持多任务预测与实时语音输出
不同颜色方块代表文本、视觉、音频等隐藏状态在统一Transformer中混合处理,实现真正的多模态融合。
这一设计使得Qwen3-Omni可一次性生成文本、音频、视频内容,显著降低数字人、虚拟助手等应用的开发门槛,推动多模态AI落地进程。

