彻底爆了！阿里重磅发布Qwen3-Max，性能全球领先！- 大数跨境

郭震AI

2025-09-24

284

2025阿里云栖大会发布通义千问AI全家桶，Qwen3-Max性能全球领先

2025年阿里云栖大会正式开幕，阿里巴巴推出“通义千问”AI全家桶，其中旗舰模型Qwen3-Max凭借超万亿参数规模和卓越性能，跻身全球大模型前列。

Qwen3-Max是通义千问家族中目前最大、最强的大模型，于2025年云栖大会重磅发布。该模型参数规模突破万亿，在权威LMArena文本排行榜中位列全球前三，力压GPT-5，成为国内最强的大语言模型。

当前版本为Qwen3-Max-Preview（预览版），正式版即将上线，性能有望进一步提升。

Qwen3-Max分为两个子版本：instruct与thinking。前者适用于无需长时间推理的高效交互任务；后者则针对复杂逻辑与深度推理场景优化。

在衡量大模型智能体（agentic）能力的权威基准Tau2-Bench上，Qwen3-Max-Instruct取得74.8分，超越Claude Opus 4，位居榜首。

Tau2-Bench评估模型在多轮交互、自主决策与环境感知等方面的表现，允许用户与智能体进行复杂任务协作。

Qwen3-Max-Thinking在极具挑战性的数学推理基准AIME 25和HMMT上均获得满分，表现与GPT-5 Pro、Grok4 Heavy相当，处于全球第一梯队。

为验证Qwen3-Max的实际能力，从多个维度进行了测试。

选取AIME 25中一道典型题目进行实测：

模型输出完整推导过程，涵盖逻辑分析、公式构建与数值计算，展现出强大的数学理解与推理能力。在如此高难度数据集上实现全对，技术门槛极高，目前全球仅有少数模型可达此水平。

将一个练习题网站的界面截图输入Qwen3-Max，要求生成对应前端代码。

不到三分钟，模型生成HTML、CSS、JavaScript三个文件：

生成结果与原始设计高度一致：

表明其在UI布局理解、视觉元素识别与前端工程化方面具备出色能力。

测试模型对小众产品DeepSeekMine的理解能力。提问“DeepSeekMine介绍”后，Qwen3-Max准确总结其功能定位，并列出参考来源页面，有效辅助信息收集。

输出内容全面无误，体现了强大的网络检索、语义理解和多源信息融合能力。

除Qwen3-Max外，阿里同步发布Qwen3-Omni，首个真正意义上的统一多模态大模型，支持文本、图像、音频、视频的联合处理与生成。

其架构包含以下核心模块：

不同颜色方块代表文本、视觉、音频等隐藏状态在统一Transformer中混合处理，实现真正的多模态融合。

这一设计使得Qwen3-Omni可一次性生成文本、音频、视频内容，显著降低数字人、虚拟助手等应用的开发门槛，推动多模态AI落地进程。

【声明】内容源于网络

郭震AI

郭震，工作8年后到美读AI博士，努力分享一些最新且有料的AI。

内容 1466

粉丝 1

郭震AI 郭震，工作8年后到美读AI博士，努力分享一些最新且有料的AI。

总阅读66.4k

粉丝1

内容1.5k