大数跨境
0
0

Qwen3-Max思考版上线,集成代码解释器攻坚复杂数学

Qwen3-Max思考版上线,集成代码解释器攻坚复杂数学 DeepTech深科技
2025-11-04
0
导读:11 月 3 日,阿里巴巴推出 Qwen3-Max-Thinking 早期预览版。

11 月 日,阿里巴巴推出 Qwen3-Max-Thinking 早期预览版。Qwen3-Max-Thinking 是 Qwen3-Max 的推理增强版本,它通过集成代码解释器和运用并行测试时计算技术,展现出较强的推理能力。据了解,Qwen3-Max 是阿里巴巴于今年 月下旬推出的该公司迄今为止规模最大、能力最强的语言模型,参数量在 万亿以上,预训练数据达到 36T tokens

图 | Qwen3-Max-Thinking 早期预览版的相关 推文(来源:X

目前,Qwen3-Max 推理模型仍在持续训练中,即便使用当前的 Checkpoint,当借助工具调用和规模化的测试时计算时,阿里巴巴表示该模型可在 AIME 25 和 HMMT25 等挑战性较高的数学推理基准测试中达到 100% 的准确率。

Qwen3-Max-Thinking 早期预览版融合了思考模式与非思考模式。当开启思考模式的时候,模型可以很好地执行常识推理和智能体编程等能力,也在数学、科学和其他通用领域具有较好的推理能力。

图 使用 Qwen3-Max-Thinking 时选择深度思考模式(来源:实测图)

在实测中,当笔者让 Qwen3-Max-Thinking 完成一个名为数学推理与可视化智能体的智能体编程任务时,它花了较长时间思考,消耗的 tokens 也不算低。

图 | Qwen3-Max-Thinking 在完成数学推理与可视化智能体的智能体编程任务时消耗的 tokens(来源:实测截图)

图  Qwen3-Max-Thinking 在完成数学推理与可视化智能体的智能体编程任务时的部分思考过程(来源:实测图)

经过几分钟的思考以及长达 527 行的代码,它给出了一个示例输出报告,附上了完整的 HTML 报告示例,并指出这一智能体通过多路径验证可以确保数学严谨性,通过结果的专业可视化能够提供直观的洞察,在架构设计上支持扩展至微积分和组合优化等其他数学问题类型,能够为复杂数学推理任务提供完整解决方案。

图 | Qwen3-Max-Thinking 在完成数学推理与可视化智能体的智能体编程任务时使用了 527 行代码(来源:实测图)

当给到 Qwen3-Max-Thinking 一个名为社区生活情境推理的常识推理任务时,它给出了两千多字的回答,在这一回答中它根据线索开展了常识分析,给出了逐步重建的核心常识,并进行了超越表面问题的深度风险分析。

图 社区生活情境推理的常识推理任务的描述(来源:实测图)

图 | Qwen3-Max-Thinking 针对社区生活情境推理常识推理任务的部分生成答案(来源:实测图)

一位名为MZift的 网友在 Qwen 的 推文下表示:在 AIME 测试中斩获满分着实惊人,即使是阶段性测试也堪称突破。当众人沉迷于 OpenAI 的纷争时,Qwen 正在悄然蓄力。中国 AI 实验室的崛起之路,果然别具一格。另一位名为Kenshii的 网友也评论称:竟能在AlME 2025 这一中期基准测试中拿到满分?这实力着实骇人。

图 | X 网友评论(来源:X

但也有网友根据试用体验表达了自己遇到的问题,一位名为Goutham Rajesh的 网友表示:我在试用带有思考过程的 Qwen3-Max 时,页面竟然陷入了无限滚动模式,每当生成响应内容,页面便持续地进行递归式自行滚动,直到完全生成内容才会停止。这一现象仅限于 Qwen3-Max 思考模式。写完这段话,这位网友还艾特了 Qwen 的 账号来反馈该问题。

图 网友评论(来源:X

事实上,这并非阿里的突然发布。11 月 日,通义千问负责人林俊旸已经在 上预告称:它来了,你们可以试试。关于 Qwen3-Max-Thinking 早期预览版,尚未在 Hugging Face 和魔搭等平台开源。目前,用户可以在 Qwen Chat 中免费试体验,也可以在阿里云百炼平台上调用 API。需要说明的是,文本到文本——是 Qwen3-Max-Thinking 早期预览版目前支持的唯一模态。在对外提供 API 服务上,它采用输出限时免费的方式。未来随着训练的进一步开展,阿里也将推出更多版本。

名为ρ:ɡeσn的 网友已经根据 Qwen 的模型时间给出了推测:Qwen3-Max 预览版于 月 日发布,正式指令版于 月 23 日亮相,其间相隔 18 天。假如思考模型也遵循这一时间线,那么 Qwen3-Max-Thinking 正式版有望于 11 月 20 日到 11 月 21 日之间亮相。是否真的如此,或许不久之后即将揭晓。

参考资料:

https://chat.qwen.ai/

【声明】内容源于网络
0
0
DeepTech深科技
DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
内容 4824
粉丝 0
DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
总阅读25.1k
粉丝0
内容4.8k