炸裂！阿里云发布Qwen3.7-Max，基准测试超Claude Opus，不只是"国产第一"！- 大数跨境

首页

炸裂！阿里云发布Qwen3.7-Max，基准测试超Claude Opus，不只是"国产第一"！

创见AI实验室

2026-05-20

导读：Qwen3.7-Max在从未见过的真武M890芯片上，自主工作35小时、完成1158次工具调用，跑完了生产级内核优化，性能提升10倍。

视频速递

一、Qwen3.7-Max：基准测试超Claude Opus，不只是"国产第一"

先说硬货。

Qwen3.7-Max在GPQA Diamond评测中得分92.4，Claude Opus-4.6得分是91.3。不是"接近"，是直接超了。

Arena盲测也是国产第一。这个榜单的分量做AI的应该清楚——不是厂商自己填的表格，是真实用户盲投出来的。

但数字只是结果，核心问题是：它怎么做到的？

答案藏在下面这个案例里。

二、35小时、1158次工具调用：国产AI第一次验证长程Agent生产级可行

这是今天最让我震撼的一条数据。

Qwen3.7-Max在从未见过的真武M890芯片上，自主工作35小时、完成1158次工具调用，跑完了生产级内核优化，性能提升10倍。

注意几个关键词：从未见过 + 生产级。

这不是给它一个熟悉的环境让它跑分。这是扔给它一块全新的芯片，让它自己摸索、自己规划、自己执行——35小时，一个工具一个工具地调，最后交出结果。

这种能力，业内叫长程Agent能力。之前大家在说，但真正在国产模型上验证生产级可行，Qwen3.7-Max是第一次。

意味着什么？意味着以后真能让AI自主负责一个完整的生产任务，而不是"跑个demo给你看看"。

三、千问云：首页没有控制台，只有一行npx指令

这是今天发布会的另一个重磅，但被大部分科技媒体低估了。

千问云——阿里云全新产品官网。

首页没有控制台。没有按钮、没有菜单、没有"登录即开始"。首页只有一行：

npx skills add

一行指令，替代了整个控制台。

以前你想用云服务，要登录控制台、找菜单、点来点去、云架构图里找服务。

现在呢？你给AI一条指令，AI帮你读完文档、调用工具、执行任务、返回结果。

云的交互逻辑从"人找功能"变成了"AI自动执行"。

阿里云的判断是：下一波云的主力消费者，不是人，是Agent。

四、真武M890：144GB显存，性能是前代3倍

和Qwen3.7-Max配套发布的还有自研AI芯片真武M890。

规格：144GB显存，性能是前代3倍。配合128卡超节点服务器。

这块芯片不是配角——它就是上面那个35小时案例的硬件底座。Qwen3.7-Max能在"从未见过的芯片"上自主工作35小时，靠的就是这颗芯片和模型本身的强强联合。

五、阿里云AI ARR超80亿：这不是PPT，是真金白银

最后说一个可能被忽略的数字。

阿里云AI的ARR（年度 recurring revenue）已超80亿，预计年底突破300亿。

ARR不是收入规模，是"订阅制收入"——意味着有稳定客户在持续付费，不是靠一锤子项目撑起来的数字。

300亿年底目标，意味着接下来大半年还有3倍多的增长空间。

这个数字背后，是Qwen3.7-Max和整个全栈Agent化战略的底气。

写在最后

这波浪潮，核心就一句话：未来云的用户不是人，是AI。

Qwen3.7-Max验证了国产模型长程Agent的生产级可行，千问云把"AI当用户"的交互逻辑变成了产品现实。

这不是某个功能的升级，是整个云服务交互范式的重构。

你在用阿里云服务吗？觉得Agent化对日常开发影响大吗？评论区聊聊。

精选系列

【声明】内容源于网络

创见AI实验室

创见AI实验室，我们不只是介绍工具，我们共同创造工作方式的未来。

内容 147

粉丝 0

创见AI实验室创见AI实验室，我们不只是介绍工具，我们共同创造工作方式的未来。

总阅读20

粉丝0

内容147