大数跨境

炸裂!阿里云发布Qwen3.7-Max,基准测试超Claude Opus,不只是"国产第一"!

炸裂!阿里云发布Qwen3.7-Max,基准测试超Claude Opus,不只是"国产第一"! 创见AI实验室
2026-05-20
3
导读:Qwen3.7-Max在从未见过的真武M890芯片上,自主工作35小时、完成1158次工具调用,跑完了生产级内核优化,性能提升10倍。

视频速递


一、Qwen3.7-Max:基准测试超Claude Opus,不只是"国产第一"

先说硬货。

Qwen3.7-Max在GPQA Diamond评测中得分92.4,Claude Opus-4.6得分是91.3。不是"接近",是直接超了。

Arena盲测也是国产第一。这个榜单的分量做AI的应该清楚——不是厂商自己填的表格,是真实用户盲投出来的。

但数字只是结果,核心问题是:它怎么做到的?

答案藏在下面这个案例里。


二、35小时、1158次工具调用:国产AI第一次验证长程Agent生产级可行

这是今天最让我震撼的一条数据。

Qwen3.7-Max在从未见过的真武M890芯片上,自主工作35小时、完成1158次工具调用,跑完了生产级内核优化,性能提升10倍

注意几个关键词:从未见过 + 生产级

这不是给它一个熟悉的环境让它跑分。这是扔给它一块全新的芯片,让它自己摸索、自己规划、自己执行——35小时,一个工具一个工具地调,最后交出结果。

这种能力,业内叫长程Agent能力。之前大家在说,但真正在国产模型上验证生产级可行,Qwen3.7-Max是第一次。

意味着什么?意味着以后真能让AI自主负责一个完整的生产任务,而不是"跑个demo给你看看"。


三、千问云:首页没有控制台,只有一行npx指令

这是今天发布会的另一个重磅,但被大部分科技媒体低估了。

千问云——阿里云全新产品官网。

首页没有控制台。没有按钮、没有菜单、没有"登录即开始"。首页只有一行:

npx skills add


一行指令,替代了整个控制台。

以前你想用云服务,要登录控制台、找菜单、点来点去、云架构图里找服务。

现在呢?你给AI一条指令,AI帮你读完文档、调用工具、执行任务、返回结果。

云的交互逻辑从"人找功能"变成了"AI自动执行"

阿里云的判断是:下一波云的主力消费者,不是人,是Agent。


四、真武M890:144GB显存,性能是前代3倍

和Qwen3.7-Max配套发布的还有自研AI芯片真武M890

规格:144GB显存,性能是前代3倍。配合128卡超节点服务器。

这块芯片不是配角——它就是上面那个35小时案例的硬件底座。Qwen3.7-Max能在"从未见过的芯片"上自主工作35小时,靠的就是这颗芯片和模型本身的强强联合。


五、阿里云AI ARR超80亿:这不是PPT,是真金白银

最后说一个可能被忽略的数字。

阿里云AI的ARR(年度 recurring revenue)已超80亿,预计年底突破300亿

ARR不是收入规模,是"订阅制收入"——意味着有稳定客户在持续付费,不是靠一锤子项目撑起来的数字。

300亿年底目标,意味着接下来大半年还有3倍多的增长空间。

这个数字背后,是Qwen3.7-Max和整个全栈Agent化战略的底气。


写在最后

这波浪潮,核心就一句话:未来云的用户不是人,是AI。

Qwen3.7-Max验证了国产模型长程Agent的生产级可行,千问云把"AI当用户"的交互逻辑变成了产品现实。

这不是某个功能的升级,是整个云服务交互范式的重构。

你在用阿里云服务吗?觉得Agent化对日常开发影响大吗?评论区聊聊。


精选系列




【声明】内容源于网络
0
0
创见AI实验室
创见AI实验室,我们不只是介绍工具,我们共同创造工作方式的未来。
内容 147
粉丝 0
创见AI实验室 创见AI实验室,我们不只是介绍工具,我们共同创造工作方式的未来。
总阅读20
粉丝0
内容147