大数跨境

开源模型变天了!GLM-5.2登顶全球榜单:744B参数、MIT开源、成本打到GPT的六分之一

开源模型变天了!GLM-5.2登顶全球榜单:744B参数、MIT开源、成本打到GPT的六分之一 深空信使
2026-06-19
53
导读:开源模型变天了!GLM-5.2登顶全球榜单:744B参数、MIT开源、成本打到GPT的六分之一

2026年6月17日凌晨,一条来自第三方评测机构Artificial Analysis的推文,把开源AI圈炸醒了。

Z.ai(智谱)的GLM-5.2,在Artificial Analysis Intelligence Index v4.1上拿下51分,一举登顶开源权重模型榜首。MiniMax-M3 44分,DeepSeek V4 Pro 44分,Kimi K2.6 43分——全被甩在身后。

更狠的是,GLM-5.2的总参数(744B)和激活参数(40B)跟上一代GLM-5.1一模一样。架构没变,参数没加,单纯靠后训练和系统优化,分数硬生生从40跳到51,涨了11分。

▲ Artificial Analysis官方文章宣布GLM-5.2登顶,标题直呼"the new leading open weights model"

同一时间,Z.ai官方推文宣布开源,MIT许可证,权重即刻可下载。500万+阅读,1万+点赞。开发者在评论区直接喊出"You are my heroes"。

▲ Z.ai官方发布帖,强调"Frontier Intelligence, Open Weights",MIT许可、1M上下文、API定价不变

51分到底什么水平?榜单说了算

Artificial Analysis的榜单不是野榜。它是目前独立第三方评测里最硬核的之一,v4.1版本专门转向真实世界Agentic工作负载的评估。

在总榜上,GLM-5.2(max模式)排在开源权重第一,甚至逼近一些闭源专有模型的区间。

▲ AA主页榜单,GLM-5.2 (max)在开源权重中排名第一,紧逼闭源阵营

具体维度看看这11分是怎么涨出来的:

  • CritPt(物理/批判性推理)
    :从5%跳到21%,涨了16个百分点
  • HLE(Humanity's Last Exam)
    :从28%升到40%,涨了12个点
  • AA-LCR(长上下文推理)
    :从62%拉到71%
  • TerminalBench v2.1
    :从62%冲到78%,涨了16个点
  • τ³-Banking(银行工具使用Agent)
    :从12%翻到27%
  • GPQA Diamond
    :从86%爬到89%

七个维度都在涨。某一个benchmark飘了可以归给运气,七个维度同时往上拉,底层能力确实不一样了。

最让人坐不住的,是GDPval-AA v2这个指标。它是AA专门用来衡量真实世界Agentic执行能力的核心测试——让模型完成有实际产出的工程任务,然后人工目视检查输出质量

GLM-5.2在这项上拿到1524分,压过MiniMax-M3的1418和DeepSeek的1328,直接追平了GPT-5.5 (xhigh模式) 的1514分

AA在文章里特别强调了这点:"We visually inspected GLM-5.2's outputs across a range of GDPval-AA tasks"——所有GDPval任务输出都经过了人工目视检查,得分后面站着真实的工程产出。

▲ AA发布的数据对比图,GLM-5.2在GDPval-AA v2上领先所有开源模型,基本持平GPT-5.5

同样的744B,凭什么多出11分?

Z.ai的博客标题起得很直白:"GLM-5.2: Built for Long-Horizon Tasks"。

核心逻辑不是堆参数。是把1M上下文真正用起来

博客里有一句很关键的话:"A 1M context is easy to claim, but much harder to keep reliable under real engineering pressure." 宣称支持100万token上下文不难,难的是在实际工程压力下保持可靠。

GLM-5.2在Coding Agent场景下了苦功。数月专项训练,针对长时程任务(大规模实现、自动化研究、性能优化、复杂调试)做了强化学习。

效果怎么样?看几个长时程benchmark:

  • FrontierSWE
    :74.4分,仅次于Opus 4.8的75.1,压过GPT-5.5的72.6
  • PostTrainBench
    :34.3分,碾压GPT-5.5的28.4
  • SWE-Marathon
    :13.0分,与Opus系列属同一梯队

一个真实案例:开发者在X上晒出用GLM-5.2一次性完成物理模拟项目(泳池破裂、高尔顿板),代码量极大、细节丰富,单次任务消耗85万token,几乎打满1M窗口。

▲ 官方博客详细拆解了Solid 1M上下文、Effort控制、IndexShare架构、MIT纯开源四大核心能力

架构层面,有三板斧在撑:

IndexShare。每4层共享一个轻量indexer,1M上下文下per-token FLOPs降低2.9倍。简单说就是计算量砍了三分之二,长文本不再烧算力。

MTP改进(投机解码)。接受长度提升20%,结合拒绝采样和端到端TV损失,推理更快更稳。

slime框架。Z.ai自研的强化学习基础设施,支持白盒/黑盒rollout和子代理工作流。整个OPD训练只用了大约2天。

还有一个叫Anti-hack模块的设计值得一提:训练中自动检测并阻断模型"作弊"(比如用curl偷看答案、读eval secret),同时允许rollout继续跑,避免训练崩溃。

这些合在一起,回答了一个问题:相同硬件footprint下,智能能不能继续涨?GLM-5.2的答案是能,而且涨了不少。

性价比这一刀,切在哪?

GLM-5.2的API定价跟GLM-5.1完全持平:每百万token输入$1.4、输出$4.4、缓存命中$0.26。

在这个价格点上,AA的Intelligence vs Cost per Task图表说了实话:在同等智商水平下,GLM-5.2是成本最低的模型。它正好坐在"帕累托前沿"上。

▲ Hugging Face上可直接下载权重,MIT许可证允许商用、无地域限制

重点对比一下:

  • GLM-5.2单任务成本约$0.46,产出43k token(其中37k推理token)
  • MiniMax-M3单任务$0.18,但只产24k token
  • DeepSeek单任务$0.05,产出更少

贵,确实比便宜的对手贵。但43k token的输出量——是MiniMax的近两倍。长时程任务里,模型多思考和验证,最终产出质量更高。VentureBeat的标题点破了这件事:"Beats GPT-5.5 on multiple long-horizon coding benchmarks for 1/6th the cost."

六分之一的价格,追平甚至局部超越GPT-5.5的长时程编码能力。

开源权重意味着什么?意味着你可以自托管。vLLM、SGLang、Transformers、KTransformers、Ascend NPU全部支持。同时,DeepInfra、Novita、Nebius、Parasail、SiliconFlow、Fireworks、Cloudflare Workers AI等十几家推理服务商在发布当天就上线了。

不是只能走官方API一条路。想怎么用就怎么用。

▲ 中文文档推荐的实战场景:项目级工程接管、长程重构、移动端真机调试、科研复刻

质疑有没有?有

这么大的参数体量,744B全量加载到内存就是一道坎。社区有开发者直接吐槽:"40b active looks cheap until 744b total starts hurting memory and cold starts."

翻译过来:激活参数看着只有40B,轻飘飘的,但744B总参数塞进内存的那一刻,冷启动时间才是真正的痛。

AA的Intelligence Scoring Methodology v4.1升级也引发了一些讨论。新版本引入了更多agentic指标和新的judge方式,导致部分老模型相对分数发生了变化。有人在评论区说"This jump is impressive but... your scoring system is severely flawed"。

输出token量大也是双刃剑。GLM-5.2平均单任务产43k token,长了确实靠谱,但也意味着每次调用都在烧钱。好在官方提供了两个推理强度档位:max模式全力冲,high模式在性能和token效率之间取平衡。

还有一个客观限制:GLM-5.2是纯文本模型,不支持图像输入。多模态场景暂时无缘。

这件事为什么值得认真看

GLM-5.2这个发布,不是在刷榜。

同一个架构,同一种尺寸,后训练加上基础设施优化,把一个已经很强的模型又往上推了11分。这件事告诉行业一个信号:参数规模的军备竞赛告一段落了,下一阶段的战场在数据质量、训练方法和系统工程。

更重要的信号是开源。MIT许可证、权重立刻可下载、十几家平台同时上——Z.ai在把"前沿智能"从小部分人的特权变成基础设施。Filecoin和io.net的官方账号都在评论区表示要接入去中心化计算。

中文媒体量子位的报道标题直接给到了"Fable-5之下,开源第一"的评价,把Claude、OpenAI、智谱并称为AI编程的"全球御三家"。

▲ 量子位报道称GLM-5.2在Fable-5之下,开源模型第一,"全球御三家"格局形成

对开发者来说,多了一个强力、便宜、可本地部署的Coding Agent选项。对行业来说,中国实验室的迭代速度和开放姿态,给全球开源生态打了强心针。对用户来说,GPT-5.5级别的编码能力,六分之一的价格,这件事本身就足够震动。

有人问下一个会不会是1T参数?

也许参数会更大,也许同尺寸还会继续涨分。GLM-5.2用实际结果告诉你:架构不变的情况下,智能的上涨空间远没有见顶。

【声明】内容源于网络
0
0
深空信使
深空信使
内容 64
粉丝 0
深空信使 深空信使
总阅读344
粉丝0
内容64