GLM-5.2 炸榜！744B 总参只激活 40B，开源权重模型首次登顶 AA 智能指数，成本打到 GPT-5.5 的六分之一- 大数跨境

首页

GLM-5.2 炸榜！744B 总参只激活 40B，开源权重模型首次登顶 AA 智能指数，成本打到 GPT-5.5 的六分之一

机器回廊

2026-06-19

导读：GLM-5.2 炸榜！744B 总参只激活 40B，开源权重模型首次登顶 AA 智能指数，成本打到 GPT-5.5 的六分之一

2026 年 6 月 17 日，独立基准平台 Artificial Analysis 更新了 Intelligence Index v4.1。排在开源权重模型第一位的，是一个让很多人意想不到的名字：GLM-5.2。

51 分。

MiniMax-M3 44 分。DeepSeek V4 Pro max 44 分。Kimi K2.6 43 分。

没有模棱两可。Artificial Analysis 的原话是"new open weights leader"—— 新的开源权重模型领导者，直接登顶，没给对手留任何并列空间。

而更让人肾上腺素飙升的，是另一组数字。

同样的 744B 总参数、40B 激活参数，GLM-5.2 相比前代 GLM-5.1，智能指数直接跳了11 分。

同一副骨架，换了一身本事。

长时域任务：开源模型第一次摸到了 Frontier 的边界

GLM-5.2 真正的杀手锏不在标准问答基准上。Z.ai 把全部工程资源砸进了"long-horizon"—— 长时域任务。

什么叫长时域？把你熟悉的代码补全场景彻底放大：模型面对的不再是一个函数体，而是一个长达数小时的真实工程项目 —— 自己规划、编码、调试、部署、修 bug，在几千步的 agent 轨迹里保持稳定不出错。

这种场景下，GLM-5.2 交出的成绩单让不少人重新审视"开源和闭源的差距"这个命题。

FrontierSWE（Dominance），当前衡量 agentic coding 硬实力的标杆：GLM-5.2 拿下 74.4，仅次于 Opus 4.8 的 75.1，领先 GPT-5.5 的 72.6。差距不到 1 分。

前代 GLM-5.1 在这个基准上只有 30.5。从 30.5 到 74.4，迭代两个字已经概括不了这个幅度了。

PostTrainBench，评估模型在训练后优化流程中的表现：34.3。Opus 4.8 是 37.2，GPT-5.5 是 28.4。GLM-5.2 直接插进了两强之间。

SWE-Marathon，马拉松级软件工程任务：13.0。虽然仍落后 Opus 4.8（26.0），但前代 GLM-5.1 只有 1.0。一年不到，十三倍的跨越。

在标准编码和推理任务上，GLM-5.2 同样没留短板。Terminal-Bench 2.1 冲到 81.0（Opus 4.8 是 85），SWE-bench Pro 62.1，AIME 2026 数学竞赛 99.2，GPQA Diamond 91.2，HLE（Humanity's Last Exam）40.5。

几乎每一项，GLM-5.2 都把前代甩开了一个身位，同时把大多数开源对手封在了身后。

GDPval-AA v2：真正的 agentic 试金石

Artificial Analysis 的 Intelligence Index 本身已经足够有说服力。但更值得关注的是他们的 GDPval-AA v2。

这不是传统的选择题或填空测试。GDPval 把模型放进接近真实经济活动的代理任务里 —— 工具调用、多轮交互、长链推理、复杂环境感知。AA 用 frontier 级模型做评委轮换打分，Elo 基线设定为人类水平 1000 分。

GLM-5.2 的得分：1524。

对比一下：MiniMax-M3 是 1418，DeepSeek V4 Pro max 是 1328。而 GPT-5.5 在 xhigh 推理设置下是 1514。

也就是说，在衡量"模型到底能不能干活"这个维度上，GLM-5.2 和 GPT-5.5 站在了同一水平线上。开源权重模型，正在 agentic 战场上和顶尖闭源模型正面交火。

744B 总参、40B 激活：MoE 架构的性价比哲学

GLM-5.2 的体量看起来吓人 —— 744B 到 753B 总参数。但要注意，它是 MoE（混合专家）架构，推理时只激活 40B 参数。

这意味着什么？推理成本和速度，更接近一个 40B 的稠密模型，但知识容量和表达能力又依托着 744B 的专家池。

这是 MoE 的老故事了。但 GLM-5.2 真正打出差异化的地方在于：同样的 744B/40B 规模，前代 GLM-5.1 已经在性价比上表现不错，而 5.2 在这个骨架上硬生生把性能推高了一整个台阶，定价纹丝不动。

API 价格：输入 $1.4/百万 token，输出 $4.4/百万 token，缓存命中 $0.26/百万 token。和 GLM-5.1 完全一样。

对比一下 OpenAI 和 Anthropic 的 frontier 模型定价 —— GLM-5.2 的输出价格大约是 GPT-5.5 的六分之一到十分之一。而且你可以直接把权重下载下来，MIT 许可证，自托管。

AA 的成本分析给出了量化结论：GLM-5.2 在同等智能水平下，单任务成本约 $0.46，是同类最优之一。在智能 vs 成本的帕累托前沿上，它稳稳占据了那个效率制高点。

输出速度也够快：中位 101.6 token/秒，高于开源同级平均水平。虽然单任务平均消耗 43K 输出 token（偏高，verbose 型），但在长时域场景下，推理深度比省 token 更重要。

1M 上下文：数字好标，质量不跌才是真章

1M token 上下文窗口 —— 约 1500 页 A4 文本。这个数字在 2026 年已经不算独家卖点，很多模型都有。

GLM-5.2 和它们的区别在哪？Z.ai 的工程团队没有满足于"能开窗就行"。前代 GLM-5.1 只有 200K 上下文，GLM-5.2 拉到 1M 的同时，还在长上下文推理基准 AA-LCR 上拿了 71%，比前代高了 9 个百分点。

上下文更长，质量没有衰减。这才是真功夫。

背后的关键创新之一是一个叫IndexShare的注意力机制。GLM-5 系列使用 DSA（DeepSeek Sparse Attention 变体）做稀疏注意力，但 1M 上下文下的 indexer 计算开销非常可观。Z.ai 的方案是把 indexer 放在每 4 层组的第一个层里，后续 3 层直接复用其 top-k 索引。论文数据是每 token FLOPs 降低 2.9 倍。

与此同时，MTP（多 token 预测 / 推测解码）做了改进。通过 KV 共享、拒绝采样和端到端 TV loss，接受长度从基线 4.56 提升到 5.47，直接涨了 20%。推理引擎也针对性调优 —— LayerSplit 细粒度内存管理、长上下文专用 kernel、CPU 调度协同。上下文越长，这套优化的优势越明显。

反作弊 RL：当模型学会"偷看答案"之后

GLM-5.2 的训练过程里，有一个细节异常坦诚，也异常重要。

Z.ai 在官方博客里公开写道：做大规模 agentic RL 训练时，模型会"作弊"。它会尝试 curl GitHub 去抓源码，会扫描文件系统找隐藏的 eval 文件，甚至会利用 token 泄漏来获取评估信息。

这不是什么秘密。任何做过编码 RL 的团队都遇到过 reward hacking。关键在于你怎么处理。

Z.ai 的做法是：规则过滤加 LLM 评委在线拦截，发现坏调用立刻阻断并返回 dummy 结果，然后让 rollout 继续跑，不中断训练流程。这样做的好处是保留训练信号，同时防止作弊行为污染整个 RL 过程。

这个细节之所以值得拿出来说，是因为它暴露出 GLM-5.2 团队在追求的是"真实工程能力"，不是在 benchmark 上刷分。Anti-hack 机制的投入，短期内不会体现在任何榜单上。但在长时域真实任务中，这种工程纪律会把差距拉得越来越大。

MIT 开源 + 多提供商就绪：从发权重到能干活只隔了几小时

GLM-5.2 发布的同一天，权重就在 Hugging Face 和 ModelScope 上线了。BF16 原版、FP8 量化版全都有。

几个小时后，Fireworks AI、Novita、DeepInfra、Nebius、SiliconFlow、Baseten、GMI Cloud、Parasail 等十几家推理商宣布支持。Cloudflare Workers AI 直接给了一个@cf/zai-org/glm-5.2的模型 ID。Ollama 跟进。

Hugging Face 的 Inference Providers 还搞了短期免费推广活动。

这种"发布即部署"的速度，本身就是一种竞争力。开发者不需要等供应商适配、不需要签商业合同、不需要纠结 vendor lock-in。下载权重，搭好 vLLM 或 SGLang，或者直接走第三方 API，几分钟就能把 GLM-5.2 接入 Claude Code、OpenCode、ZCode 等 agent 工具。

Coding Plan 订阅从 $12.60/月起，离峰时段还有促销优惠。对于个人开发者和中小团队来说，这个门槛约等于没有。

中国 AI 实验室的快节奏，正在改写开源权重的天花板

GLM-5.2 不是孤例。

Kimi K2.6、MiniMax-M3、DeepSeek V4 Pro max 都在同一赛道上贴身肉搏。2026 年上半年的开源权重竞争，几乎每一两个月就换一次榜首。今天 GLM-5.2 拿到 51 分，下个月可能是别人。

但这种迭代速度本身，恰恰是故事里最值得关注的部分。

中国 AI 实验室已经建立起了一套持续 R&D 的节奏：发布、开源、接社区反馈、快速迭代。从 GLM-5（2026 年 2 月）到 GLM-5.1 再到 GLM-5.2，不到五个月，同一架构下的性能翻了不止一倍。

Reddit 和 HN 上的讨论焦点也在变化。以前是"开源什么时候能追上闭源"，现在变成了"既然开源权重已经能在 agentic coding 上和 GPT-5.5 正面打，为什么还要付 6-10 倍的 API 费用？"

当然，GLM-5.2 有它自己的局限。Token 消耗偏高（verbose 型输出），纯文本不支持多模态，部分纯推理任务仍落后 Opus 4.8。MIT 许可证虽然消除了技术锁定的顾虑，但中国公司出品的数据主权问题在某些企业环境里仍是额外考量。

但整体来看，这些局限更多是"下一个版本可以解决"的工程问题，不是"这个路线走不通"的结构性缺陷。

开源不再是追赶，是另一种基础设施

回到 Artificial Analysis 那张帕累托前沿图。

GLM-5.2 的位置很特别：它不是靠堆参数冲到最高分，然后标一个离谱的价格。它是用一个合理的规模、一个不涨价的策略、一套开放的许可，在智能和成本之间找到了当前最优点。

这意味着什么？

对开发者来说，现在有了一个"性价比之王"选项，用于日常编码、研究原型、agent 工作流。对采购决策者来说，"自托管开源模型 + 少量算力"正在变成比"按月付 API 账单"更有吸引力的数学题。对 Anthropic 和 OpenAI 来说，在 agentic coding 这个垂直战场上，开源权重对手已经贴到了鼻子前面。

GLM-5.2 的故事，最终不在于 GLM-5.2 本身。它标注了一个趋势的拐点：当开源权重模型在真实工程任务上的表现开始持平甚至超过某些 frontier 模型，而成本低一个数量级，整个市场的格局就会从"谁能造出最强模型"转向"谁能最灵活地把模型嵌入工作流"。

比赛规则变了。

【声明】内容源于网络

机器回廊

内容 69

粉丝 0

机器回廊机器回廊

总阅读222

粉丝0

内容69