开源模型变天了！GLM-5.2登顶全球榜单：744B参数、MIT开源、成本打到GPT的六分之一- 大数跨境

开源模型变天了！GLM-5.2登顶全球榜单：744B参数、MIT开源、成本打到GPT的六分之一

深空信使

2026-06-19

导读：开源模型变天了！GLM-5.2登顶全球榜单：744B参数、MIT开源、成本打到GPT的六分之一

2026年6月17日凌晨，一条来自第三方评测机构Artificial Analysis的推文，把开源AI圈炸醒了。

Z.ai（智谱）的GLM-5.2，在Artificial Analysis Intelligence Index v4.1上拿下51分，一举登顶开源权重模型榜首。MiniMax-M3 44分，DeepSeek V4 Pro 44分，Kimi K2.6 43分——全被甩在身后。

更狠的是，GLM-5.2的总参数（744B）和激活参数（40B）跟上一代GLM-5.1一模一样。架构没变，参数没加，单纯靠后训练和系统优化，分数硬生生从40跳到51，涨了11分。

▲ Artificial Analysis官方文章宣布GLM-5.2登顶，标题直呼"the new leading open weights model"

同一时间，Z.ai官方推文宣布开源，MIT许可证，权重即刻可下载。500万+阅读，1万+点赞。开发者在评论区直接喊出"You are my heroes"。

▲ Z.ai官方发布帖，强调"Frontier Intelligence, Open Weights"，MIT许可、1M上下文、API定价不变

51分到底什么水平？榜单说了算

Artificial Analysis的榜单不是野榜。它是目前独立第三方评测里最硬核的之一，v4.1版本专门转向真实世界Agentic工作负载的评估。

在总榜上，GLM-5.2（max模式）排在开源权重第一，甚至逼近一些闭源专有模型的区间。

▲ AA主页榜单，GLM-5.2 (max)在开源权重中排名第一，紧逼闭源阵营

具体维度看看这11分是怎么涨出来的：

CritPt（物理/批判性推理）
：从5%跳到21%，涨了16个百分点
HLE（Humanity's Last Exam）
：从28%升到40%，涨了12个点
AA-LCR（长上下文推理）
：从62%拉到71%
TerminalBench v2.1
：从62%冲到78%，涨了16个点
τ³-Banking（银行工具使用Agent）
：从12%翻到27%
GPQA Diamond
：从86%爬到89%

七个维度都在涨。某一个benchmark飘了可以归给运气，七个维度同时往上拉，底层能力确实不一样了。

最让人坐不住的，是GDPval-AA v2这个指标。它是AA专门用来衡量真实世界Agentic执行能力的核心测试——让模型完成有实际产出的工程任务，然后人工目视检查输出质量。

GLM-5.2在这项上拿到1524分，压过MiniMax-M3的1418和DeepSeek的1328，直接追平了GPT-5.5 (xhigh模式) 的1514分。

AA在文章里特别强调了这点："We visually inspected GLM-5.2's outputs across a range of GDPval-AA tasks"——所有GDPval任务输出都经过了人工目视检查，得分后面站着真实的工程产出。

▲ AA发布的数据对比图，GLM-5.2在GDPval-AA v2上领先所有开源模型，基本持平GPT-5.5

同样的744B，凭什么多出11分？

Z.ai的博客标题起得很直白："GLM-5.2: Built for Long-Horizon Tasks"。

核心逻辑不是堆参数。是把1M上下文真正用起来。

博客里有一句很关键的话："A 1M context is easy to claim, but much harder to keep reliable under real engineering pressure." 宣称支持100万token上下文不难，难的是在实际工程压力下保持可靠。

GLM-5.2在Coding Agent场景下了苦功。数月专项训练，针对长时程任务（大规模实现、自动化研究、性能优化、复杂调试）做了强化学习。

效果怎么样？看几个长时程benchmark：

FrontierSWE
：74.4分，仅次于Opus 4.8的75.1，压过GPT-5.5的72.6
PostTrainBench
：34.3分，碾压GPT-5.5的28.4
SWE-Marathon
：13.0分，与Opus系列属同一梯队

一个真实案例：开发者在X上晒出用GLM-5.2一次性完成物理模拟项目（泳池破裂、高尔顿板），代码量极大、细节丰富，单次任务消耗85万token，几乎打满1M窗口。

▲ 官方博客详细拆解了Solid 1M上下文、Effort控制、IndexShare架构、MIT纯开源四大核心能力

架构层面，有三板斧在撑：

IndexShare。每4层共享一个轻量indexer，1M上下文下per-token FLOPs降低2.9倍。简单说就是计算量砍了三分之二，长文本不再烧算力。

MTP改进（投机解码）。接受长度提升20%，结合拒绝采样和端到端TV损失，推理更快更稳。

slime框架。Z.ai自研的强化学习基础设施，支持白盒/黑盒rollout和子代理工作流。整个OPD训练只用了大约2天。

还有一个叫Anti-hack模块的设计值得一提：训练中自动检测并阻断模型"作弊"（比如用curl偷看答案、读eval secret），同时允许rollout继续跑，避免训练崩溃。

这些合在一起，回答了一个问题：相同硬件footprint下，智能能不能继续涨？GLM-5.2的答案是能，而且涨了不少。

性价比这一刀，切在哪？

GLM-5.2的API定价跟GLM-5.1完全持平：每百万token输入$1.4、输出$4.4、缓存命中$0.26。

在这个价格点上，AA的Intelligence vs Cost per Task图表说了实话：在同等智商水平下，GLM-5.2是成本最低的模型。它正好坐在"帕累托前沿"上。

▲ Hugging Face上可直接下载权重，MIT许可证允许商用、无地域限制

重点对比一下：

GLM-5.2单任务成本约$0.46，产出43k token（其中37k推理token）
MiniMax-M3单任务$0.18，但只产24k token
DeepSeek单任务$0.05，产出更少

贵，确实比便宜的对手贵。但43k token的输出量——是MiniMax的近两倍。长时程任务里，模型多思考和验证，最终产出质量更高。VentureBeat的标题点破了这件事："Beats GPT-5.5 on multiple long-horizon coding benchmarks for 1/6th the cost."

六分之一的价格，追平甚至局部超越GPT-5.5的长时程编码能力。

开源权重意味着什么？意味着你可以自托管。vLLM、SGLang、Transformers、KTransformers、Ascend NPU全部支持。同时，DeepInfra、Novita、Nebius、Parasail、SiliconFlow、Fireworks、Cloudflare Workers AI等十几家推理服务商在发布当天就上线了。

不是只能走官方API一条路。想怎么用就怎么用。

▲ 中文文档推荐的实战场景：项目级工程接管、长程重构、移动端真机调试、科研复刻

质疑有没有？有

这么大的参数体量，744B全量加载到内存就是一道坎。社区有开发者直接吐槽："40b active looks cheap until 744b total starts hurting memory and cold starts."

翻译过来：激活参数看着只有40B，轻飘飘的，但744B总参数塞进内存的那一刻，冷启动时间才是真正的痛。

AA的Intelligence Scoring Methodology v4.1升级也引发了一些讨论。新版本引入了更多agentic指标和新的judge方式，导致部分老模型相对分数发生了变化。有人在评论区说"This jump is impressive but... your scoring system is severely flawed"。

输出token量大也是双刃剑。GLM-5.2平均单任务产43k token，长了确实靠谱，但也意味着每次调用都在烧钱。好在官方提供了两个推理强度档位：max模式全力冲，high模式在性能和token效率之间取平衡。

还有一个客观限制：GLM-5.2是纯文本模型，不支持图像输入。多模态场景暂时无缘。

这件事为什么值得认真看

GLM-5.2这个发布，不是在刷榜。

同一个架构，同一种尺寸，后训练加上基础设施优化，把一个已经很强的模型又往上推了11分。这件事告诉行业一个信号：参数规模的军备竞赛告一段落了，下一阶段的战场在数据质量、训练方法和系统工程。

更重要的信号是开源。MIT许可证、权重立刻可下载、十几家平台同时上——Z.ai在把"前沿智能"从小部分人的特权变成基础设施。Filecoin和io.net的官方账号都在评论区表示要接入去中心化计算。

中文媒体量子位的报道标题直接给到了"Fable-5之下，开源第一"的评价，把Claude、OpenAI、智谱并称为AI编程的"全球御三家"。

▲ 量子位报道称GLM-5.2在Fable-5之下，开源模型第一，"全球御三家"格局形成

对开发者来说，多了一个强力、便宜、可本地部署的Coding Agent选项。对行业来说，中国实验室的迭代速度和开放姿态，给全球开源生态打了强心针。对用户来说，GPT-5.5级别的编码能力，六分之一的价格，这件事本身就足够震动。

有人问下一个会不会是1T参数？

也许参数会更大，也许同尺寸还会继续涨分。GLM-5.2用实际结果告诉你：架构不变的情况下，智能的上涨空间远没有见顶。

【声明】内容源于网络

深空信使

内容 64

粉丝 0

深空信使深空信使

总阅读344

粉丝0

内容64