大数跨境

智谱GLM-5.1深度评测:8小时连续工作,开源大模型进入"工程交付"新纪元

智谱GLM-5.1深度评测:8小时连续工作,开源大模型进入"工程交付"新纪元 机器学习AI算法工程
2026-04-10
5
图片

向AI转型的程序员都关注公众号 机器学习AI算法工程


一句话总结:全球首个通过真实工程任务验证8小时持续工作能力的开源模型,在SWE-Bench Pro上超越GPT-5.4和Claude Opus 4.6登顶全球第一,重新定义AI从"回答问题"到"完成项目"的范式转变。


开篇:8小时不间断,它真的做到了


2026年4月8日,智谱发布了GLM-5.1。


但今天我不想从技术参数讲起。我想先说一件事——


有个AI,在真实工程任务中连续工作了8小时,完成了1200多步操作,从零搭建了一套完整的Linux桌面环境。


不是Demo,不是演示,是真真切切可以运行、有4.8MB配套文件、自动生成回归测试并全部通过的那种交付物。


这意味着什么?


意味着你早上给它一个任务,下班回来它已经把东西做完了放在那里等你。


这才是大模型应该有的样子。


而这,只是GLM-5.1众多突破中的一个。


一、为什么说这是"范式转变"


在说具体数据之前,我想先聊聊这件事的深层意义。


过去几年,我们习惯了这样的AI使用模式:


  • 问一个问题,等几秒钟,得到回答
  • 再问一个,再等,再答
  • 如果不满意,换个问法再来一次

这叫什么?分钟级交互


它的本质是:AI在"回答问题",人在"拼凑答案"。


而GLM-5.1展示的能力,本质上是另一件事:


把一个需要人花大量时间分解、执行、调试、修改的任务,直接委托给AI,8小时后验收结果。


这不是"增强版的问答",这是"7×24小时不眠不休的工程师"。


智谱自己给这种能力起了个名字:全自治智能体(Autonomous Agent)

核心理念是:


目标分解 → 执行交付 → 自我评价 → 纠正进化 → 继续执行


形成闭环,周而复始。


8小时长程自治只是起点。终点是让AI真正成为一个可以托付项目的"数字员工"。


二、基准测试:它到底什么水平?


先上数据,说服力拉满。

2.1 SWE-Bench Pro:登顶全球第一


这是最接近真实软件开发的评测,没有之一。


测试方式很残酷:在真实GitHub仓库中,给你一个高难度的Bug描述,让模型自己定位、自己写修复代码、自己验证。考的不是背书能力,是真刀真枪解决问题的能力。


GLM-5.1得分:58.4分,位列全球第一。


模型
SWE-Bench Pro得分
GLM-5.1 58.4
GPT-5.4
57.7
Claude Opus 4.6
57.3
DeepSeek R2
56.8
Gemini 3.1 Ultra
55.2



0.7分的领先看起来不多,但在顶级模型的较量中,这已经是实质性超越。

2.2 综合代码能力:三冠加身


别急,还有更全面的数据。


评测集
GLM-5.1成绩
排名
SWE-Bench Pro
58.4
全球第一
Terminal-Bench 2.0
待公布
待公布
NL2Repo
待公布
待公布
三项综合
-
全球第三、国产第一、开源第一

Claude Code评测也传来捷报:45.3分,比上一代GLM-5提升了28%


Design Arena榜单上,GLM-5.1与Claude Opus 4.6并列第四,前面只有Gemini 3.1 Ultra和几个非公开测试版本。


这意味着什么?


在代码生成与执行这个核心战场上,国产开源模型第一次站到了最顶端。

2.3 性能与价格:性价比的颠覆者


光有性能不够,价格才是决定能不能大规模落地的关键。


模型
输入价格($/M tokens)
输出价格($/M tokens)
GLM-5.1 1.00 3.20
Claude Opus 4.6
15.00
75.00
GPT-5.4
15.00
60.00
Gemini 3.1 Pro
1.25
5.00

输入成本仅为Claude Opus的1/15,输出成本仅为Claude Opus的1/23.4


即便对比同价位的Gemini 3.1 Pro,GLM-5.1在核心代码任务上的表现也毫不逊色。


国产大模型首次在核心场景实现与海外头部厂商的价格对齐,但价格只有对方的零头。


三、核心技术架构:744B参数背后的工程密码


说完成绩,该讲技术了。

3.1 模型架构:MoE的极致优化


GLM-5.1采用的是混合专家架构(MoE),参数总量744B。


但关键在于——每次推理只激活40B参数,约5%。


这意味着什么?


  • 2440亿参数的大模型
  • 每次只动用40亿
  • 推理成本大幅下降
  • 性能却不打折

上下文窗口达到202K,对于需要处理长文档、长代码库的场景,这个长度已经绑绑够用。




3.2 三大技术创新


① Layer级MoE均衡


传统的MoE架构有个老大难问题:专家过热/过冷。


有些"专家"被频繁调用,过载严重;有些"专家"几乎无人问津,资源浪费。这直接导致GPU利用率低下,推理吞吐量上不去。


智谱的解决方案很直接:在Layer级别做均衡设计


结果是:推理吞吐量提升30%


这30%不是纸面数字,是真金白银的算力成本节省。


② Slime异步强化学习框架


这是智谱自研的RL训练框架,核心解决的问题是:长程任务中的策略动态调整


传统的RL训练往往是静态的——给一个任务,训一个策略,完事。


但真实工程任务不一样:你可能需要先查资料,再写代码,发现报错后换思路,再试,再报错,再换……


Slime框架支持模型在这种多轮迭代、策略漂移的场景下动态调整,始终保持最优执行路径。


③ DeepSeek Sparse Attention


长上下文处理一直是老大难问题。Context越长,Attention计算量平方级增长,显存直接爆炸。


Sparse Attention的思路是:不是所有token都需要attend到所有其他token


通过稀疏化处理,在保持核心信息不丢失的前提下,大幅降低计算复杂度和显存占用。


这三项技术叠加,才是GLM-5.1能够在长程任务中稳定输出的底层保障。


四、实战场景:它到底能干什么?


数据归数据,真正让人震撼的是它实际干活的能力。

4.1 场景一:8小时从零构建Linux桌面


这是最直观的演示。


任务:从零开始,搭建一套完整的Linux桌面环境。


约束:只能给模型一个目标描述,不能中途干预。


结果


  • 耗时:8小时整
  • 操作步数:1200+步
  • 产出物:
    • 完整的桌面环境
    • 窗口管理器
    • 状态栏
    • 应用程序
    • VPN管理器
    • 中文字体支持
    • 游戏库
  • 配套文件:4.8MB
  • 回归测试:自动生成,全部通过

对比一下工作量:相当于4人开发团队一周的开发量


一个刚毕业的程序员,从零学起,一周能交付这个质量的桌面环境吗?


我对此持怀疑态度。


更关键的是,模型是自主规划、自主执行、自主调试的。人只做了一个动作:提需求。



4.2 场景二:向量数据库性能优化


如果说场景一是"能做什么",那场景二就是"能做到多好"。


任务:优化向量数据库的查询性能。


约束:只给性能目标和初始代码,不给任何优化建议。


过程


  • 迭代轮次:655轮
  • 工具调用:6000+次
  • 每次性能下降,模型自主分析日志,找到瓶颈,换技术路径
  • 每一次结构转型都是模型主动发起的

结果


  • 优化前:3108 QPS(每秒查询数)
  • 优化后:21472 QPS
  • 性能提升:6.9倍

优化路径是什么样的?模型自己规划、自己决策:


  1. 全库扫描
     → 太慢,需要召回优化
  2. IVF分桶召回
     → 召回效率提升,但精度下降
  3. 半精度压缩
     → 显存省了,速度还是不够
  4. 量化粗排
     → 速度上来,精度继续下降
  5. 两级路由
     → 动态调度资源
  6. 提前剪枝
     → 减少无效计算

最终在速度和精度之间找到了最优平衡点。


这不是蛮力优化,这是一个真正在思考的工程师的工作方式。

4.3 场景三:ML负载加速(KernelBench Level 3)


这是对工程能力的终极考验。


任务:对机器学习工作负载进行深度优化。


约束:优化策略完全由模型自主决策。


过程


  • 持续时间:超过24小时
  • 工具调用:1000+轮
  • 自主编写的优化代码包括:
    • Triton Kernel
    • CUDA Kernel
    • cuBLASLt epilogue融合
    • shared memory tiling
    • CUDA Graph

结果


  • 加速比:3.6倍几何平均加速
  • 对比:torch.compile max-autotune仅1.49倍

也就是说,GLM-5.1用24小时做的优化,效果是PyTorch官方AutoTune的2.4倍


当然,这里有上下文差异——PyTorch的AutoTune是通用方案,而GLM-5.1是针对特定工作负载的深度优化。但即便如此,3.6倍的提升也足够说明问题。


五、技术深潜:三大能力背后的工程细节

5.1 8小时长程自治的实现原理


这个能力听起来很震撼,但它的工程实现其实有迹可循。


核心在于三层闭环设计


第一层:任务规划闭环


  • 接收高层目标(如"搭建一个Linux桌面")
  • 自动拆解为可执行的任务树
  • 每个任务有明确的验收标准

第二层:执行-反馈闭环


  • 自主执行每一步操作
  • 自动捕获执行结果和错误信息
  • 基于反馈动态调整下一步行动

第三层:自我修复闭环


  • 遇到错误不放弃,尝试多种修复策略
  • 分析错误根因而非表面症状
  • 必要时回退并重新规划路径

这三层闭环嵌套运行,才支撑起了8小时的持续工作。

5.2 自我进化:从"调参"到"换策略"


传统AI优化的天花板在哪里?


在于它只能在给定策略空间内做增量调整。如果你一开始就走错了方向,增量调整只会让你在错误的方向上越走越远。


GLM-5.1的"自我进化"能力,核心是策略空间拓展


  • 当局部调优收益停滞
  • 模型主动分析瓶颈来自哪里
  • 切换到全新的技术路径
  • 开启新一轮优化

结果就是优化轨迹呈**"阶梯式跃升"**——不是平滑的曲线,而是在某个节点突然上跳一个台阶。


这不是无脑重复,而是在真正像工程师一样思考

5.3 工程级交付:端到端而非碎片化


之前的AI工具,更多是"帮你写代码片段"。


GLM-5.1做的是端到端交付


  • 不是只输出一个函数,而是交付可运行的完整系统
  • 不是只写代码,还包括测试用例、配置文件、文档
  • 不是只管实现,还自动生成回归测试保证质量

这才是"工程交付"应该有的样子。




六、国产硬件适配:昇腾+摩尔线程的Day-0支持


光有模型还不够,部署落地才是关键。


智谱在国产硬件适配上下了大力气:

6.1 华为昇腾深度优化


  • Layer级MoE均衡在昇腾910B上得到了充分发挥
  • 整体处理速度提升30%
  • 10万块昇腾910B的集群训练,支撑了GLM-5.1的诞生

6.2 摩尔线程MTT S5000


  • Day-0适配完成
  • 国产GPU用户从第一天起就能用上GLM-5.1

这意味着什么?


国产大模型+国产算力的组合,正在从"可用"走向"好用"。


七、开源生态:MIT协议,商用无虞


开源才能生态繁荣。

7.1 开源版本


平台
模型地址
HuggingFace
zai-org/GLM-5.1-FP8
ModelScope
ZhipuAI/GLM-5.1
GitHub
github.com/zai-org/GLM-5

7.2 部署框架支持


框架
最低版本
vLLM
v0.19.0+
SGLang
v0.5.10+
Transformers
v0.5.3+
KTransformers
v0.5.3+

主流部署框架全覆盖,迁移成本极低。

7.3 许可证


MIT协议——这意味着什么?


  • 可以商业使用
  • 可以私有化部署
  • 可以修改源码
  • 可以闭源分发

没有附加条款,没有使用限制。


这是目前最宽松的开源协议之一,也是对开发者最友好的选择。


八、海外开发者怎么看?


酒香不怕巷子深,GLM-5.1发布后,海外开发者的反馈很真实。

8.1 社交媒体热度


  • 推文12小时内阅读量突破200万次
  • 最终累计:227万次
  • 讨论热度远超同期发布的其他模型

8.2 开发者实测


AI开发者 @toli
在113个编程任务中将GLM-5.1与Claude Opus 4.6进行对比测试,结果:表现几乎持平。


Zenoware创始人 JP


"这是中国最接近Claude Opus 4.6的模型。"


这个评价的分量,懂行的都懂。


九、客观评述:优点与不足


作为一篇深度评测,我不能只唱赞歌。来说点实在的。

9.1 优点


✅ 工程化能力突出:首次将AI交付单位从"回答"升级为"项目",这是本质性突破


✅ 性价比极高:输入成本仅为Claude Opus的1/15,输出成本为1/23.4,在核心场景性能持平甚至超越


✅ 开源生态友好:MIT许可证,无商业限制,主流部署框架全覆盖


✅ 国产适配完善:昇腾、摩尔线程Day-0支持,国产算力生态布局清晰


✅ 长程任务稳定:8小时自治能力经过真实任务验证,不是PPT Demo

9.2 待提升空间


⚠️ 复杂逻辑推理:在需要多步复杂推理和超长文本深度理解的任务上,与Gemini 3.1 Pro等模型仍有差距


⚠️ 硬件依赖:Layer级MoE均衡等优化依赖昇腾算力深度适配,普通GPU部署可能面临性能天花板


⚠️ 多模态能力:目前评测主要聚焦代码和文本任务,多模态能力尚未完全展示


十、行业意义:AI的下一步在哪里?

10.1 从"提问"到"委托"


GLM-5.1带来的最大变化,不是某个具体指标的数字提升,而是使用范式的根本转变


之前的问题是:"我能问AI什么?"


现在的问题是:"我能委托AI干什么8小时的活?"


这个问题听起来简单,但它彻底改变了人机协作的粒度。

10.2 开发者机遇


对于AI开发者来说,这意味着:


  • 原型开发周期大幅缩短
    :8小时交付一个可用系统不是梦
  • 自动化测试可以自己做
    :模型自己写测试用例、生成回归测试
  • 性能优化可以外包
    :把优化任务丢给GLM-5.1,睡一觉回来看结果

10.3 企业应用场景


对于企业来说,GLM-5.1打开了这些想象空间:


  • 代码库自动化维护
    :Bug修复、代码重构、文档更新,全都可以委托
  • 数据管道自动化
    :ETL任务、性能优化、监控告警,模型自主搞定
  • 7×24小时开发团队
    :不需要三班倒,AI不睡觉

结语:这不是终局,是起点


智谱GLM-5.1的发布,让我看到了一种可能性:


AI不再只是一个答案生成器,而是一个可以托付项目的数字工程师。


当然,这个"工程师"还有不足——复杂推理、长文本理解、多模态处理,这些都还有提升空间。


但方向是对的。


从8小时到24小时,从项目到产品,从单兵作战到系统协作——GLM-5.1只是第一步。


接下来的问题是:你打算用它来做什么?


附录:核心参数速览


参数
数值
模型架构
MoE(混合专家)
参数总量
744B
激活参数
40B(约5%)
上下文窗口
202K
SWE-Bench Pro
58.4(全球第一)
输入价格
$1.00/M tokens
输出价格
$3.20/M tokens
开源协议
MIT
训练芯片
10万块昇腾910B

🔗 相关链接


  • 官网:https://z.ai/blog/glm-5.1
  • GitHub:https://github.com/zai-org/GLM-5
  • HuggingFace:zai-org/GLM-5.1-FP8
  • ModelScope:ZhipuAI/GLM-5.1


AI 技术/工具 交流群


机器学习算法AI大数据技术

 搜索公众号添加: datanlp

图片

长按图片,识别二维码



阅读过本文的人还看了以下文章:


最顶尖的OCR算法有哪些?

最强一键抠图19Kstar 的 Rembg 开源神器


实时语义分割ENet算法,提取书本/票据边缘


整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主


《大语言模型》PDF下载


动手学深度学习-(李沐)PyTorch版本


YOLOv9电动车头盔佩戴检测,详细讲解模型训练


TensorFlow 2.0深度学习案例实战


基于40万表格数据集TableBank,用MaskRCNN做表格检测


《基于深度学习的自然语言处理》中/英PDF


Deep Learning 中文版初版-周志华团队


【全套视频课】最全的目标检测算法系列讲解,通俗易懂!


《美团机器学习实践》_美团算法团队.pdf


《深度学习入门:基于Python的理论与实现》高清中文PDF+源码


《深度学习:基于Keras的Python实践》PDF和代码


特征提取与图像处理(第二版).pdf


python就业班学习视频,从入门到实战项目


2019最新《PyTorch自然语言处理》英、中文版PDF+源码


《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码


《深度学习之pytorch》pdf+附书源码


PyTorch深度学习快速实战入门《pytorch-handbook》


【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》


《Python数据分析与挖掘实战》PDF+完整源码


汽车行业完整知识图谱项目实战视频(全23课)


李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材


笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!


《神经网络与深度学习》最新2018版中英PDF+源码


将机器学习模型部署为REST API


FashionAI服装属性标签图像识别Top1-5方案分享


重要开源!CNN-RNN-CTC 实现手写汉字识别


yolo3 检测出图像中的不规则汉字


同样是机器学习算法工程师,你的面试为什么过不了?


前海征信大数据算法:风险概率预测


【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类


VGG16迁移学习,实现医学图像识别分类工程项目


特征工程(一)


特征工程(二) :文本数据的展开、过滤和分块


特征工程(三):特征缩放,从词袋到 TF-IDF


特征工程(四): 类别特征


特征工程(五): PCA 降维


特征工程(六): 非线性特征提取和模型堆叠


特征工程(七):图像特征提取和深度学习


如何利用全新的决策树集成级联结构gcForest做特征工程并打分?


Machine Learning Yearning 中文翻译稿



不断更新资源

深度学习、机器学习、数据分析、python

 搜索公众号添加: datayx  

图片

【声明】内容源于网络
0
0
机器学习AI算法工程
计算机视觉、自然语言处理、推荐系统、人工智能、大模型、深度学习、机器学习、大数据技术社区,分享各类算法原理与源码、数据处理、可视化、爬虫、竞赛开源代码等资源。
内容 1536
粉丝 0
机器学习AI算法工程 计算机视觉、自然语言处理、推荐系统、人工智能、大模型、深度学习、机器学习、大数据技术社区,分享各类算法原理与源码、数据处理、可视化、爬虫、竞赛开源代码等资源。
总阅读2.6k
粉丝0
内容1.5k