126 个模型实测回顾，2025 年 AI 大战，谁赢了？- 大数跨境

首页

126 个模型实测回顾，2025 年 AI 大战，谁赢了？

知乎AI先行者

2025-12-15

导读：模型全部「刷爆」榜单，2026 年我们该用什么标准评测 AI？

2025 年，对科技行业来说是快速变化、持续加速的一年。年关将至，知乎科技邀请 AI 行业的亲历者们分享自己的「 AI 中场时刻」 —— 不论是高光、迷茫，还是转折。

以期为更多同行者提供行业与人生的样本。

今天的分享来自知友@toyama nao ，2025 年里他测试了 126 个 AI 模型，关于「大模型的未来会走向何方」，看看他怎么说：

@toyama nao

业余AI评测员/独立游戏开发者

2025 年对于大模型和大模型测试而言，确实是一个特别的年份。这一年我累计测了 126 个模型，其中一些模型有推理和非推理模式。对 49 个模型进行了编程测试，对 21 个模型进行了视觉测试。

所以不严谨的来算，今年我花在模型测试和撰写评估报告上的时间超过了 400 个小时，远超前 2 年总和。

这一年见证了国内团队的重装上阵，被开源团队的高光时刻所照耀，更被那些向智力顶峰发起冲击的佼佼者所折服。

在 ChatGPT 引爆大模型革命 3 年之后的今天，笔者也在思考，这 3 年的大模型测试到底收获了什么，大模型的未来会走向何方。

过去

时钟拨回 2024 年 12 月，那家将在一个月后席卷春节档的公司刚推出了自家的 V3 模型，靠着蒸馏自家思维模型的思维链，在复杂智力问题上勉强压住 GPT-4o 一头，但代价是输出长数倍，实用程度十分有限。

那个土萌妹子产品背后的团队，还在一边低效的迭代着方向错误的模型，一边应付 App 投放需求，做着短平快的功能。

那个后来的开源界扛把子刚刚摸到一点门道，发布一个颜文字模型作为年终答卷，展示未来可能性。

六小龙更是意气风发，挥斥方遒，个个都豪言 OpenAI 不过尔尔。但其实打平旧版本 GPT-4 都算勉强，用户反响平平。

而到了 2025 年，情况马上就变得不同。

年初是字节带着 Doubao1.5 强势宣发，但风头马上被一周后发布的 DeepSeek R1 完全掩盖。2 月国内在春节假期，北美却一刻不停， Sonnet3.7 宣告了 Vibe Coding 时代正式到来， Google 用 Gemini 2 最后一次更新向过去软弱的自己做了告别，一边炸火箭一边参政的老马也没有忘记顺便发布 Grok3。

整个 5 月到 10 月，中美之间，开源闭源之间的竞争骤然白热化，Qwen 和 R1 大幅拉近模型性能差距，再马上被 Gemini 2.5，Grok4，GPT-5 拉开。国产的万亿模型 Kimi K2，Qwen3-Max 重新把差距缩小到以季度为单位，再被 Gemini 3 Pro 以王者姿态大幅甩开，似乎要为 25 年的大局画上句号。而 2 周之后 DeepSeek 随即以性价比之王姿态回归。

现在

大模型已经发展到如此水平，未来要怎么测试模型，确实也是我这一年持续在思考的问题。

其实从 24 年以来，就不断有读者想要看看原题是怎样。到 25 年，笔者接触了很多大模型一线研发，他们也很好奇到底是怎样用 28 个题测出每个模型许多问题，并且排序也能一定程度贴近体感，不被针对刷榜的。要是能分享一些题就更好了。

25 年，随着强化学习后训练的大量加入，那些有固定解题思路的数理，逻辑类问题，大模型几乎都可以比以往更高精度的解决。即便有少数题型没有被解决，那也只是大模型团队精力不足，没有关注到而已，不代表那些题目无法被解决。

以数独题为例，在 24 年，各家模型很少对数独做专项训练，即便 4x4 的数独，也要到 24 年 6 月才有第一个模型做到全对。而在推理模型时代，即便是标准 9x9，Hard 难度，头部模型也基本可以稳定解出。一些做了更多针对训练的模型，甚至可以稳定解出变体数独。

而这类题，普通人来做却需要大量写草稿，做计算，注意力也很难保持超过 15 分钟。但不能说人类在复杂智力上就输给大模型了。

与一些公开榜追求高难度任务不同，笔者认为需要从更贴近人类智力本质的方面做探索。我的一部分题目是观察幼儿的成长发育过程得来的，大模型在这些人类最基础的任务上表现不尽相同，即便最强大模型，目前也无法稳定胜任。

这类问题往往涉及到人类通过百万年进化出来的空间直觉，抽象思维，联想，模仿能力。问题的思考过程对人类而言，往往是一闪而过的念头，难以用语言形容。如果必须写下来，反而是冗长又低效的信息。大模型对这类题往往是连篇累牍的推理，动辄数万，数十万字。这种低效表达，显然离人类智力的核心还相去甚远。

未来

过去 3 年的 AI 发展，在长期关注的人看来，发展快到让人难以适应。而对更广大的普通人，传统企业而言，又是岁月静好。这种巨大的反差应当归结于大模型智力始终没能突破临界点，综合成本让很多业务应用止步不前，推理耗时又使得容差更低的领域望洋兴叹。

2025 年各家的头牌模型虽然没能解决以上问题，但在可以预见的 26 年里，会有更多的后来者尝试挑战这个性能-成本-耗时不可能三角。AI 的风暴，终将席卷千行百业。

立志于做好大模型发展历史记录的我这位「赛博史官」而言，26 年也将充满挑战。既要与大模型们共同成长，也要持续为读者们提供有价值的输出。正如我在前一篇测评中评价 GPT-5.2 的结束语，踏平坎坷成大道，斗罢艰险又出发。

知友讨论

@Ender233：

即将过去的25年体感上是LLM发展最快的一年，也是头一次觉得AGI真有可能落地的一年

@米希希：

已经有年味了，感谢nao佬一年的测试

@Yuuc：

感谢大佬，期待ds元旦或者春节前的大货了

@漓辞灬：

对于t大的评测，最符合体感，最遵循工程实际，支持t大的工作！

@从不毒舌可达鸭：

大佬的benchmark真是跟踪行业的一盏明灯。体感和大佬的测评也相对接近

作为亲历者，你的 2025 是怎样的？

是一路升级突破，还是在压力中稳住阵脚？

有哪些瞬间让你意识到自己成长了，又有哪些挑战，成为你必须面对的问题？

「AI 中场时刻」活动正在进行中，欢迎分享属于你的年度总结——不论是高光、迷茫，还是转折。你的回答也许正是同行者在这个时代寻找方向的参考。

点击「阅读原文」，查看原回答、分享你的 AI 年度总结

【声明】内容源于网络

知乎AI先行者

在智能之海寻找信标，航向未来。

内容 174

粉丝 0

知乎AI先行者在智能之海寻找信标，航向未来。

总阅读38

粉丝0

内容174