大数跨境

126 个模型实测回顾,2025 年 AI 大战,谁赢了?

126 个模型实测回顾,2025 年 AI 大战,谁赢了? 知乎AI先行者
2025-12-15
1
导读:模型全部「刷爆」榜单,2026 年我们该用什么标准评测 AI?

2025 年,对科技行业来说是快速变化、持续加速的一年。年关将至,知乎科技邀请 AI 行业的亲历者们分享自己的「 AI 中场时刻」 —— 不论是高光、迷茫,还是转折。

以期为更多同行者提供行业与人生的样本。

今天的分享来自知友@toyama nao ,2025 年里他测试了 126 个 AI 模型,关于「大模型的未来会走向何方」,看看他怎么说:

@toyama nao

业余AI评测员/独立游戏开发者

2025 年对于大模型和大模型测试而言,确实是一个特别的年份。这一年我累计测了 126 个模型,其中一些模型有推理和非推理模式。对 49 个模型进行了编程测试,对 21 个模型进行了视觉测试。

所以不严谨的来算,今年我花在模型测试和撰写评估报告上的时间超过了 400 个小时,远超前 2 年总和。

这一年见证了国内团队的重装上阵,被开源团队的高光时刻所照耀,更被那些向智力顶峰发起冲击的佼佼者所折服。

ChatGPT  引爆大模型革命 3 年之后的今天,笔者也在思考,这 3 年的大模型测试到底收获了什么,大模型的未来会走向何方。


过去

时钟拨回 2024 年 12 月,那家将在一个月后席卷春节档的公司刚推出了自家的 V3 模型,靠着蒸馏自家思维模型的思维链,在复杂智力问题上勉强压住 GPT-4o 一头,但代价是输出长数倍,实用程度十分有限。

那个土萌妹子产品背后的团队,还在一边低效的迭代着方向错误的模型,一边应付 App 投放需求,做着短平快的功能。

那个后来的开源界扛把子刚刚摸到一点门道,发布一个颜文字模型作为年终答卷,展示未来可能性。

六小龙更是意气风发,挥斥方遒,个个都豪言 OpenAI 不过尔尔。但其实打平旧版本 GPT-4 都算勉强,用户反响平平。

而到了 2025 年,情况马上就变得不同。

年初是字节带着 Doubao1.5 强势宣发,但风头马上被一周后发布的 DeepSeek R1 完全掩盖。2 月国内在春节假期,北美却一刻不停, Sonnet3.7  宣告了 Vibe Coding 时代正式到来, Google 用 Gemini 2 最后一次更新向过去软弱的自己做了告别,一边炸火箭一边参政的老马也没有忘记顺便发布 Grok3。

整个 5 月到 10 月,中美之间,开源闭源之间的竞争骤然白热化,Qwen 和 R1 大幅拉近模型性能差距,再马上被 Gemini 2.5,Grok4,GPT-5 拉开。国产的万亿模型 Kimi K2,Qwen3-Max 重新把差距缩小到以季度为单位,再被 Gemini 3 Pro 以王者姿态大幅甩开,似乎要为 25 年的大局画上句号。而 2 周之后 DeepSeek 随即以性价比之王姿态回归。


现在

大模型已经发展到如此水平,未来要怎么测试模型,确实也是我这一年持续在思考的问题。

其实从 24 年以来,就不断有读者想要看看原题是怎样。到 25 年,笔者接触了很多大模型一线研发,他们也很好奇到底是怎样用 28 个题测出每个模型许多问题,并且排序也能一定程度贴近体感,不被针对刷榜的。要是能分享一些题就更好了。

25 年,随着强化学习后训练的大量加入,那些有固定解题思路的数理,逻辑类问题,大模型几乎都可以比以往更高精度的解决。即便有少数题型没有被解决,那也只是大模型团队精力不足,没有关注到而已,不代表那些题目无法被解决。

以数独题为例,在 24 年,各家模型很少对数独做专项训练,即便 4x4 的数独,也要到 24 年 6 月才有第一个模型做到全对。而在推理模型时代,即便是标准 9x9,Hard 难度,头部模型也基本可以稳定解出。一些做了更多针对训练的模型,甚至可以稳定解出变体数独。

而这类题,普通人来做却需要大量写草稿,做计算,注意力也很难保持超过 15 分钟。但不能说人类在复杂智力上就输给大模型了。

与一些公开榜追求高难度任务不同,笔者认为需要从更贴近人类智力本质的方面做探索。我的一部分题目是观察幼儿的成长发育过程得来的,大模型在这些人类最基础的任务上表现不尽相同,即便最强大模型,目前也无法稳定胜任。

这类问题往往涉及到人类通过百万年进化出来的空间直觉,抽象思维,联想,模仿能力。问题的思考过程对人类而言,往往是一闪而过的念头,难以用语言形容。如果必须写下来,反而是冗长又低效的信息。大模型对这类题往往是连篇累牍的推理,动辄数万,数十万字。这种低效表达,显然离人类智力的核心还相去甚远。


未来

过去 3 年的 AI 发展,在长期关注的人看来,发展快到让人难以适应。而对更广大的普通人,传统企业而言,又是岁月静好。这种巨大的反差应当归结于大模型智力始终没能突破临界点,综合成本让很多业务应用止步不前,推理耗时又使得容差更低的领域望洋兴叹。

2025 年各家的头牌模型虽然没能解决以上问题,但在可以预见的 26 年里,会有更多的后来者尝试挑战这个性能-成本-耗时不可能三角。AI 的风暴,终将席卷千行百业。

立志于做好大模型发展历史记录的我这位「赛博史官」而言,26 年也将充满挑战。既要与大模型们共同成长,也要持续为读者们提供有价值的输出。正如我在前一篇测评中评价 GPT-5.2 的结束语,踏平坎坷成大道,斗罢艰险又出发。


知友讨论

@Ender233:

即将过去的25年体感上是LLM发展最快的一年,也是头一次觉得AGI真有可能落地的一年

@米希希:

已经有年味了,感谢nao佬一年的测试

@Yuuc:

感谢大佬,期待ds元旦或者春节前的大货了

@漓辞灬:

对于t大的评测,最符合体感,最遵循工程实际,支持t大的工作!

@从不毒舌可达鸭:

大佬的benchmark真是跟踪行业的一盏明灯。体感和大佬的测评也相对接近


作为亲历者,你的 2025 是怎样的?

是一路升级突破,还是在压力中稳住阵脚?

有哪些瞬间让你意识到自己成长了,又有哪些挑战,成为你必须面对的问题?

「AI 中场时刻」活动正在进行中,欢迎分享属于你的年度总结——不论是高光、迷茫,还是转折。你的回答也许正是同行者在这个时代寻找方向的参考。

点击「阅读原文」,查看原回答、分享你的 AI 年度总结

【声明】内容源于网络
0
0
知乎AI先行者
在智能之海寻找信标,航向未来。
内容 174
粉丝 0
知乎AI先行者 在智能之海寻找信标,航向未来。
总阅读38
粉丝0
内容174