

科技丨126 个模型实测回顾，2025 年 AI 大战，谁赢了？

知乎日报

2025-12-20

导读：模型全部「刷爆」榜单，2026 年我们该用什么标准评测 AI？

2025年AI中场时刻：一位评测员的大模型观察

2025年，科技行业持续加速变革。在大模型领域深耕的知友@toyama nao，全年测试了126个AI模型，涵盖49个编程模型与21个视觉模型，投入超400小时于测试与报告撰写。作为业余AI评测员与独立游戏开发者，他分享了对大模型发展路径的深度思考。

过去：格局重塑的一年

回望2024年底，国内多家团队尚处于摸索阶段。某企业V3模型虽在复杂智力任务上略胜GPT-4o，但输出冗长、实用性低；另一知名产品团队方向偏差，陷入功能迭代困境；开源势力初现苗头，仅以颜文字模型展示潜力；“六小龙”虽豪言壮语，实际性能难敌旧版GPT-4。

进入2025年，局面迅速转变。年初字节Doubao1.5发布后，随即被DeepSeek R1 overshadow。春节期间，北美技术节奏未停：Anthropic推出Sonnet3.7，标志Vibe Coding时代开启；Google通过Gemini 2最后一次更新告别弱势期；Grok3也同期亮相。

5月至10月，中美、开源与闭源阵营竞争白热化。通义千问Qwen系列与DeepSeek R1不断缩小与国际顶尖模型的差距，但Gemini 2.5、Grok4、GPT-5接连拉大领先优势。国产万亿参数模型Kimi K2、Qwen3-Max再度追赶，将差距压缩至季度级别，随后Gemini 3 Pro强势登场，几乎奠定年度格局。两周后，DeepSeek以高性价比回归，再次搅动市场。

现在：测试方法论的演进

随着强化学习后训练广泛应用，传统数理逻辑题已难不倒头部模型。以数独为例，2024年多数模型连4x4都难以全对，而至2025年，9x9 Hard难度已成为主流可解任务，部分模型甚至能应对变体。

然而，这类题目依赖明确解法，易被专项优化，难以反映真实智力水平。作者指出，真正挑战在于人类进化形成的底层能力——空间直觉、抽象联想、模仿学习等。这些问题往往一闪即逝，无法言传，却构成人类认知核心。

当前大模型面对此类任务时，常采用冗长推理链，动辄数万字输出，效率远低于人类直觉判断。这表明，尽管性能指标提升，AI距离模拟人类基础认知仍有本质差距。

作者的部分评测题源自幼儿发育观察，旨在探索更贴近人类智力本质的评估方式。他认为，未来评测应超越刷榜式测试，转向对智能本质的深层挖掘。

未来：突破不可能三角

过去三年AI发展迅猛，但在大众感知中仍显缓慢。这种反差源于大模型尚未突破关键临界点：综合成本高、推理延迟大，限制了在金融、制造等严苛场景的应用落地。

2025年虽未根本解决上述问题，但性能-成本-耗时的“不可能三角”正吸引越来越多团队挑战。预计2026年将迎来更多尝试，推动AI向千行百业渗透。

作为大模型发展的见证者与记录者，作者自称为“赛博史官”。面对快速迭代的技术环境，他将继续保持独立评测视角，为行业提供可靠参考。正如其评价GPT-5.2所言：“踏平坎坷成大道，斗罢艰险又出发。”

知友讨论

@Ender233： 2025年是LLM发展最快的一年，也是首次真切感受到AGI可能落地的一年。

@米希希： 已有年味，感谢nao佬一年来的坚持测试。

@Yuuc： 感谢分享，期待DeepSeek元旦或春节前的新动作。

@漓辞灬： t大的评测最符合实际体验，也最贴近工程现实，支持持续输出！

@从不毒舌可达鸭： benchmark如同行业明灯，测评结果与个人体感高度一致。

【声明】内容源于网络

知乎日报

知乎官方订阅号，每日精选知乎热门、有趣内容

内容 9844

粉丝 0

知乎日报知乎官方订阅号，每日精选知乎热门、有趣内容

总阅读44.9k

粉丝0

内容9.8k