大数跨境
0
0

科技丨126 个模型实测回顾,2025 年 AI 大战,谁赢了?

科技丨126 个模型实测回顾,2025 年 AI 大战,谁赢了? 知乎日报
2025-12-20
2
导读:模型全部「刷爆」榜单,2026 年我们该用什么标准评测 AI?

2025年AI中场时刻:一位评测员的大模型观察

2025年,科技行业持续加速变革。在大模型领域深耕的知友@toyama nao,全年测试了126个AI模型,涵盖49个编程模型与21个视觉模型,投入超400小时于测试与报告撰写。作为业余AI评测员与独立游戏开发者,他分享了对大模型发展路径的深度思考。

过去:格局重塑的一年

回望2024年底,国内多家团队尚处于摸索阶段。某企业V3模型虽在复杂智力任务上略胜GPT-4o,但输出冗长、实用性低;另一知名产品团队方向偏差,陷入功能迭代困境;开源势力初现苗头,仅以颜文字模型展示潜力;“六小龙”虽豪言壮语,实际性能难敌旧版GPT-4。

进入2025年,局面迅速转变。年初字节Doubao1.5发布后,随即被DeepSeek R1 overshadow。春节期间,北美技术节奏未停:Anthropic推出Sonnet3.7,标志Vibe Coding时代开启;Google通过Gemini 2最后一次更新告别弱势期;Grok3也同期亮相。

5月至10月,中美、开源与闭源阵营竞争白热化。通义千问Qwen系列与DeepSeek R1不断缩小与国际顶尖模型的差距,但Gemini 2.5、Grok4、GPT-5接连拉大领先优势。国产万亿参数模型Kimi K2、Qwen3-Max再度追赶,将差距压缩至季度级别,随后Gemini 3 Pro强势登场,几乎奠定年度格局。两周后,DeepSeek以高性价比回归,再次搅动市场。

现在:测试方法论的演进

随着强化学习后训练广泛应用,传统数理逻辑题已难不倒头部模型。以数独为例,2024年多数模型连4x4都难以全对,而至2025年,9x9 Hard难度已成为主流可解任务,部分模型甚至能应对变体。

然而,这类题目依赖明确解法,易被专项优化,难以反映真实智力水平。作者指出,真正挑战在于人类进化形成的底层能力——空间直觉、抽象联想、模仿学习等。这些问题往往一闪即逝,无法言传,却构成人类认知核心。

当前大模型面对此类任务时,常采用冗长推理链,动辄数万字输出,效率远低于人类直觉判断。这表明,尽管性能指标提升,AI距离模拟人类基础认知仍有本质差距。

作者的部分评测题源自幼儿发育观察,旨在探索更贴近人类智力本质的评估方式。他认为,未来评测应超越刷榜式测试,转向对智能本质的深层挖掘。

未来:突破不可能三角

过去三年AI发展迅猛,但在大众感知中仍显缓慢。这种反差源于大模型尚未突破关键临界点:综合成本高、推理延迟大,限制了在金融、制造等严苛场景的应用落地。

2025年虽未根本解决上述问题,但性能-成本-耗时的“不可能三角”正吸引越来越多团队挑战。预计2026年将迎来更多尝试,推动AI向千行百业渗透。

作为大模型发展的见证者与记录者,作者自称为“赛博史官”。面对快速迭代的技术环境,他将继续保持独立评测视角,为行业提供可靠参考。正如其评价GPT-5.2所言:“踏平坎坷成大道,斗罢艰险又出发。”

知友讨论

@Ender233: 2025年是LLM发展最快的一年,也是首次真切感受到AGI可能落地的一年。

@米希希: 已有年味,感谢nao佬一年来的坚持测试。

@Yuuc: 感谢分享,期待DeepSeek元旦或春节前的新动作。

@漓辞灬: t大的评测最符合实际体验,也最贴近工程现实,支持持续输出!

@从不毒舌可达鸭: benchmark如同行业明灯,测评结果与个人体感高度一致。

【声明】内容源于网络
0
0
知乎日报
知乎官方订阅号,每日精选知乎热门、有趣内容
内容 9844
粉丝 0
知乎日报 知乎官方订阅号,每日精选知乎热门、有趣内容
总阅读44.9k
粉丝0
内容9.8k