2025年AI中场时刻:一位评测员的大模型观察
2025年,科技行业持续加速变革。在大模型领域深耕的知友@toyama nao,全年测试了126个AI模型,涵盖49个编程模型与21个视觉模型,投入超400小时于测试与报告撰写。作为业余AI评测员与独立游戏开发者,他分享了对大模型发展路径的深度思考。
过去:格局重塑的一年
回望2024年底,国内多家团队尚处于摸索阶段。某企业V3模型虽在复杂智力任务上略胜GPT-4o,但输出冗长、实用性低;另一知名产品团队方向偏差,陷入功能迭代困境;开源势力初现苗头,仅以颜文字模型展示潜力;“六小龙”虽豪言壮语,实际性能难敌旧版GPT-4。
进入2025年,局面迅速转变。年初字节Doubao1.5发布后,随即被DeepSeek R1 overshadow。春节期间,北美技术节奏未停:Anthropic推出Sonnet3.7,标志Vibe Coding时代开启;Google通过Gemini 2最后一次更新告别弱势期;Grok3也同期亮相。
5月至10月,中美、开源与闭源阵营竞争白热化。通义千问Qwen系列与DeepSeek R1不断缩小与国际顶尖模型的差距,但Gemini 2.5、Grok4、GPT-5接连拉大领先优势。国产万亿参数模型Kimi K2、Qwen3-Max再度追赶,将差距压缩至季度级别,随后Gemini 3 Pro强势登场,几乎奠定年度格局。两周后,DeepSeek以高性价比回归,再次搅动市场。
现在:测试方法论的演进
随着强化学习后训练广泛应用,传统数理逻辑题已难不倒头部模型。以数独为例,2024年多数模型连4x4都难以全对,而至2025年,9x9 Hard难度已成为主流可解任务,部分模型甚至能应对变体。
然而,这类题目依赖明确解法,易被专项优化,难以反映真实智力水平。作者指出,真正挑战在于人类进化形成的底层能力——空间直觉、抽象联想、模仿学习等。这些问题往往一闪即逝,无法言传,却构成人类认知核心。
当前大模型面对此类任务时,常采用冗长推理链,动辄数万字输出,效率远低于人类直觉判断。这表明,尽管性能指标提升,AI距离模拟人类基础认知仍有本质差距。
作者的部分评测题源自幼儿发育观察,旨在探索更贴近人类智力本质的评估方式。他认为,未来评测应超越刷榜式测试,转向对智能本质的深层挖掘。
未来:突破不可能三角
过去三年AI发展迅猛,但在大众感知中仍显缓慢。这种反差源于大模型尚未突破关键临界点:综合成本高、推理延迟大,限制了在金融、制造等严苛场景的应用落地。
2025年虽未根本解决上述问题,但性能-成本-耗时的“不可能三角”正吸引越来越多团队挑战。预计2026年将迎来更多尝试,推动AI向千行百业渗透。
作为大模型发展的见证者与记录者,作者自称为“赛博史官”。面对快速迭代的技术环境,他将继续保持独立评测视角,为行业提供可靠参考。正如其评价GPT-5.2所言:“踏平坎坷成大道,斗罢艰险又出发。”
知友讨论
@Ender233: 2025年是LLM发展最快的一年,也是首次真切感受到AGI可能落地的一年。
@米希希: 已有年味,感谢nao佬一年来的坚持测试。
@Yuuc: 感谢分享,期待DeepSeek元旦或春节前的新动作。
@漓辞灬: t大的评测最符合实际体验,也最贴近工程现实,支持持续输出!
@从不毒舌可达鸭: benchmark如同行业明灯,测评结果与个人体感高度一致。

