时隔一年,00后中国学者Lexin Zhou再次以第一作者身份登上《Nature》正刊。
这一次,他直指大模型评估的核心困境:如何预知模型在陌生任务上的真实表现,避免“翻车”?联合普林斯顿、剑桥、微软亚洲研究院等顶尖机构,他提出一套兼具解释性与预测力的全新评估范式,试图从根本上重构我们对大模型能力的认知。
2024年,他曾指出大模型Scaling过程中的不可靠性;如今,他带着能解释、可预测的新标准归来,填补评估体系的盲区。
我这里精选了18篇 AI评估 方向的顶刊论文,以期为相关研究带来启发。
论文信息
-
• 论文标题:General scales unlock AI evaluation with explanatory and predictive power -
• 论文链接:https://doi.org/10.1038/s41586-026-10303-2 -
• 代码链接:https://kinds-of-intelligence-cfi.github.io/
一、 传统评分机制的“遮眼法”
现在的 AI 评估主要靠“刷榜”。比如 DeepSeek-R1 在某个数学竞赛(AIME)上拿了 79.8% 的准确率,但这能说明它掌握了所有数学技巧吗?
答案是:不能。
传统的百分制得分有三大痛点:
-
1. 缺乏解释力:你不知道它是错在了逻辑推导上,还是错在了没见过某种生僻公式。 -
2. 缺乏预测力:在 A 榜拿高分,不代表在 B 榜也能行。 -
3. 容易饱和:随着模型变强,很多榜单直接被刷满(100分),失去了对比意义。
为了解决这些问题,研究团队引入了心理学和测量学中的“量表”概念,开发了 DeLeAn(需求水平标注)风向标。
二、 18 个维度,给 AI 做一次“全深度体检”
研究者们定义了 18 个通用的能力量表(范围从 0 到 5+),将 AI 的能力拆解得明明白白:
-
1. 基础能力(11个):包括言语表达、元认知(自我反思)、逻辑推理、量化推理、空间感知等。 -
2. 知识领域(5个):自然科学、形式科学(数学逻辑)、社会科学、人文艺术、应用科学。 -
3. 额外维度(2个):典型性(题目的生僻程度)和数据量(题目长度)。
核心公式:
研究的核心在于将“题目难度”和“模型能力”放在同一个坐标系里。模型在某个维度
上的能力值(Ability,
),定义为:
当该维度的需求水平(Demand)为 时,模型有 50% 的概率做对这道题。
这种方法让评估不再依赖于“哪一届考生更强”,而是看“这道题本身需要多少内功”。
三、 论文精华图解:能力画像与预测
1. 模型的“雷达图”:谁才是全才?
论文中最惊艳的莫过于 Fig. 1。研究者为 DeepSeek-R1-Distilled-Qwen-14B 绘制了能力分布图(图 a),并与不同难度的榜单(图 b)进行对比。
(选自论文 Fig. 1:左侧为模型能力画像,右侧为不同榜单的需求画像)
-
• 看透“逻辑陷阱”:通过对比发现,GSM8K 这种基础数学榜单,对量化推理(QLq)的需求只有 1-2 级,所以大多数模型都能拿高分。而 OlymMATH Hard(奥数难题)的需求直接冲到了 4-5 级,导致性能大幅下滑。 -
• 拆解“偏科生”:通过这套量表,研究者发现 OpenAI 的 o1 系列和 DeepSeek-R1 系列在“逻辑推理”和“元认知”上有着极高的爆发力,远超同参数规模的其他模型。
2. 预测未来:AI 能不能做对这道新题?
这套体系最实用的地方在于其预测能力。由于每一道题都被自动化标注了 18 维的需求向量,我们就可以预测模型对它的胜算。
研究表明,基于这套“需求特征”训练的预测器(Assessor),在面对完全陌生的任务(Out-of-Distribution)时,预测准确度(AUROC 约 0.84)显著优于传统的黑盒模型。这意味着,我们可以在 AI 真正动手前,就判断它在某个专业医疗或法律任务上是否可靠。
四、 榜单的“照妖镜”
研究团队对 20 个主流榜单进行了标注(见 Fig. 2),结果发现了很多有趣的事实:
-
• 不纯的榜单:有些号称测“推理”的榜单,实际上充斥着大量的“事实性知识”需求。如果模型只是背下了百科全书,它就能在这些推理榜单上拿高分。 -
• 饱和危机:很多老牌榜单的需求水平大多集中在 2-3 级,对于现在的顶级大模型来说,就像是在考小学生。
(选自论文 Fig. 2:不同榜单的“需求特征图”,展示了它们的侧重点和局限性)
五、 总结与展望
这篇论文的意义在于,它试图建立 “AI 评估的科学标准”。就像我们测量重量有“千克”,测量长度有“米”,未来评估 AI 的能力也许就会说:“这个模型的逻辑推理达到了 4.5 级,足以胜任中级代码审查任务。”
关键结论:
-
1. 能力与表现是两回事:高分可能是题目太简单或数据污染,真正的“能力”应该是跨任务稳定的。 -
2. 自动化评估是未来:利用大模型作为“法官”去标注千万级的数据需求,已经成为了现实。 -
3. 可预测的 AI 更安全:只有知道 AI 的边界在哪里,我们才敢真正放心地将其部署到关键业务中。
正如作者在结尾所说:“这只是 1.0 版本,我们要构建的是一个能随着 AI 进化而进化的测量标准。”
我这里精选了18篇 AI评估 方向的顶刊论文,以期为相关研究带来启发。

