谷歌DeepMind首发AGI终极考纲！20万全球悬赏，撕下所有大模型伪装- 大数跨境

新智元

2026-03-18

【新智元导读】AGI如何科学评估？谷歌DeepMind发布认知框架，定义10大能力+三阶段协议

如今的AGI发展到哪一阶段了？谷歌DeepMind最新论文《Measuring Progress Toward AGI: A Cognitive Framework》提出核心主张：评判AGI的关键，不在于争论“什么是AGI”，而在于建立可验证、可复现、有认知科学基础的评估体系。

论文地址：https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/measuring-progress-toward-agi/measuring-progress-toward-agi-a-cognitive-framework.pdf

从「AGI分级」到「AGI体检」

2023年，DeepMind曾提出「Levels of AGI」框架，将AGI发展划分为5个性能等级（Emerging至Superhuman）与6个自主性等级，为行业提供统一坐标系。但该框架未解决关键问题：每一级该如何实证测量？

新论文正是为此补缺——不再仅画台阶，更提供一套系统性“体检方案”。

10大认知能力：通用智能的能力图谱

框架基于心理学、神经科学与认知科学研究成果，构建「认知分类法」（Cognitive Taxonomy），将通用智能解构为10项核心能力，分为8项基础能力与2项复合能力：

8种基础能力

1. 感知（Perception）
从环境中提取并处理感官信息，包括视觉、听觉及AI特有的文本感知（LLM通过token化直接理解语言，形成人类不具备的模态通路）。

2. 生成（Generation）
产出文本、语音、动作乃至内部思维过程。其中“思维生成”用于指导决策，是当前评估难点之一。

3. 注意力（Attention）
在信息过载中动态分配认知资源：既要聚焦目标，又需对环境变化保持警觉，体现认知灵活性与平衡性。

4. 学习（Learning）
通过经验获取新知识与技能，涵盖概念形成、强化学习、观察学习等六大类型；强调部署后持续学习与长期知识保留能力，而非仅依赖训练或上下文窗口。

5. 记忆（Memory）
包含语义记忆、情景记忆、程序性记忆与前瞻性记忆；特别纳入“遗忘”能力——主动清除错误或过时信息，是智能稳健性的关键指标。

6. 推理（Reasoning）
通过逻辑得出有效结论，包括演绎、归纳、溯因、类比和数学推理五类；明确排除单纯模式匹配，强调因果与抽象推导过程。

7. 元认知（Metacognition）
系统对自身认知状态的理解与调控能力，包含三项子能力：
• 元认知知识（知道自己知道什么、不知道什么）；
• 元认知监控（实时评估答案置信度）；
• 元认知控制（发现偏差后主动调整策略）。
缺乏此项能力的AI难以建立可信度与安全性。

8. 执行功能（Executive Functions）
支撑目标导向行为的高阶能力集合，包括目标设定、规划、抑制控制、认知灵活性、冲突解决与工作记忆。

2种复合能力

9. 问题解决（Problem Solving）
整合感知、推理、学习等能力应对现实问题，覆盖流体推理、数学求解、算法设计、常识推理（时间/空间/因果/直觉物理）及知识发现。

10. 社会认知（Social Cognition）
处理社会信息并作出恰当响应的能力，包括社会感知、心智理论（推断他人意图）、合作、谈判、说服甚至欺骗——后者亦提示其潜在风险维度。

DeepMind指出：若系统在任一维度存在显著短板，则无法完成多数人类可胜任的真实任务，即不满足“通用性”定义。

三步验出AI真实成色

框架配套三阶段评估协议，确保结果具备可比性、鲁棒性与解释性：

第一步：认知评测
设计覆盖全部10项能力的专项任务，要求：
• 单任务精准对应单一能力；
• 使用保密题库，经独立第三方审计；
• 难度梯度覆盖“人类易/AI难”至“挑战人类极限”区间；
• 格式多样，含选择题、开放问答、多模态及多步骤任务。

第二步：收集人类基线
组织具有人口统计学代表性的成年人群（至少高中学历），在完全一致条件下作答——相同指令、格式与工具权限，构建人类能力分布基准。

第三步：构建认知画像
将AI表现映射至人类分布，计算其超越人类被试的比例，在10维能力上绘制雷达图。此举旨在揭示AI典型的“锯齿状”能力分布：可能在逻辑推理上超99%人类，却在社会认知或常识层面低于中位数。单一总分无法反映此类结构性缺陷。

团队同时指出三大不确定性来源：任务质量、构念效度（是否真测到目标能力）、生成式AI固有的随机性（同一问题多次输出结果可能不一致）。

旧评测体系为何失效？

当前主流评估面临两大根本性困境：

1. 数据污染（“小镇做题家”困境）
若测试题已在训练数据中大量出现，高分仅反映记忆复现能力，无法证明通用推理水平。

2. 评测对象模糊
现代AI已是完整系统（含系统提示、工具调用、联网搜索、多模型协同），传统“孤立模型评测”已失准——例如测试历史知识时，AI实际调用的是搜索引擎而非内部记忆。

题库泄露与对象失焦，使旧体系难以支撑AGI判断，这也正是DeepMind转向认知科学建模，并开放出题权的核心动因。

20万美元Kaggle黑客松：填补评测荒地

针对元认知、注意力、执行功能、学习、社会认知五大尚无成熟benchmark的能力领域，DeepMind联合Kaggle发起总奖金20万美元的全球竞赛：

5个赛道各设2个一等奖（每奖1万美元），鼓励单项深度突破；
另设4个全场特等奖（每奖2.5万美元），奖励具备跨领域通用性的高质量评估工具；
参赛者可通过Kaggle Community Benchmarks平台构建并验证方案，支持在前沿大模型上实测。

项目地址：https://www.kaggle.com/competitions/kaggle-measuring-agi
时间安排：2026年3月17日开放提交，4月16日截止，6月1日公布结果。

若成功落地，该评估体系有望成为AGI领域的公共基础设施，正如ImageNet之于计算机视觉。

框架之外：尚未覆盖的关键维度

论文亦坦承当前框架的边界，明确列出四类重要但暂未纳入评估的维度：

处理速度：答对≠可用；实用系统需兼顾准确性与时效性（如修bug耗时6小时 vs 1分钟）。

系统倾向性：不仅关注“能做什么”，更要分析“倾向于做什么”，包括风险偏好、价值对齐程度等深层行为特征。

创造力：其组成部分（认知灵活性、世界知识、问题解决）已被覆盖，但整体创造力仍缺乏客观、可剥离的量化方法。

端到端部署评估：认知评测解释“为何失败”，场景实测预测“上线是否出事”，二者需协同使用。

评估AGI，只是起点

DeepMind强调：本框架并非终极标准，而是科学化AGI评估的起点。AI必将发展出人类没有的能力（如LiDAR感知、原生图像生成），认知分类法本身需持续迭代；各能力与真实世界表现间的具体映射关系，仍有待实证验证。

其真正意义在于——推动AGI评估从主观判断，走向有理论支撑、可操作、可迭代的科学轨道。

下一个关键问题已浮现：第一个在全部10个维度均达到人类先进水平的系统，会是谁？

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 15040

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读141.9k

粉丝0

内容15.0k