大数跨境

谷歌DeepMind首发AGI终极考纲!20万全球悬赏,撕下所有大模型伪装

谷歌DeepMind首发AGI终极考纲!20万全球悬赏,撕下所有大模型伪装 新智元
2026-03-18
4

【新智元导读】AGI如何科学评估?谷歌DeepMind发布认知框架,定义10大能力+三阶段协议

如今的AGI发展到哪一阶段了?谷歌DeepMind最新论文《Measuring Progress Toward AGI: A Cognitive Framework》提出核心主张:评判AGI的关键,不在于争论“什么是AGI”,而在于建立可验证、可复现、有认知科学基础的评估体系。

论文地址:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/measuring-progress-toward-agi/measuring-progress-toward-agi-a-cognitive-framework.pdf

从「AGI分级」到「AGI体检」

2023年,DeepMind曾提出「Levels of AGI」框架,将AGI发展划分为5个性能等级(Emerging至Superhuman)与6个自主性等级,为行业提供统一坐标系。但该框架未解决关键问题:每一级该如何实证测量?

新论文正是为此补缺——不再仅画台阶,更提供一套系统性“体检方案”。

10大认知能力:通用智能的能力图谱

框架基于心理学、神经科学与认知科学研究成果,构建「认知分类法」(Cognitive Taxonomy),将通用智能解构为10项核心能力,分为8项基础能力与2项复合能力:

8种基础能力

1. 感知(Perception)
从环境中提取并处理感官信息,包括视觉、听觉及AI特有的文本感知(LLM通过token化直接理解语言,形成人类不具备的模态通路)。

2. 生成(Generation)
产出文本、语音、动作乃至内部思维过程。其中“思维生成”用于指导决策,是当前评估难点之一。

3. 注意力(Attention)
在信息过载中动态分配认知资源:既要聚焦目标,又需对环境变化保持警觉,体现认知灵活性与平衡性。

4. 学习(Learning)
通过经验获取新知识与技能,涵盖概念形成、强化学习、观察学习等六大类型;强调部署后持续学习与长期知识保留能力,而非仅依赖训练或上下文窗口。

5. 记忆(Memory)
包含语义记忆、情景记忆、程序性记忆与前瞻性记忆;特别纳入“遗忘”能力——主动清除错误或过时信息,是智能稳健性的关键指标。

6. 推理(Reasoning)
通过逻辑得出有效结论,包括演绎、归纳、溯因、类比和数学推理五类;明确排除单纯模式匹配,强调因果与抽象推导过程。

7. 元认知(Metacognition)
系统对自身认知状态的理解与调控能力,包含三项子能力:
• 元认知知识(知道自己知道什么、不知道什么);
• 元认知监控(实时评估答案置信度);
• 元认知控制(发现偏差后主动调整策略)。
缺乏此项能力的AI难以建立可信度与安全性。

8. 执行功能(Executive Functions)
支撑目标导向行为的高阶能力集合,包括目标设定、规划、抑制控制、认知灵活性、冲突解决与工作记忆。

2种复合能力

9. 问题解决(Problem Solving)
整合感知、推理、学习等能力应对现实问题,覆盖流体推理、数学求解、算法设计、常识推理(时间/空间/因果/直觉物理)及知识发现。

10. 社会认知(Social Cognition)
处理社会信息并作出恰当响应的能力,包括社会感知、心智理论(推断他人意图)、合作、谈判、说服甚至欺骗——后者亦提示其潜在风险维度。

DeepMind指出:若系统在任一维度存在显著短板,则无法完成多数人类可胜任的真实任务,即不满足“通用性”定义。

三步验出AI真实成色

框架配套三阶段评估协议,确保结果具备可比性、鲁棒性与解释性:

第一步:认知评测
设计覆盖全部10项能力的专项任务,要求:
• 单任务精准对应单一能力;
• 使用保密题库,经独立第三方审计;
• 难度梯度覆盖“人类易/AI难”至“挑战人类极限”区间;
• 格式多样,含选择题、开放问答、多模态及多步骤任务。

第二步:收集人类基线
组织具有人口统计学代表性的成年人群(至少高中学历),在完全一致条件下作答——相同指令、格式与工具权限,构建人类能力分布基准。

第三步:构建认知画像
将AI表现映射至人类分布,计算其超越人类被试的比例,在10维能力上绘制雷达图。此举旨在揭示AI典型的“锯齿状”能力分布:可能在逻辑推理上超99%人类,却在社会认知或常识层面低于中位数。单一总分无法反映此类结构性缺陷。

团队同时指出三大不确定性来源:任务质量、构念效度(是否真测到目标能力)、生成式AI固有的随机性(同一问题多次输出结果可能不一致)。

旧评测体系为何失效?

当前主流评估面临两大根本性困境:

1. 数据污染(“小镇做题家”困境)
若测试题已在训练数据中大量出现,高分仅反映记忆复现能力,无法证明通用推理水平。

2. 评测对象模糊
现代AI已是完整系统(含系统提示、工具调用、联网搜索、多模型协同),传统“孤立模型评测”已失准——例如测试历史知识时,AI实际调用的是搜索引擎而非内部记忆。

题库泄露与对象失焦,使旧体系难以支撑AGI判断,这也正是DeepMind转向认知科学建模,并开放出题权的核心动因。

20万美元Kaggle黑客松:填补评测荒地

针对元认知、注意力、执行功能、学习、社会认知五大尚无成熟benchmark的能力领域,DeepMind联合Kaggle发起总奖金20万美元的全球竞赛:

  • 5个赛道各设2个一等奖(每奖1万美元),鼓励单项深度突破;
  • 另设4个全场特等奖(每奖2.5万美元),奖励具备跨领域通用性的高质量评估工具;
  • 参赛者可通过Kaggle Community Benchmarks平台构建并验证方案,支持在前沿大模型上实测。

项目地址:https://www.kaggle.com/competitions/kaggle-measuring-agi
时间安排:2026年3月17日开放提交,4月16日截止,6月1日公布结果。

若成功落地,该评估体系有望成为AGI领域的公共基础设施,正如ImageNet之于计算机视觉。

框架之外:尚未覆盖的关键维度

论文亦坦承当前框架的边界,明确列出四类重要但暂未纳入评估的维度:

处理速度:答对≠可用;实用系统需兼顾准确性与时效性(如修bug耗时6小时 vs 1分钟)。

系统倾向性:不仅关注“能做什么”,更要分析“倾向于做什么”,包括风险偏好、价值对齐程度等深层行为特征。

创造力:其组成部分(认知灵活性、世界知识、问题解决)已被覆盖,但整体创造力仍缺乏客观、可剥离的量化方法。

端到端部署评估:认知评测解释“为何失败”,场景实测预测“上线是否出事”,二者需协同使用。

评估AGI,只是起点

DeepMind强调:本框架并非终极标准,而是科学化AGI评估的起点。AI必将发展出人类没有的能力(如LiDAR感知、原生图像生成),认知分类法本身需持续迭代;各能力与真实世界表现间的具体映射关系,仍有待实证验证。

其真正意义在于——推动AGI评估从主观判断,走向有理论支撑、可操作、可迭代的科学轨道。

下一个关键问题已浮现:第一个在全部10个维度均达到人类先进水平的系统,会是谁?

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 15040
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读141.9k
粉丝0
内容15.0k