重磅报告：AGI的权威定义与量化评估—— 解读科技大佬联名发布的《A Definition of AGI》



重磅报告：AGI的权威定义与量化评估—— 解读科技大佬联名发布的《A Definition of AGI》

脑洞科技社

2025-10-19

导读：通用人工智能（AGI）作为人工智能领域的终极目标之一，其定义长期以来处于模糊且不断变动的状态，这不仅阻碍了严谨

通用人工智能（AGI）作为人工智能领域的终极目标之一，其定义长期以来处于模糊且不断变动的状态，这不仅阻碍了严谨的学术讨论，也影响了对技术发展阶段的准确判断。今日，一份由图灵奖得主 Yoshua Bengio、前谷歌CEO Eric Schmidt 及数十位顶尖学者联合发布的报告——《A Definition of AGI》，旨在终结这一局面。该报告首次提出了一个可量化、可操作的AGI定义与评估框架，并对当前AI模型给出了具体的得分。

第一部分：为AGI立下标尺——一个清晰且可操作的定义

长期以来，“AGI”一词更像一个哲学概念，而非一个工程目标。随着AI在特定任务（如艺术创作、数学解题）上不断突破，AGI的“龙门”被一再移动，导致行业对“我们距离AGI还有多远”这一核心问题无法形成共识。

为解决此困境，该报告提出了AGI的正式定义：

通用人工智能（AGI） 📜是一款能在认知多功能性（Cognitive Versatility）与熟练度（Proficiency）上，达到或超越一名受过良好教育的成年人水平的人工智能系统。

此定义的核心在于两个关键词：

•◆ 广度 (Versatility): 强调认知能力的全面性，而非单一领域的卓越表现。•◆ 深度 (Proficiency): 要求在各个认知领域都具备相当水平的执行能力。

本质上，AGI的衡量标准从“能否在特定任务上超越人类”转向了“是否具备与人类相似的、全面的认知架构”。

第二部分：AGI的认知框架——源自人类智能的十大维度

定义的确立需要评估体系的支撑。报告创造性地借鉴了现代人类认知科学中最具实证效力的 Cattell-Horn-Carroll (CHC) 理论，构建了一个用于评估AI的认知框架。

该框架将通用智能解构为 十大核心认知域 (Core Cognitive Components)，并为每个域赋予了10%的权重，以强调能力发展的均衡性。

—— AGI 十大核心认知域 ——

🧠 1. 通用知识 (General Knowledge, K)

对世界常识、科学、社会科学、历史及文化的理解。

✍️ 2. 读写能力 (Reading & Writing, RW)

涵盖语言消费与生产的全流程能力。

🧮 3. 数学能力 (Mathematical Ability, M)

跨越算术、代数、几何、概率与微积分的知识与技能。

💡 4. 即时推理 (On-the-Spot Reasoning, R)

解决未知问题时，灵活调动注意力进行归纳、演绎与规划的能力。

⏳ 5. 工作记忆 (Working Memory, WM)

在处理任务时，对多模态信息（文本、听觉、视觉）进行主动维持与操作的能力，即“短期记忆”。

💾 6. 长期记忆存储 (Long-Term Memory Storage, MS)

从近期经验中稳定获取、巩固并存储新信息的能力。

🔍 7. 长期记忆检索 (Long-Term Memory Retrieval, MR)

从记忆中提取知识的流畅度与精确度，核心在于规避“幻觉” (Hallucination)。

👁️ 8. 视觉处理 (Visual Processing, V)

分析、推理和生成视觉信息的能力。

👂 9. 听觉处理 (Auditory Processing, A)

对语音、声音、节奏和音乐的辨别、识别与处理能力。

⚡ 10. 速度 (Speed, S)

执行简单认知任务（如反应、感知）的效率。

第三部分：首次量化评估——GPT-4与GPT-5的认知剖析

基于上述框架，报告给出了对当前先进模型的量化评估结果，这无疑是全文最引人注目的部分。

—— AGI 得分评估 ——（以100%为达成AGI标准）

🤖 GPT-4 (2023): 27%

🚀 GPT-5 (2025, 预测): 58%

这两个数字传递出复杂而深刻的信号：

•进展迅速： AI模型的能力在短时间内实现了显著跃迁。•鸿沟犹存： 即便是预测中的GPT-5，其58%的得分也仅刚过及格线，距离100%的AGI标准仍有巨大差距。

更为关键的是，评估结果揭示了当前AI模型一个根本性的特征：高度不均衡的“锯齿状”认知剖面 (Jagged Cognitive Profile)。

报告中的认知雷达图直观地展示了这一点：模型在知识密集型领域（如知识K、读写RW、数学M）表现出极高水平，但在某些基础认知能力上却存在 “严重缺陷” (Critical Deficits)。

第四部分：AGI的“阿喀琉斯之踵”——长期记忆存储（MS）的缺失

在报告的十大认知域评估中，最触目惊心的结果出现在“长期记忆存储”（Long-Term Memory Storage, MS）维度上。

◆ 关键数据： 无论是GPT-4还是GPT-5，其在该项（MS）的得分均为 0% 。

报告作者群将此项判定为 “最显著的瓶颈” (the most significant bottleneck) 。

“长期记忆存储”评估的是AI是否具备持续学习新信息（包括关联性、语义性及逐字记忆）的能力。目前模型得分 0% 的事实，意味着它们患有根本性的“失忆症”（amnesia）。

这种缺陷导致AI系统无法从过往的交互中积累经验，被迫在每一次新的会话中“重新学习”所有上下文。这不仅严重限制了AI的效用，也是其无法实现真正个性化和连续性理解的根本原因。

第五部分：“能力扭曲”——AI如何“伪装”通用性

既然AI存在如此重大的基础缺陷，为何它们在日常使用中仍能展现出惊人的能力？报告提出了一个深刻的洞见：“能力扭曲” (Capability Contortions)。

该报告将其定义为：AI利用其在某些领域的极端优势（如海量知识），来补偿（compensate for）其在其他基础能力上的深刻弱点。这种补偿策略掩盖了底层的局限性，制造了一种脆弱的“通用能力幻觉”。

报告重点分析了两种“扭曲”形态：

1. 以“工作记忆（WM）”扭曲“长期记忆存储（MS）”

•现象： AI模型依赖其庞大到惊人的上下文窗口（隶属于工作记忆WM），来“塞入”本应由长期记忆存储（MS）处理的信息（例如完整的代码库或长篇文档）。•剖析： 报告指出，这种方法不仅效率低下、计算昂贵，更是一种无法扩展的权宜之计。它无法应对需要数日、数周甚至更长时间积累上下文的真实世界任务。

2. 以“检索增强（RAG）”扭曲“记忆检索（MR）”

•现象： AI的“长期记忆检索（MR）”能力同样存在缺陷，突出表现为“幻觉”（Hallucinations）。为了缓解这一问题，业界普遍采用检索增强生成（RAG），即外挂搜索工具。•剖析： 报告直言，这种对RAG的依赖也是一种“能力扭曲” 。它掩盖了AI在两个层面的无能：

•其一，无法可靠地访问其自身参数中已有的静态知识；•其二，（更关键的是）它掩盖了AI完全缺乏一个动态的、体验式的、可更新的私有记忆库这一事实。

•结论： RAG本质上是从数据库中检索事实，它绝不等同于、也无法替代AGI所必需的、用于真正学习和个性化理解的“整体性、集成性记忆”。

第六部分：结论与启示——通往AGI之路的真正障碍

《A Definition of AGI》报告的价值不仅在于提供了定义和评分，更在于它为我们指明了前路的障碍。

1. “引擎类比”：系统受限于最弱组件报告将AI智能比作一个高性能引擎。一个引擎的整体“马力”，最终受限于其最薄弱的那个组件。当前AI引擎中的几个关键部件（如MS）是“高度缺陷”的，这严重限制了系统的整体能力。

2. 警惕“总分陷阱”：认知画像至关重要报告特别强调，那个引人注目的AGI总分（如58%）本身可能具有“误导性” 。

一个极端的例子是：一个AI的总分达到了90%，但其“长期记忆存储（MS）”得分依旧是0%。这样的系统虽然看似强大，但本质上仍是一个被“失忆症”所困扰的“功能性障碍”系统。

因此，报告强烈建议，未来在评估AI时，必须报告其完整的“认知画像”（cognitive profile），而不仅仅是单一的总分。

3. AGI的“宏大挑战”报告总结，要实现100%的AGI，必须攻克一系列“宏大挑战”，包括但不限于：抽象推理 (R)、空间导航 (WM) ，以及最关键的——解决幻觉 (MR) 和实现真正的持续学习 (MS)。

在这些根本性的障碍被克服之前，我们距离真正的AGI，仍有很长的路要走。

【声明】内容源于网络

脑洞科技社

1234

内容 119

粉丝 0

脑洞科技社 1234

总阅读639

粉丝0

内容119