通用人工智能(AGI)作为人工智能领域的终极目标之一,其定义长期以来处于模糊且不断变动的状态,这不仅阻碍了严谨的学术讨论,也影响了对技术发展阶段的准确判断。今日,一份由图灵奖得主 Yoshua Bengio、前谷歌CEO Eric Schmidt 及数十位顶尖学者联合发布的报告——《A Definition of AGI》,旨在终结这一局面。该报告首次提出了一个可量化、可操作的AGI定义与评估框架,并对当前AI模型给出了具体的得分。
第一部分:为AGI立下标尺——一个清晰且可操作的定义
长期以来,“AGI”一词更像一个哲学概念,而非一个工程目标。随着AI在特定任务(如艺术创作、数学解题)上不断突破,AGI的“龙门”被一再移动,导致行业对“我们距离AGI还有多远”这一核心问题无法形成共识。
为解决此困境,该报告提出了AGI的正式定义:
通用人工智能(AGI) 📜是一款能在认知多功能性(Cognitive Versatility)与熟练度(Proficiency)上,达到或超越一名受过良好教育的成年人水平的人工智能系统。
此定义的核心在于两个关键词:
本质上,AGI的衡量标准从“能否在特定任务上超越人类”转向了“是否具备与人类相似的、全面的认知架构”。
第二部分:AGI的认知框架——源自人类智能的十大维度
定义的确立需要评估体系的支撑。报告创造性地借鉴了现代人类认知科学中最具实证效力的 Cattell-Horn-Carroll (CHC) 理论,构建了一个用于评估AI的认知框架。
该框架将通用智能解构为 十大核心认知域 (Core Cognitive Components),并为每个域赋予了10%的权重,以强调能力发展的均衡性。
—— AGI 十大核心认知域 ——
🧠 1. 通用知识 (General Knowledge, K)
对世界常识、科学、社会科学、历史及文化的理解。
✍️ 2. 读写能力 (Reading & Writing, RW)
涵盖语言消费与生产的全流程能力。
🧮 3. 数学能力 (Mathematical Ability, M)
跨越算术、代数、几何、概率与微积分的知识与技能。
💡 4. 即时推理 (On-the-Spot Reasoning, R)
解决未知问题时,灵活调动注意力进行归纳、演绎与规划的能力。
⏳ 5. 工作记忆 (Working Memory, WM)
在处理任务时,对多模态信息(文本、听觉、视觉)进行主动维持与操作的能力,即“短期记忆”。
💾 6. 长期记忆存储 (Long-Term Memory Storage, MS)
从近期经验中稳定获取、巩固并存储新信息的能力。
🔍 7. 长期记忆检索 (Long-Term Memory Retrieval, MR)
从记忆中提取知识的流畅度与精确度,核心在于规避“幻觉” (Hallucination)。
👁️ 8. 视觉处理 (Visual Processing, V)
分析、推理和生成视觉信息的能力。
👂 9. 听觉处理 (Auditory Processing, A)
对语音、声音、节奏和音乐的辨别、识别与处理能力。
⚡ 10. 速度 (Speed, S)
执行简单认知任务(如反应、感知)的效率。
第三部分:首次量化评估——GPT-4与GPT-5的认知剖析
基于上述框架,报告给出了对当前先进模型的量化评估结果,这无疑是全文最引人注目的部分。
—— AGI 得分评估 ——(以100%为达成AGI标准)
🤖 GPT-4 (2023): 27%
🚀 GPT-5 (2025, 预测): 58%
这两个数字传递出复杂而深刻的信号:
更为关键的是,评估结果揭示了当前AI模型一个根本性的特征:高度不均衡的“锯齿状”认知剖面 (Jagged Cognitive Profile)。
报告中的认知雷达图直观地展示了这一点:模型在知识密集型领域(如知识K、读写RW、数学M)表现出极高水平,但在某些基础认知能力上却存在 “严重缺陷” (Critical Deficits)。
第四部分:AGI的“阿喀琉斯之踵”——长期记忆存储(MS)的缺失
在报告的十大认知域评估中,最触目惊心的结果出现在“长期记忆存储”(Long-Term Memory Storage, MS)维度上。
◆ 关键数据: 无论是GPT-4还是GPT-5,其在该项(MS)的得分均为 0% 。
报告作者群将此项判定为 “最显著的瓶颈” (the most significant bottleneck) 。
“长期记忆存储”评估的是AI是否具备持续学习新信息(包括关联性、语义性及逐字记忆)的能力。目前模型得分 0% 的事实,意味着它们患有根本性的“失忆症”(amnesia)。
这种缺陷导致AI系统无法从过往的交互中积累经验,被迫在每一次新的会话中“重新学习”所有上下文。这不仅严重限制了AI的效用,也是其无法实现真正个性化和连续性理解的根本原因 。
第五部分:“能力扭曲”——AI如何“伪装”通用性
既然AI存在如此重大的基础缺陷,为何它们在日常使用中仍能展现出惊人的能力?报告提出了一个深刻的洞见:“能力扭曲” (Capability Contortions)。
该报告将其定义为:AI利用其在某些领域的极端优势(如海量知识),来补偿(compensate for)其在其他基础能力上的深刻弱点 。这种补偿策略掩盖了底层的局限性,制造了一种脆弱的“通用能力幻觉”。
报告重点分析了两种“扭曲”形态:
1. 以“工作记忆(WM)”扭曲“长期记忆存储(MS)”
2. 以“检索增强(RAG)”扭曲“记忆检索(MR)”
第六部分:结论与启示——通往AGI之路的真正障碍
《A Definition of AGI》报告的价值不仅在于提供了定义和评分,更在于它为我们指明了前路的障碍。
1. “引擎类比”:系统受限于最弱组件报告将AI智能比作一个高性能引擎。一个引擎的整体“马力”,最终受限于其最薄弱的那个组件。当前AI引擎中的几个关键部件(如MS)是“高度缺陷”的,这严重限制了系统的整体能力。
2. 警惕“总分陷阱”:认知画像至关重要报告特别强调,那个引人注目的AGI总分(如58%)本身可能具有“误导性” 。
一个极端的例子是:一个AI的总分达到了90%,但其“长期记忆存储(MS)”得分依旧是0%。这样的系统虽然看似强大,但本质上仍是一个被“失忆症”所困扰的“功能性障碍”系统。
因此,报告强烈建议,未来在评估AI时,必须报告其完整的“认知画像”(cognitive profile),而不仅仅是单一的总分。
3. AGI的“宏大挑战”报告总结,要实现100%的AGI,必须攻克一系列“宏大挑战”,包括但不限于:抽象推理 (R)、空间导航 (WM) ,以及最关键的——解决幻觉 (MR) 和实现真正的持续学习 (MS)。
在这些根本性的障碍被克服之前,我们距离真正的AGI,仍有很长的路要走。

