大数跨境
0
0

重磅报告:AGI的权威定义与量化评估—— 解读科技大佬联名发布的《A Definition of AGI》

重磅报告:AGI的权威定义与量化评估—— 解读科技大佬联名发布的《A Definition of AGI》 脑洞科技社
2025-10-19
14
导读:通用人工智能(AGI)作为人工智能领域的终极目标之一,其定义长期以来处于模糊且不断变动的状态,这不仅阻碍了严谨

通用人工智能(AGI)作为人工智能领域的终极目标之一,其定义长期以来处于模糊且不断变动的状态,这不仅阻碍了严谨的学术讨论,也影响了对技术发展阶段的准确判断。今日,一份由图灵奖得主 Yoshua Bengio、前谷歌CEO Eric Schmidt 及数十位顶尖学者联合发布的报告——《A Definition of AGI》,旨在终结这一局面。该报告首次提出了一个可量化、可操作的AGI定义与评估框架,并对当前AI模型给出了具体的得分。


第一部分:为AGI立下标尺——一个清晰且可操作的定义

长期以来,“AGI”一词更像一个哲学概念,而非一个工程目标。随着AI在特定任务(如艺术创作、数学解题)上不断突破,AGI的“龙门”被一再移动,导致行业对“我们距离AGI还有多远”这一核心问题无法形成共识。

为解决此困境,该报告提出了AGI的正式定义:

通用人工智能(AGI) 📜是一款能在认知多功能性(Cognitive Versatility)与熟练度(Proficiency)上,达到或超越一名受过良好教育的成年人水平的人工智能系统。

此定义的核心在于两个关键词:

◆ 广度 (Versatility): 强调认知能力的全面性,而非单一领域的卓越表现。◆ 深度 (Proficiency): 要求在各个认知领域都具备相当水平的执行能力。

本质上,AGI的衡量标准从“能否在特定任务上超越人类”转向了“是否具备与人类相似的、全面的认知架构”。


第二部分:AGI的认知框架——源自人类智能的十大维度

定义的确立需要评估体系的支撑。报告创造性地借鉴了现代人类认知科学中最具实证效力的 Cattell-Horn-Carroll (CHC) 理论,构建了一个用于评估AI的认知框架。

该框架将通用智能解构为 十大核心认知域 (Core Cognitive Components),并为每个域赋予了10%的权重,以强调能力发展的均衡性。

—— AGI 十大核心认知域 ——

🧠 1. 通用知识 (General Knowledge, K)

对世界常识、科学、社会科学、历史及文化的理解。

✍️ 2. 读写能力 (Reading & Writing, RW)

涵盖语言消费与生产的全流程能力。

🧮 3. 数学能力 (Mathematical Ability, M)

跨越算术、代数、几何、概率与微积分的知识与技能。

💡 4. 即时推理 (On-the-Spot Reasoning, R)

解决未知问题时,灵活调动注意力进行归纳、演绎与规划的能力。

⏳ 5. 工作记忆 (Working Memory, WM)

在处理任务时,对多模态信息(文本、听觉、视觉)进行主动维持与操作的能力,即“短期记忆”。

💾 6. 长期记忆存储 (Long-Term Memory Storage, MS)

从近期经验中稳定获取、巩固并存储新信息的能力。

🔍 7. 长期记忆检索 (Long-Term Memory Retrieval, MR)

从记忆中提取知识的流畅度与精确度,核心在于规避“幻觉” (Hallucination)。

👁️ 8. 视觉处理 (Visual Processing, V)

分析、推理和生成视觉信息的能力。

👂 9. 听觉处理 (Auditory Processing, A)

对语音、声音、节奏和音乐的辨别、识别与处理能力。

⚡ 10. 速度 (Speed, S)

执行简单认知任务(如反应、感知)的效率。


第三部分:首次量化评估——GPT-4与GPT-5的认知剖析

基于上述框架,报告给出了对当前先进模型的量化评估结果,这无疑是全文最引人注目的部分。

—— AGI 得分评估 ——(以100%为达成AGI标准)

🤖 GPT-4 (2023): 27%

🚀 GPT-5 (2025, 预测): 58%

这两个数字传递出复杂而深刻的信号:

进展迅速: AI模型的能力在短时间内实现了显著跃迁。鸿沟犹存: 即便是预测中的GPT-5,其58%的得分也仅刚过及格线,距离100%的AGI标准仍有巨大差距。

更为关键的是,评估结果揭示了当前AI模型一个根本性的特征:高度不均衡的“锯齿状”认知剖面 (Jagged Cognitive Profile)

报告中的认知雷达图直观地展示了这一点:模型在知识密集型领域(如知识K、读写RW、数学M)表现出极高水平,但在某些基础认知能力上却存在 “严重缺陷” (Critical Deficits)


第四部分:AGI的“阿喀琉斯之踵”——长期记忆存储(MS)的缺失

在报告的十大认知域评估中,最触目惊心的结果出现在“长期记忆存储”(Long-Term Memory Storage, MS)维度上。

◆ 关键数据: 无论是GPT-4还是GPT-5,其在该项(MS)的得分均为 0% 。

报告作者群将此项判定为 “最显著的瓶颈” (the most significant bottleneck) 。

“长期记忆存储”评估的是AI是否具备持续学习新信息(包括关联性、语义性及逐字记忆)的能力。目前模型得分 0% 的事实,意味着它们患有根本性的“失忆症”(amnesia)。

这种缺陷导致AI系统无法从过往的交互中积累经验,被迫在每一次新的会话中“重新学习”所有上下文。这不仅严重限制了AI的效用,也是其无法实现真正个性化和连续性理解的根本原因 。


第五部分:“能力扭曲”——AI如何“伪装”通用性

既然AI存在如此重大的基础缺陷,为何它们在日常使用中仍能展现出惊人的能力?报告提出了一个深刻的洞见:“能力扭曲” (Capability Contortions)

该报告将其定义为:AI利用其在某些领域的极端优势(如海量知识),来补偿(compensate for)其在其他基础能力上的深刻弱点 。这种补偿策略掩盖了底层的局限性,制造了一种脆弱的“通用能力幻觉”。

报告重点分析了两种“扭曲”形态:

1. 以“工作记忆(WM)”扭曲“长期记忆存储(MS)”

现象: AI模型依赖其庞大到惊人的上下文窗口(隶属于工作记忆WM),来“塞入”本应由长期记忆存储(MS)处理的信息(例如完整的代码库或长篇文档)。剖析: 报告指出,这种方法不仅效率低下、计算昂贵,更是一种无法扩展的权宜之计。它无法应对需要数日、数周甚至更长时间积累上下文的真实世界任务。

2. 以“检索增强(RAG)”扭曲“记忆检索(MR)”

现象: AI的“长期记忆检索(MR)”能力同样存在缺陷,突出表现为“幻觉”(Hallucinations)。为了缓解这一问题,业界普遍采用检索增强生成(RAG),即外挂搜索工具。剖析: 报告直言,这种对RAG的依赖也是一种“能力扭曲” 。它掩盖了AI在两个层面的无能:
其一,无法可靠地访问其自身参数中已有的静态知识;其二,(更关键的是)它掩盖了AI完全缺乏一个动态的、体验式的、可更新的私有记忆库这一事实。
结论: RAG本质上是从数据库中检索事实,它绝不等同于、也无法替代AGI所必需的、用于真正学习和个性化理解的“整体性、集成性记忆”。

第六部分:结论与启示——通往AGI之路的真正障碍

《A Definition of AGI》报告的价值不仅在于提供了定义和评分,更在于它为我们指明了前路的障碍。

1. “引擎类比”:系统受限于最弱组件报告将AI智能比作一个高性能引擎。一个引擎的整体“马力”,最终受限于其最薄弱的那个组件。当前AI引擎中的几个关键部件(如MS)是“高度缺陷”的,这严重限制了系统的整体能力。

2. 警惕“总分陷阱”:认知画像至关重要报告特别强调,那个引人注目的AGI总分(如58%)本身可能具有“误导性” 。

一个极端的例子是:一个AI的总分达到了90%,但其“长期记忆存储(MS)”得分依旧是0%。这样的系统虽然看似强大,但本质上仍是一个被“失忆症”所困扰的“功能性障碍”系统。

因此,报告强烈建议,未来在评估AI时,必须报告其完整的“认知画像”(cognitive profile),而不仅仅是单一的总分

3. AGI的“宏大挑战”报告总结,要实现100%的AGI,必须攻克一系列“宏大挑战”,包括但不限于:抽象推理 (R)、空间导航 (WM) ,以及最关键的——解决幻觉 (MR) 和实现真正的持续学习 (MS)。

在这些根本性的障碍被克服之前,我们距离真正的AGI,仍有很长的路要走。


【声明】内容源于网络
0
0
脑洞科技社
1234
内容 119
粉丝 0
脑洞科技社 1234
总阅读639
粉丝0
内容119