人工智能能编写复杂代码并通过高难度考试,却在ARC-AGI-3测试中暴露根本局限:最先进系统在无说明书的简单像素游戏环境中得分不足1%。
该测试剥离语言和外部记忆,以行动效率为唯一标尺,清晰揭示了当前AI与人类适应力间的巨大鸿沟。
ARC-AGI-3测试基准:衡量人工智能通用智能的新标准
揭开智能的底色
2019年,人工智能专家François Chollet提出抽象与推理语料库(ARC-AGI),主张通过获取新技能的效率衡量通用智能,而非特定任务准确率。
早期测试采用静态网格任务,解题者需基于少量输入输出示例推导新规则,完全依赖客体性或基础几何等核心知识先验,杜绝记忆检索捷径。
2020年Kaggle挑战赛913支队伍中,冠军方案在私有测试集仅得20%;2024年百万美元赛事中,深度学习方案突破至53.5%准确率;2025年第二代测试虽引入多步推理,24%的胜率仍远低于85%门槛。
尽管Transformer架构推动大语言模型能力提升,思维链技术改善推理表现,但AI仍受领域知识束缚,缺乏人类不受约束的泛化能力。过拟合问题显著——前沿模型在验证中直接输出训练数据结构的隐含特征,暴露记忆依赖。
未来评测基准必须脱离公开数据分布,采用分布外测试方能检验真实泛化能力。
打造纯粹的试炼场
ARC-AGI-3聚焦代理智能测试,采用交互式回合制环境考察四项核心能力:探索环境获取情报、构建预测世界模型、自主设定目标、规划并执行动态行动路线。
智能体全程无说明书,每个环境分多关卡。操作空间仅含5方向键、撤销键及坐标点击,严格限定64×64网格视野,将挑战集中于环境逻辑理解。
研发团队通过定制引擎高效构建环境,遵循核心知识先验原则:禁用文化符号,仅基于客体性、几何形态、重力等先天逻辑设计规则。每个环境经5万至百万步随机验证,确保非教程关卡通关概率低于0.01%。
完整数据集划分为三个功能子集,以私有集为核心评估标准,大幅降低针对性优化风险。
效率是真正的标尺
测试以行动效率量化智能水平:计算初次通关所需回合数,盲目试错将被扣分。计分采用相对人类基准的幂律法则——人类基准取第二快参与者的行动步数,AI效率得分=(人类基准/AI步数)²。
例如,人类基准10步对应AI 100步,则关卡得分为1%。单关得分上限为人类基准,后期高难度关卡权重更高,最终汇总生成0%-100%总分。
排行榜严格限制通用API接入,设定人类平均步数5倍的运行上限。最新测试中,最先进模型在半私有榜表现仍不足1%。
真实的较量
人类基准基于486名背景多元参与者完成的2893次挑战确立。成功通关中位耗时8.1分钟,每环境奖励5美元。真实测试反馈帮助剔除机制模糊的设计。
预览赛中,Tufa实验室方案以12.58%位居榜首,盲松鼠方案获6.71%;学术团队聚焦上下文优化,如杜克大学提取关键状态数据、Symbolica AI采用协调器架构,均显著提升效率。
2026年Kaggle百万美元赛事将延续测试,但在假设修正、不确定性规划方面,AI仍与人类直觉和适应力存在本质差距。作为未被攻克的关键智能体测试基准,人机较量方兴未艾。

