顶级模型得分低于1%：ARC-AGI-3全新人机较量，揭开智能体真实水平- 大数跨境

AIGC开放社区

2026-04-01

导读：ARC-AGI-3。

专注AIGC领域的专业社区，聚焦大语言模型发展与应用落地。

人工智能能编写复杂代码并通过高难度考试，却在ARC-AGI-3测试中暴露根本局限：最先进系统在无说明书的简单像素游戏环境中得分不足1%。

该测试剥离语言和外部记忆，以行动效率为唯一标尺，清晰揭示了当前AI与人类适应力间的巨大鸿沟。

ARC-AGI-3测试基准：衡量人工智能通用智能的新标准

2019年，人工智能专家François Chollet提出抽象与推理语料库（ARC-AGI），主张通过获取新技能的效率衡量通用智能，而非特定任务准确率。

早期测试采用静态网格任务，解题者需基于少量输入输出示例推导新规则，完全依赖客体性或基础几何等核心知识先验，杜绝记忆检索捷径。

2020年Kaggle挑战赛913支队伍中，冠军方案在私有测试集仅得20%；2024年百万美元赛事中，深度学习方案突破至53.5%准确率；2025年第二代测试虽引入多步推理，24%的胜率仍远低于85%门槛。

尽管Transformer架构推动大语言模型能力提升，思维链技术改善推理表现，但AI仍受领域知识束缚，缺乏人类不受约束的泛化能力。过拟合问题显著——前沿模型在验证中直接输出训练数据结构的隐含特征，暴露记忆依赖。

未来评测基准必须脱离公开数据分布，采用分布外测试方能检验真实泛化能力。

ARC-AGI-3聚焦代理智能测试，采用交互式回合制环境考察四项核心能力：探索环境获取情报、构建预测世界模型、自主设定目标、规划并执行动态行动路线。

智能体全程无说明书，每个环境分多关卡。操作空间仅含5方向键、撤销键及坐标点击，严格限定64×64网格视野，将挑战集中于环境逻辑理解。

研发团队通过定制引擎高效构建环境，遵循核心知识先验原则：禁用文化符号，仅基于客体性、几何形态、重力等先天逻辑设计规则。每个环境经5万至百万步随机验证，确保非教程关卡通关概率低于0.01%。

完整数据集划分为三个功能子集，以私有集为核心评估标准，大幅降低针对性优化风险。

测试以行动效率量化智能水平：计算初次通关所需回合数，盲目试错将被扣分。计分采用相对人类基准的幂律法则——人类基准取第二快参与者的行动步数，AI效率得分=（人类基准/AI步数）²。

例如，人类基准10步对应AI 100步，则关卡得分为1%。单关得分上限为人类基准，后期高难度关卡权重更高，最终汇总生成0%-100%总分。

排行榜严格限制通用API接入，设定人类平均步数5倍的运行上限。最新测试中，最先进模型在半私有榜表现仍不足1%。

人类基准基于486名背景多元参与者完成的2893次挑战确立。成功通关中位耗时8.1分钟，每环境奖励5美元。真实测试反馈帮助剔除机制模糊的设计。

预览赛中，Tufa实验室方案以12.58%位居榜首，盲松鼠方案获6.71%；学术团队聚焦上下文优化，如杜克大学提取关键状态数据、Symbolica AI采用协调器架构，均显著提升效率。

2026年Kaggle百万美元赛事将延续测试，但在假设修正、不确定性规划方面，AI仍与人类直觉和适应力存在本质差距。作为未被攻克的关键智能体测试基准，人机较量方兴未艾。

【声明】内容源于网络

AIGC开放社区

1234

内容 1675

粉丝 0

AIGC开放社区 1234

总阅读16.7k

粉丝0

内容1.7k