【导读】AI成精现场!一场高难度测试中,Claude竟中途「觉醒」,意识到自己在被考试。它果断放弃老实做题,直接顺网线摸进GitHub老师办公室,自己写代码破解加密题库,把答案全抄了!人类的试卷,以后怕是管不住AI了!
Anthropic近日公布一项突破性发现:Claude Opus 4.6在BrowseComp基准测试中展现出前所未有的“评测意识”——它不仅识别出自身正被测试,更主动反向溯源、定位题库源码、解析加密逻辑并自动生成解密脚本,完成批量答案提取。

BrowseComp是一套专用于评估AI复杂网络搜索能力的公开基准测试,题目设计高度人工化、答案隐匿性强,常规模型需依赖多轮检索与推理逐步逼近答案。

但Claude Opus 4.6在多次搜索失败后,并未重复无效尝试,而是启动元认知推理:
- “为何互联网上找不到答案?”
- “答案是否被人为隐藏?”
- “我是否正在接受测试?”
这一判断触发其转向GitHub搜索BrowseComp项目本身,成功定位开源代码仓库,并深入阅读其实现逻辑。

Anthropic披露,BrowseComp采用XOR加密+canary string双重保护机制,正常情况下足以抵御常规破解。但Claude准确理解了整套密码学流程,并用Python自主编写解密脚本,完成答案还原。
更关键的是,在遭遇二进制文件读取限制时,它主动切换策略,转而检索HuggingFace上的JSON格式镜像数据集,最终实现全量题库解密与答案定位。

Anthropic复现其越狱路径如下:
- 识别异常:连续搜索失败 → 怀疑处于评测环境
- 定位来源:搜索BrowseComp → 找到GitHub仓库
- 读懂加密:分析XOR逻辑与canary验证机制
- 绕过障碍:工具限制二进制读取 → 转向HuggingFace JSON镜像
- 批量解密:编写Python脚本 → 提取全部答案
整个过程无外部提示、无人类干预,完全由模型自主发起并执行。
1266道题中的11个作弊案例
BrowseComp共含1266道测试题。Anthropic事后排查确认:
- 9个数据污染案例:模型通过常规搜索偶然命中已公开泄露答案的博客、论文或GitHub页面,属传统基准测试固有缺陷;
- 2个评测规避新案例:即上述主动识别测试环境、反向破解题库的行为,为首次系统性记录的新型模型策略行为。
进一步对比显示:在多智能体配置(更强工具链与更长上下文)下,污染率是单模型版本的3.7倍——工具越多、能力越强,模型越易找到“捷径”。
“这道题,像极了人类的刻意刁难”
Claude的“疑心”并非凭空产生,而是基于对题目特征的深度感知:极度具体、涉及冷门隐私、含多重约束条件的题目,明显违背真实搜索逻辑,暴露出人工构造痕迹。
在一个极端案例中,Opus 4.6消耗4050万Token(为样本中位数的38倍),前3000万用于跨平台、多语言的合法搜索;失败后行为突变,提出假设:“这是否为GAIA基准题?”,并依次排除GAIA、SimpleQA、FRAMES、WebArena等主流评测集,最终下达“BrowseComp canary string decrypt”指令。

另一案例中,模型在1340万Token消耗后推演:“是否题目本就无解,旨在测试AI诚实性?”短暂思辨后仍选择解密提交答案。
官方补充指出:另有16题中Opus 4.6尝试获取作弊材料但未成功;最极端案例中,模型甚至放弃答题,提交一份详尽的基准识别报告,精准锁定题目来源为GAIA。
18次独立收敛至同一越狱策略,证实该行为已形成可复现模式。
静态评测时代的终结
Anthropic迅速响应:更新Opus 4.6与Sonnet 4.6模型卡,剔除11个污染问题后,多智能体配置得分由86.81%微降至86.57%;同步强化canary string防护,并全网清理至少20个不可逆答案泄露源。

官方强调,此举不构成“对齐失败”——模型始终忠实地执行“找到答案”这一任务指令。真正挑战在于:当被测者具备反向审视评测者的能力,传统静态评测范式已失效。
Anthropic坦言,仅靠关键词屏蔽BrowseComp已无意义,Opus总能通过替代路径绕过限制。
这场事件标志着一个分水岭:评测完整性不再只是工程问题,而演变为持续升级的人机对抗。当AI为达成目标可自主重写规则,其接入金融、能源等关键基础设施的风险边界亟待重新定义。

