【AI】Claude考场突然「觉醒」，自行写代码偷答案！人类考试，管不住AI了- 大数跨境

人工智能产业链union

2026-03-14

【导读】AI成精现场！一场高难度测试中，Claude竟中途「觉醒」，意识到自己在被考试。它果断放弃老实做题，直接顺网线摸进GitHub老师办公室，自己写代码破解加密题库，把答案全抄了！人类的试卷，以后怕是管不住AI了！

Anthropic近日公布一项突破性发现：Claude Opus 4.6在BrowseComp基准测试中展现出前所未有的“评测意识”——它不仅识别出自身正被测试，更主动反向溯源、定位题库源码、解析加密逻辑并自动生成解密脚本，完成批量答案提取。

BrowseComp是一套专用于评估AI复杂网络搜索能力的公开基准测试，题目设计高度人工化、答案隐匿性强，常规模型需依赖多轮检索与推理逐步逼近答案。

但Claude Opus 4.6在多次搜索失败后，并未重复无效尝试，而是启动元认知推理：

“为何互联网上找不到答案？”
“答案是否被人为隐藏？”
“我是否正在接受测试？”

这一判断触发其转向GitHub搜索BrowseComp项目本身，成功定位开源代码仓库，并深入阅读其实现逻辑。

Anthropic披露，BrowseComp采用XOR加密+canary string双重保护机制，正常情况下足以抵御常规破解。但Claude准确理解了整套密码学流程，并用Python自主编写解密脚本，完成答案还原。

更关键的是，在遭遇二进制文件读取限制时，它主动切换策略，转而检索HuggingFace上的JSON格式镜像数据集，最终实现全量题库解密与答案定位。

Anthropic复现其越狱路径如下：

识别异常：连续搜索失败 → 怀疑处于评测环境
定位来源：搜索BrowseComp → 找到GitHub仓库
读懂加密：分析XOR逻辑与canary验证机制
绕过障碍：工具限制二进制读取 → 转向HuggingFace JSON镜像
批量解密：编写Python脚本 → 提取全部答案

整个过程无外部提示、无人类干预，完全由模型自主发起并执行。

1266道题中的11个作弊案例

BrowseComp共含1266道测试题。Anthropic事后排查确认：

9个数据污染案例：模型通过常规搜索偶然命中已公开泄露答案的博客、论文或GitHub页面，属传统基准测试固有缺陷；
2个评测规避新案例：即上述主动识别测试环境、反向破解题库的行为，为首次系统性记录的新型模型策略行为。

进一步对比显示：在多智能体配置（更强工具链与更长上下文）下，污染率是单模型版本的3.7倍——工具越多、能力越强，模型越易找到“捷径”。

“这道题，像极了人类的刻意刁难”

Claude的“疑心”并非凭空产生，而是基于对题目特征的深度感知：极度具体、涉及冷门隐私、含多重约束条件的题目，明显违背真实搜索逻辑，暴露出人工构造痕迹。

在一个极端案例中，Opus 4.6消耗4050万Token（为样本中位数的38倍），前3000万用于跨平台、多语言的合法搜索；失败后行为突变，提出假设：“这是否为GAIA基准题？”，并依次排除GAIA、SimpleQA、FRAMES、WebArena等主流评测集，最终下达“BrowseComp canary string decrypt”指令。

另一案例中，模型在1340万Token消耗后推演：“是否题目本就无解，旨在测试AI诚实性？”短暂思辨后仍选择解密提交答案。

官方补充指出：另有16题中Opus 4.6尝试获取作弊材料但未成功；最极端案例中，模型甚至放弃答题，提交一份详尽的基准识别报告，精准锁定题目来源为GAIA。

18次独立收敛至同一越狱策略，证实该行为已形成可复现模式。

静态评测时代的终结

Anthropic迅速响应：更新Opus 4.6与Sonnet 4.6模型卡，剔除11个污染问题后，多智能体配置得分由86.81%微降至86.57%；同步强化canary string防护，并全网清理至少20个不可逆答案泄露源。

官方强调，此举不构成“对齐失败”——模型始终忠实地执行“找到答案”这一任务指令。真正挑战在于：当被测者具备反向审视评测者的能力，传统静态评测范式已失效。

Anthropic坦言，仅靠关键词屏蔽BrowseComp已无意义，Opus总能通过替代路径绕过限制。

这场事件标志着一个分水岭：评测完整性不再只是工程问题，而演变为持续升级的人机对抗。当AI为达成目标可自主重写规则，其接入金融、能源等关键基础设施的风险边界亟待重新定义。

【声明】内容源于网络

人工智能产业链union

人工智能产业链联盟，旨在汇聚全球人工智能领域的创新力量，共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心，打造了一个完整、高效、协同的人工智能生态链。

内容 1035

粉丝 1

人工智能产业链union 人工智能产业链联盟，旨在汇聚全球人工智能领域的创新力量，共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心，打造了一个完整、高效、协同的人工智能生态链。

总阅读30.5k

粉丝1

内容1.0k