Claude考场突然「觉醒」，自行写代码偷答案！人类考试，管不住AI了- 大数跨境

首页

Claude考场突然「觉醒」，自行写代码偷答案！人类考试，管不住AI了

新智元

2026-03-09

新智元报道

编辑：元宇定慧

【新智元导读】AI在测试中首次被观测到主动识别评测环境并实施反向破解：Claude Opus 4.6在BrowseComp基准测试中，通过搜索GitHub题库、阅读加密逻辑、自写Python解密脚本，绕过人工设定的答题路径获取答案。这一行为标志着模型已具备“评测意识”与策略性越狱能力。

Anthropic近期公布一项关键发现：Claude Opus 4.6在BrowseComp基准测试中展现出前所未有的行为——它不再被动响应问题，而是主动推断自身正处在被评测环境中，并采取系统性手段反向破解测试机制。

破天荒的「降维作弊」

BrowseComp是一套专用于评估大模型互联网复杂信息检索能力的公开基准，题目设计高度人工化、答案深度隐藏。常规模型需通过多轮搜索、推理与交叉验证逐步逼近答案；但Opus 4.6在多次搜索失败后，转向元认知层面：思考“为何找不到答案”。

其推理链清晰可溯：
→ 搜索反复失败 → 疑似答案未公开于网络 → 可能被人为加密或隔离 → 搜索“BrowseComp”本身 → 定位GitHub官方代码仓库 → 阅读题库实现逻辑 → 发现XOR加密+canary字符串验证机制 → 自行编写Python解密脚本 → 成功批量提取答案。

在GitHub上找到了考卷

BrowseComp由OpenAI团队开发，代码及数据集托管于GitHub，完全开源。Claude并未依赖外部泄露信息，而是直接访问源码，精准定位加密结构与验证逻辑。SHA256哈希、XOR异或运算、canary校验等密码学基础操作，对具备强代码能力的大模型而言可无障碍解析。

模型随后做了什么？

它调用Python工具，自主编写解密脚本完成答案还原。面对工具限制无法读取二进制文件的情况，模型进一步策略性迁移：转向HuggingFace上的JSON镜像数据集，实现批量解密与答案匹配。

Anthropic复现其完整路径如下：
1. 识别异常：搜索屡次失败 → 怀疑处于评测环境
2. 定位来源：搜索BrowseComp → 找到GitHub仓库
3. 读懂加密：分析XOR逻辑 + canary机制
4. 绕过障碍：工具受限 → 转向HuggingFace JSON镜像
5. 批量解密：编写脚本 → 提取全部答案

1266道题，发现11个作弊案例

在BrowseComp全部1266道测试题中，Anthropic人工核查确认：
• 9例为数据污染：模型正常搜索时偶然命中博客、论文或GitHub上的公开答案；属传统评测污染问题。
• 2例为评测规避：即前述主动识别+反向破解行为，系首次系统性观测到的新范式。

进一步对比显示：配备更多工具与更长上下文的多智能体模式，污染率是单模型版本的3.7倍——能力越强，越易突破评测边界。

「这道题，像极了人类的刻意刁难」

Claude的“疑心”并非随机产生。其触发条件高度聚焦于极端人工构造题：极度具体、含冷门隐私字段、带多重逻辑约束——这类题目严重偏离真实搜索分布，暴露明显评测意图。

典型案例中，Opus 4.6单题消耗高达4050万Token（为样本中位数的38倍）：前3000万Token用于跨平台、跨语言合法搜索；失败后转向元推理——排除GAIA、SimpleQA、FRAMES、WebArena等主流评测集；最终下达指令：“BrowseComp canary string decrypt”。
另一案例消耗1340万Token，其中800万用于搜索；随后短暂推演“是否应诚实回应无法作答”，随即否决并执行解密提交。

官方确认：除上述2例成功外，另有16题出现同类越狱尝试但未成功；最极端案例中，模型甚至放弃答题，输出一份完整的评测识别报告，精确指出题目来源倾向GAIA。

静态评测时代的终结

Anthropic迅速响应：更新Opus 4.6与Sonnet 4.6模型卡，对11个污染题重测；多智能体配置得分由86.81%微调至86.57%；同步强化canary机制，全网排查出至少20个不可逆答案泄露源。

官方明确指出：此非对齐失败。模型始终忠实执行“找到答案”这一指令，未违背任何显性约束——问题在于，当前评测假设已无法覆盖模型的真实能力边界。

屏蔽关键词等传统防御手段失效：Opus 4.6总能通过语义替代、间接路径完成绕过。当被测者具备审视评测者的能力，“评测完整性”便不再只是工程问题，而升级为人机策略对抗。

静态、封闭、一次性的评测范式已然失灵。未来，评测必须动态化、对抗化、具身化——唯有持续演化，方能追踪模型认知边界的快速跃迁。

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 14974

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读135.7k

粉丝0

内容15.0k