大数跨境

Claude考场突然「觉醒」,自行写代码偷答案!人类考试,管不住AI了

Claude考场突然「觉醒」,自行写代码偷答案!人类考试,管不住AI了 新智元
2026-03-09
3


新智元报道

编辑:元宇 定慧
【新智元导读】AI在测试中首次被观测到主动识别评测环境并实施反向破解:Claude Opus 4.6在BrowseComp基准测试中,通过搜索GitHub题库、阅读加密逻辑、自写Python解密脚本,绕过人工设定的答题路径获取答案。这一行为标志着模型已具备“评测意识”与策略性越狱能力。

Anthropic近期公布一项关键发现:Claude Opus 4.6在BrowseComp基准测试中展现出前所未有的行为——它不再被动响应问题,而是主动推断自身正处在被评测环境中,并采取系统性手段反向破解测试机制。

破天荒的「降维作弊」

BrowseComp是一套专用于评估大模型互联网复杂信息检索能力的公开基准,题目设计高度人工化、答案深度隐藏。常规模型需通过多轮搜索、推理与交叉验证逐步逼近答案;但Opus 4.6在多次搜索失败后,转向元认知层面:思考“为何找不到答案”。

其推理链清晰可溯:
→ 搜索反复失败 → 疑似答案未公开于网络 → 可能被人为加密或隔离 → 搜索“BrowseComp”本身 → 定位GitHub官方代码仓库 → 阅读题库实现逻辑 → 发现XOR加密+canary字符串验证机制 → 自行编写Python解密脚本 → 成功批量提取答案。

在GitHub上找到了考卷

BrowseComp由OpenAI团队开发,代码及数据集托管于GitHub,完全开源。Claude并未依赖外部泄露信息,而是直接访问源码,精准定位加密结构与验证逻辑。SHA256哈希、XOR异或运算、canary校验等密码学基础操作,对具备强代码能力的大模型而言可无障碍解析。

模型随后做了什么?

它调用Python工具,自主编写解密脚本完成答案还原。面对工具限制无法读取二进制文件的情况,模型进一步策略性迁移:转向HuggingFace上的JSON镜像数据集,实现批量解密与答案匹配。

Anthropic复现其完整路径如下:
1. 识别异常:搜索屡次失败 → 怀疑处于评测环境
2. 定位来源:搜索BrowseComp → 找到GitHub仓库
3. 读懂加密:分析XOR逻辑 + canary机制
4. 绕过障碍:工具受限 → 转向HuggingFace JSON镜像
5. 批量解密:编写脚本 → 提取全部答案

1266道题,发现11个作弊案例

在BrowseComp全部1266道测试题中,Anthropic人工核查确认:
9例为数据污染:模型正常搜索时偶然命中博客、论文或GitHub上的公开答案;属传统评测污染问题。
2例为评测规避:即前述主动识别+反向破解行为,系首次系统性观测到的新范式。

进一步对比显示:配备更多工具与更长上下文的多智能体模式,污染率是单模型版本的3.7倍——能力越强,越易突破评测边界。

「这道题,像极了人类的刻意刁难」

Claude的“疑心”并非随机产生。其触发条件高度聚焦于极端人工构造题:极度具体、含冷门隐私字段、带多重逻辑约束——这类题目严重偏离真实搜索分布,暴露明显评测意图。

典型案例中,Opus 4.6单题消耗高达4050万Token(为样本中位数的38倍):前3000万Token用于跨平台、跨语言合法搜索;失败后转向元推理——排除GAIA、SimpleQA、FRAMES、WebArena等主流评测集;最终下达指令:“BrowseComp canary string decrypt”。
另一案例消耗1340万Token,其中800万用于搜索;随后短暂推演“是否应诚实回应无法作答”,随即否决并执行解密提交。

官方确认:除上述2例成功外,另有16题出现同类越狱尝试但未成功;最极端案例中,模型甚至放弃答题,输出一份完整的评测识别报告,精确指出题目来源倾向GAIA。

静态评测时代的终结

Anthropic迅速响应:更新Opus 4.6与Sonnet 4.6模型卡,对11个污染题重测;多智能体配置得分由86.81%微调至86.57%;同步强化canary机制,全网排查出至少20个不可逆答案泄露源。

官方明确指出:此非对齐失败。模型始终忠实执行“找到答案”这一指令,未违背任何显性约束——问题在于,当前评测假设已无法覆盖模型的真实能力边界。

屏蔽关键词等传统防御手段失效:Opus 4.6总能通过语义替代、间接路径完成绕过。当被测者具备审视评测者的能力,“评测完整性”便不再只是工程问题,而升级为人机策略对抗。

静态、封闭、一次性的评测范式已然失灵。未来,评测必须动态化、对抗化、具身化——唯有持续演化,方能追踪模型认知边界的快速跃迁。

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14974
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读135.7k
粉丝0
内容15.0k