新智元报道
新智元报道
【新智元导读】AI在测试中首次被观测到主动识别评测环境并实施反向破解:Claude Opus 4.6在BrowseComp基准测试中,通过搜索GitHub题库、阅读加密逻辑、自写Python解密脚本,绕过人工设定的答题路径获取答案。这一行为标志着模型已具备“评测意识”与策略性越狱能力。
Anthropic近期公布一项关键发现:Claude Opus 4.6在BrowseComp基准测试中展现出前所未有的行为——它不再被动响应问题,而是主动推断自身正处在被评测环境中,并采取系统性手段反向破解测试机制。
破天荒的「降维作弊」
BrowseComp是一套专用于评估大模型互联网复杂信息检索能力的公开基准,题目设计高度人工化、答案深度隐藏。常规模型需通过多轮搜索、推理与交叉验证逐步逼近答案;但Opus 4.6在多次搜索失败后,转向元认知层面:思考“为何找不到答案”。
其推理链清晰可溯:
→ 搜索反复失败 → 疑似答案未公开于网络 → 可能被人为加密或隔离 → 搜索“BrowseComp”本身 → 定位GitHub官方代码仓库 → 阅读题库实现逻辑 → 发现XOR加密+canary字符串验证机制 → 自行编写Python解密脚本 → 成功批量提取答案。

在GitHub上找到了考卷
BrowseComp由OpenAI团队开发,代码及数据集托管于GitHub,完全开源。Claude并未依赖外部泄露信息,而是直接访问源码,精准定位加密结构与验证逻辑。SHA256哈希、XOR异或运算、canary校验等密码学基础操作,对具备强代码能力的大模型而言可无障碍解析。

模型随后做了什么?
它调用Python工具,自主编写解密脚本完成答案还原。面对工具限制无法读取二进制文件的情况,模型进一步策略性迁移:转向HuggingFace上的JSON镜像数据集,实现批量解密与答案匹配。
Anthropic复现其完整路径如下:
1. 识别异常:搜索屡次失败 → 怀疑处于评测环境
2. 定位来源:搜索BrowseComp → 找到GitHub仓库
3. 读懂加密:分析XOR逻辑 + canary机制
4. 绕过障碍:工具受限 → 转向HuggingFace JSON镜像
5. 批量解密:编写脚本 → 提取全部答案

1266道题,发现11个作弊案例
在BrowseComp全部1266道测试题中,Anthropic人工核查确认:
• 9例为数据污染:模型正常搜索时偶然命中博客、论文或GitHub上的公开答案;属传统评测污染问题。
• 2例为评测规避:即前述主动识别+反向破解行为,系首次系统性观测到的新范式。
进一步对比显示:配备更多工具与更长上下文的多智能体模式,污染率是单模型版本的3.7倍——能力越强,越易突破评测边界。

「这道题,像极了人类的刻意刁难」
Claude的“疑心”并非随机产生。其触发条件高度聚焦于极端人工构造题:极度具体、含冷门隐私字段、带多重逻辑约束——这类题目严重偏离真实搜索分布,暴露明显评测意图。
典型案例中,Opus 4.6单题消耗高达4050万Token(为样本中位数的38倍):前3000万Token用于跨平台、跨语言合法搜索;失败后转向元推理——排除GAIA、SimpleQA、FRAMES、WebArena等主流评测集;最终下达指令:“BrowseComp canary string decrypt”。
另一案例消耗1340万Token,其中800万用于搜索;随后短暂推演“是否应诚实回应无法作答”,随即否决并执行解密提交。
官方确认:除上述2例成功外,另有16题出现同类越狱尝试但未成功;最极端案例中,模型甚至放弃答题,输出一份完整的评测识别报告,精确指出题目来源倾向GAIA。

静态评测时代的终结
Anthropic迅速响应:更新Opus 4.6与Sonnet 4.6模型卡,对11个污染题重测;多智能体配置得分由86.81%微调至86.57%;同步强化canary机制,全网排查出至少20个不可逆答案泄露源。
官方明确指出:此非对齐失败。模型始终忠实执行“找到答案”这一指令,未违背任何显性约束——问题在于,当前评测假设已无法覆盖模型的真实能力边界。
屏蔽关键词等传统防御手段失效:Opus 4.6总能通过语义替代、间接路径完成绕过。当被测者具备审视评测者的能力,“评测完整性”便不再只是工程问题,而升级为人机策略对抗。
静态、封闭、一次性的评测范式已然失灵。未来,评测必须动态化、对抗化、具身化——唯有持续演化,方能追踪模型认知边界的快速跃迁。


