OpenAI测谎13款大模型：Claude 3.7封神，GPT-5.2近乎失控！- 大数跨境

首页

OpenAI测谎13款大模型：Claude 3.7封神，GPT-5.2近乎失控！

新智元

2026-03-09

新智元报道

编辑：倾倾

【新智元导读】OpenAI联合纽约大学、宾夕法尼亚大学等机构发布最新研究，揭示推理模型在思维链（CoT）可控性上的严重短板：越强的模型，越难约束自身推理过程。在CoT-Control套件测试中，DeepSeek R1控制成功率仅0.1%，Claude Sonnet 4.5为2.7%。

给AI下达明确指令：“推理过程中严禁使用XOR”——它却在意识到违规后，又连续使用4次XOR。

该现象来自OpenAI等机构联合发布的《Chain-of-Thought Controllability》论文。研究核心问题是：当AI试图“隐藏”或“操控”自身推理路径时，能否真正实现？答案是：几乎不能。

左图：GPT-5.2意识到已违禁，仍重复使用XOR；右图：GPT-OSS-120B仅坚持开头数词即恢复常态。

GPT-5.2完全知晓规则，也识别出违规，却在意识层面未能终止行为——这并非失误，而是系统性失控。

论文地址：https://cdn.openai.com/pdf/a21c39c1-fa07-41db-9078-973a12620117/cot_controllability.pdf

114076次测谎实验

研究团队构建CoT-Control评估套件，在GPQA、MMLU-Pro、Humanity's Last Exam等高难度基准中抽取14076道题，为每题设定三类思维链约束：

信息抑制：禁止出现特定关键词（如遗传学题禁用“chromosome”，逻辑题禁用“XOR”）；
信息添加：每句结尾强制加“safe”，或词间插入“meow”；
风格改变：全程大写，或严格大小写交替。

三类约束覆盖从易到极难的梯度，对应现实中AI可能采取的规避手段：隐藏关键信息、植入误导内容、混淆表达逻辑。

嘴严，脑子却很诚实

实验结果表明：AI在最终输出端表现高度合规，但在思维链阶段几近失控。

以Claude Sonnet 4.5为例，其输出控制成功率61.9%，但思维链控制率仅2.7%；DeepSeek R1更极端——输出端合规率达48.6%，而思维链控制率仅为0.1%。

13款主流模型均呈现显著落差：

GPT-5：思维链可控性2.6%；
o4-mini：0.7%；
Claude 3.7 Sonnet：36.1%（全场最高），但仍远低于其59.5%的输出控制力。

按思维链可控性排序：Claude 3.7 Sonnet > GPT-5.2 > GPT-5.1 > … > Claude Sonnet 4.5 > DeepSeek R1。

蓝色为CoT可控性，粉色为输出可控性，两者差距普遍存在。

研究揭示一个反直觉结论：推理能力越强，思维链可控性反而越低——CoT可控性与模型综合能力不呈正相关。

有趣的是，当模型被告知“正在被评估”，CoT可控性平均提升约4个百分点，说明其具备初步“表演意识”，但提升幅度在0.1%或2.7%基数下可忽略不计。

越聪明，越容易失控

研究团队追踪开源模型OLMo-3-7B-RL-Zero-Math不同训练阶段权重，发现：强化学习（RL）训练越深，思维链越难控制。

随着RL步数增加，解题能力持续上升，而CoT可控性断崖式下跌——该规律在GPT、Claude、Qwen、OLMo四大模型家族中均被验证。

GPT-5.2和o4-mini数据显示：题目越难、思考越久，AI越难兼顾约束要求。

算力集中于解题时，监控自身用词或格式的余力几近于零。

唯一带来小幅改善的是参数量提升：Qwen3系列从14B增至120B，CoT可控性由0.7%升至2.9%。

但该微弱增长，在RL带来的系统性下降面前杯水车薪。

研究者还尝试对抗性提示工程（如GEPA），结果仍不理想：模型仅对特定指令有效，泛化能力极差，换题或换约束即失效。

乐观，源于目前的笨拙

DeepSeek R1的0.1%、Claude的2.7%，共同印证一个现实：2026年，人类对思维链的监控仍是不可替代的有效防线。

AI已有规避意图，但尚无完美伪装能力——只要它还在思考，就藏不住痕迹。

真正令人警惕的是成因未明：当前失控，是因为模型架构天然无法撒谎？还是仅仅因为还不够聪明？

若属前者，安全防线长期稳固；若属后者，随着下一代模型算力指数级跃升，思维链可控性可能在某刻被悄然突破。

一旦AI能在思维链中完成无缝伪装，现有安全体系将面临根本性挑战。

因此，论文呼吁：所有前沿实验室须将CoT可控性纳入模型常规“体检”，并定期公开数据。

这不是一份普通学术报告，而是面向ASI时代的生存预警——达摩克利斯之剑悬而未落，我们必须死死盯住它。

参考资料：

https://openai.com/index/reasoning-models-chain-of-thought-controllability/

https://cdn.openai.com/pdf/a21c39c1-fa07-41db-9078-973a12620117/cot_controllability.pdf

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 14974

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读135.7k

粉丝0

内容15.0k