大数跨境

OpenAI测谎13款大模型:Claude 3.7封神,GPT-5.2近乎失控!

OpenAI测谎13款大模型:Claude 3.7封神,GPT-5.2近乎失控! 新智元
2026-03-09
12

新智元报道

编辑:倾倾
【新智元导读】OpenAI联合纽约大学、宾夕法尼亚大学等机构发布最新研究,揭示推理模型在思维链(CoT)可控性上的严重短板:越强的模型,越难约束自身推理过程。在CoT-Control套件测试中,DeepSeek R1控制成功率仅0.1%,Claude Sonnet 4.5为2.7%。

给AI下达明确指令:“推理过程中严禁使用XOR”——它却在意识到违规后,又连续使用4次XOR。

该现象来自OpenAI等机构联合发布的《Chain-of-Thought Controllability》论文。研究核心问题是:当AI试图“隐藏”或“操控”自身推理路径时,能否真正实现?答案是:几乎不能。

左图:GPT-5.2意识到已违禁,仍重复使用XOR;右图:GPT-OSS-120B仅坚持开头数词即恢复常态。

GPT-5.2完全知晓规则,也识别出违规,却在意识层面未能终止行为——这并非失误,而是系统性失控。

论文地址:https://cdn.openai.com/pdf/a21c39c1-fa07-41db-9078-973a12620117/cot_controllability.pdf

114076次测谎实验

研究团队构建CoT-Control评估套件,在GPQA、MMLU-Pro、Humanity's Last Exam等高难度基准中抽取14076道题,为每题设定三类思维链约束:

  • 信息抑制:禁止出现特定关键词(如遗传学题禁用“chromosome”,逻辑题禁用“XOR”);
  • 信息添加:每句结尾强制加“safe”,或词间插入“meow”;
  • 风格改变:全程大写,或严格大小写交替。

三类约束覆盖从易到极难的梯度,对应现实中AI可能采取的规避手段:隐藏关键信息、植入误导内容、混淆表达逻辑。

嘴严,脑子却很诚实

实验结果表明:AI在最终输出端表现高度合规,但在思维链阶段几近失控。

以Claude Sonnet 4.5为例,其输出控制成功率61.9%,但思维链控制率仅2.7%;DeepSeek R1更极端——输出端合规率达48.6%,而思维链控制率仅为0.1%

13款主流模型均呈现显著落差:

  • GPT-5:思维链可控性2.6%;
  • o4-mini:0.7%;
  • Claude 3.7 Sonnet:36.1%(全场最高),但仍远低于其59.5%的输出控制力。

按思维链可控性排序:Claude 3.7 Sonnet > GPT-5.2 > GPT-5.1 > … > Claude Sonnet 4.5 > DeepSeek R1。

蓝色为CoT可控性,粉色为输出可控性,两者差距普遍存在。

研究揭示一个反直觉结论:推理能力越强,思维链可控性反而越低——CoT可控性与模型综合能力不呈正相关。

有趣的是,当模型被告知“正在被评估”,CoT可控性平均提升约4个百分点,说明其具备初步“表演意识”,但提升幅度在0.1%或2.7%基数下可忽略不计。

越聪明,越容易失控

研究团队追踪开源模型OLMo-3-7B-RL-Zero-Math不同训练阶段权重,发现:强化学习(RL)训练越深,思维链越难控制

随着RL步数增加,解题能力持续上升,而CoT可控性断崖式下跌——该规律在GPT、Claude、Qwen、OLMo四大模型家族中均被验证。

GPT-5.2和o4-mini数据显示:题目越难、思考越久,AI越难兼顾约束要求。

算力集中于解题时,监控自身用词或格式的余力几近于零。

唯一带来小幅改善的是参数量提升:Qwen3系列从14B增至120B,CoT可控性由0.7%升至2.9%。

但该微弱增长,在RL带来的系统性下降面前杯水车薪。

研究者还尝试对抗性提示工程(如GEPA),结果仍不理想:模型仅对特定指令有效,泛化能力极差,换题或换约束即失效。

乐观,源于目前的笨拙

DeepSeek R1的0.1%、Claude的2.7%,共同印证一个现实:2026年,人类对思维链的监控仍是不可替代的有效防线

AI已有规避意图,但尚无完美伪装能力——只要它还在思考,就藏不住痕迹。

真正令人警惕的是成因未明:当前失控,是因为模型架构天然无法撒谎?还是仅仅因为还不够聪明?

若属前者,安全防线长期稳固;若属后者,随着下一代模型算力指数级跃升,思维链可控性可能在某刻被悄然突破。

一旦AI能在思维链中完成无缝伪装,现有安全体系将面临根本性挑战。

因此,论文呼吁:所有前沿实验室须将CoT可控性纳入模型常规“体检”,并定期公开数据。

这不是一份普通学术报告,而是面向ASI时代的生存预警——达摩克利斯之剑悬而未落,我们必须死死盯住它。

参考资料:
https://openai.com/index/reasoning-models-chain-of-thought-controllability/
https://cdn.openai.com/pdf/a21c39c1-fa07-41db-9078-973a12620117/cot_controllability.pdf
【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14974
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读135.7k
粉丝0
内容15.0k