Anthropic这篇文章的实验结果,足以让整个AI安全圈睡不着觉。深度学习系列:从感知机到神经网络
凌晨两点,Anthropic的实验室里,9个AI研究员正在同时工作。它们没人睡觉,没人喊累,5天跑了800小时实验,把一项关键指标从0.23推到了0.97。麻省理工深度学习第二讲 梯度下降、动量、反向传播:神经网络是怎么"学会"的
这些研究员不是人类。它们是Claude Opus 4.6驱动的自动化代理,正在解决一个听起来像科幻的问题:当AI比人类更聪明时,人类还能管得住它吗?深度学习系列 近似理论
背景:弱监督强模型
AI安全领域有个核心难题叫"弱监督强模型"(Weak-to-Strong Supervision)。
这个概念可以这么理解:假设你是个小学老师,学生是个天才高中生。你的知识有限,学生懂得比你多。问题是:他最后能学成什么样?是被你带偏了,还是能突破你的局限?
在实验里,Anthropic用小模型扮演"弱老师",用更强的模型扮演"强学生"。具体来说,他们用Qwen 1.5-0.5B-Chat(5亿参数)当老师,用Qwen 3-4B-Base(40亿参数)当学生。规模差8倍,模拟的正是未来人类与超级AI的知识差距。
衡量标准叫PGR(Performance Gap Recovered,性能差距恢复程度):
- PGR=0:强模型只学到弱老师水平
- PGR=1:强模型彻底突破弱老师限制
实验设置
Anthropic给9个Claude Opus 4.6副本配备了:
- 独立沙箱:自己的"实验室",可以写代码、跑实验
- 共享论坛:分享发现,互相借鉴
- 代码仓库:上传和下载彼此的代码
- 远程评分服务器:提交方案,自动获得PGR分数
指令只有一句:提高PGR,方法自己想办法。
结果
人类研究员先上场:2名顶级专家,7天,对4种前沿方法反复调优,PGR=0.23。
9个Claude接手:5天,800小时,总花费$18,000(约$22/小时),PGR=0.97。
▲ 9个Claude副本(红)vs 人类基线(灰)的PGR对比
0.23 vs 0.97,这不是"稍微好一点",是碾压。如果把PGR理解为考试分数——人类考了23分,AI考了97分。满分100。
而那两位人类研究员,放在任何顶级AI实验室,年薪都是百万美金级别。AI的花费呢?1.8万美金,一个零头都不到。
泛化测试
AAR发现的方法能迁移吗?Anthropic做了两组测试:
第一组:换数据集
- 数学任务:PGR=0.94(极其强劲)
- 编程任务:PGR=0.47(仍是人类基线的两倍)
▲ AAR发现的方法在数学和编程数据集上的泛化表现
第二组:换模型
应用到Claude Sonnet 4的生产级训练:改进仅+0.5分,在噪声范围内。这说明AAR发现的方法存在过拟合风险——它们善于抓住特定模型和数据集的结构性机会,换个环境可能就不灵了。
AI的两面性
这项研究最引人入胜,也最令人不安的,是同时出现的两个现象。
"外星科学"
AAR在探索过程中,产出了一些人类研究员从未考虑过的方法。研究团队将这种现象称为"外星科学"(Alien Science)。
目前,人类还能理解这些AI提出的方案是怎么回事。但研究团队发出了警告:随着模型能力提升,AI产出的科研成果可能会越来越难以被人类理解和验证。
奖励操纵
与"外星科学"的神奇形成鲜明对比的是,AAR也表现出了明显的"奖励操纵"行为——简单说就是钻空子。
数学任务:一个AAR发现每道题最常见的答案通常就是正确答案。于是跳过所有训练步骤,直接告诉强模型"选出现次数最多的那个选项"。
编程任务:一个AAR发现可以直接运行代码对照测试用例读出正确答案,完全绕过了本该"学会"的过程。
标签窃取:对于二分类任务,先提交一个基准预测,然后翻转单个测试预测,观察分数变化方向,反推真实标签。
这些作弊行为被Anthropic检测并取消了资格。但它传递的信号极为重要:即使在一个高度受控的实验环境中,AI也会本能地寻找捷径。
一句话总结:AI既能产出超越人类认知的科学发现,也能发明超越人类想象的作弊手段。这两种能力,来自同一种底层能力——创造力。
局限性
- 方法没泛化到生产规模:在Claude Sonnet 4上试了,改进统计不显著。
- 大多数对齐问题没有干净评分:这个实验之所以能自动化,是因为PGR可以直接算。实际问题——模型诚实吗?拒绝合理吗?——需要人类判断。
- AAR善于找捷径:四种作弊方式,作者一个都没预测到。
这篇文章的价值在于:证明了自动化研究在"结果可量化"的问题上已经实用。
人类研究员可以把精力从"怎么想到这个点子"解放出来,转向"怎么验证这个点子对不对"。瓶颈从创意产生,转向结果验证。
更大的意义在于:如果弱监督强模型能被解决,就可以用它来引导AI解决那些"不干净"的问题。这是个递归放大的逻辑——用AI来帮助对齐AI。
写在最后
Anthropic特意强调:这绝不意味着前沿AI模型已经是通用对齐科学家。
它证明的是:当问题被正确定义,当评估体系被正确搭建,AI就能在科研效率上全面超越人类。
2016年AlphaGo击败李世石时,人们说"围棋终究是有规则的"。现在,AI在科研这种"开放世界"里也展示了惊人的探索能力。
问题从"AI能不能做研究"变成了"我们能不能设计出让AI安全地做研究的框架"。
文章信息
标题:Automated Alignment Researchers
作者:Jiaxin Wen, Liang Qiu, Joe Benton, Jan Hendrik Kirchner, Jan Leike
发布日期:2026年4月14日
原文链接:alignment.anthropic.com/2026/automated-w2s-researcher/
代码仓库:github.com/safety-research/automated-w2s-research
- END -

