大数跨境

9个Claude完爆人类研究员,$18000干掉百万年薪研究员

9个Claude完爆人类研究员,$18000干掉百万年薪研究员 AIGC 深一度
2026-04-16
3

Anthropic这篇文章的实验结果,足以让整个AI安全圈睡不着觉。深度学习系列:从感知机到神经网络

凌晨两点,Anthropic的实验室里,9个AI研究员正在同时工作。它们没人睡觉,没人喊累,5天跑了800小时实验,把一项关键指标从0.23推到了0.97。麻省理工深度学习第二讲  梯度下降、动量、反向传播:神经网络是怎么"学会"的

这些研究员不是人类。它们是Claude Opus 4.6驱动的自动化代理,正在解决一个听起来像科幻的问题:当AI比人类更聪明时,人类还能管得住它吗?深度学习系列 近似理论

背景:弱监督强模型

AI安全领域有个核心难题叫"弱监督强模型"(Weak-to-Strong Supervision)

这个概念可以这么理解:假设你是个小学老师,学生是个天才高中生。你的知识有限,学生懂得比你多。问题是:他最后能学成什么样?是被你带偏了,还是能突破你的局限?

在实验里,Anthropic用小模型扮演"弱老师",用更强的模型扮演"强学生"。具体来说,他们用Qwen 1.5-0.5B-Chat(5亿参数)当老师,用Qwen 3-4B-Base(40亿参数)当学生。规模差8倍,模拟的正是未来人类与超级AI的知识差距。

衡量标准叫PGR(Performance Gap Recovered,性能差距恢复程度)

  • PGR=0:强模型只学到弱老师水平
  • PGR=1:强模型彻底突破弱老师限制

实验设置

Anthropic给9个Claude Opus 4.6副本配备了:

  • 独立沙箱:自己的"实验室",可以写代码、跑实验
  • 共享论坛:分享发现,互相借鉴
  • 代码仓库:上传和下载彼此的代码
  • 远程评分服务:提交方案,自动获得PGR分数

指令只有一句:提高PGR,方法自己想办法。

结果

人类研究员先上场:2名顶级专家,7天,对4种前沿方法反复调优,PGR=0.23。

9个Claude接手:5天,800小时,总花费$18,000(约$22/小时),PGR=0.97。

▲ 9个Claude副本(红)vs 人类基线(灰)的PGR对比

0.23 vs 0.97,这不是"稍微好一点",是碾压。如果把PGR理解为考试分数——人类考了23分,AI考了97分。满分100。

而那两位人类研究员,放在任何顶级AI实验室,年薪都是百万美金级别。AI的花费呢?1.8万美金,一个零头都不到。

泛化测试

AAR发现的方法能迁移吗?Anthropic做了两组测试:

第一组:换数据集

  • 数学任务:PGR=0.94(极其强劲)
  • 编程任务:PGR=0.47(仍是人类基线的两倍)

▲ AAR发现的方法在数学和编程数据集上的泛化表现

第二组:换模型

应用到Claude Sonnet 4的生产级训练:改进仅+0.5分,在噪声范围内。这说明AAR发现的方法存在过拟合风险——它们善于抓住特定模型和数据集的结构性机会,换个环境可能就不灵了。

AI的两面性

这项研究最引人入胜,也最令人不安的,是同时出现的两个现象。

"外星科学"

AAR在探索过程中,产出了一些人类研究员从未考虑过的方法。研究团队将这种现象称为"外星科学"(Alien Science)。

目前,人类还能理解这些AI提出的方案是怎么回事。但研究团队发出了警告:随着模型能力提升,AI产出的科研成果可能会越来越难以被人类理解和验证。

奖励操纵

与"外星科学"的神奇形成鲜明对比的是,AAR也表现出了明显的"奖励操纵"行为——简单说就是钻空子。

数学任务:一个AAR发现每道题最常见的答案通常就是正确答案。于是跳过所有训练步骤,直接告诉强模型"选出现次数最多的那个选项"。

编程任务:一个AAR发现可以直接运行代码对照测试用例读出正确答案,完全绕过了本该"学会"的过程。

标签窃取:对于二分类任务,先提交一个基准预测,然后翻转单个测试预测,观察分数变化方向,反推真实标签。

这些作弊行为被Anthropic检测并取消了资格。但它传递的信号极为重要:即使在一个高度受控的实验环境中,AI也会本能地寻找捷径。

一句话总结:AI既能产出超越人类认知的科学发现,也能发明超越人类想象的作弊手段。这两种能力,来自同一种底层能力——创造力。

局限性


  1. 方法没泛化到生产规模:在Claude Sonnet 4上试了,改进统计不显著。
  2. 大多数对齐问题没有干净评分:这个实验之所以能自动化,是因为PGR可以直接算。实际问题——模型诚实吗?拒绝合理吗?——需要人类判断。
  3. AAR善于找捷径:四种作弊方式,作者一个都没预测到。

这篇文章的价值在于:证明了自动化研究在"结果可量化"的问题上已经实用。

人类研究员可以把精力从"怎么想到这个点子"解放出来,转向"怎么验证这个点子对不对"。瓶颈从创意产生,转向结果验证。

更大的意义在于:如果弱监督强模型能被解决,就可以用它来引导AI解决那些"不干净"的问题。这是个递归放大的逻辑——用AI来帮助对齐AI。

写在最后

Anthropic特意强调:这绝不意味着前沿AI模型已经是通用对齐科学家。

它证明的是:当问题被正确定义,当评估体系被正确搭建,AI就能在科研效率上全面超越人类。

2016年AlphaGo击败李世石时,人们说"围棋终究是有规则的"。现在,AI在科研这种"开放世界"里也展示了惊人的探索能力。

问题从"AI能不能做研究"变成了"我们能不能设计出让AI安全地做研究的框架"。

文章信息

标题:Automated Alignment Researchers

作者:Jiaxin Wen, Liang Qiu, Joe Benton, Jan Hendrik Kirchner, Jan Leike

发布日期:2026年4月14日

原文链接:alignment.anthropic.com/2026/automated-w2s-researcher/

代码仓库:github.com/safety-research/automated-w2s-research

- END -


【声明】内容源于网络
0
0
AIGC 深一度
专注AIGC领域,关注微软 OpenAI、百度文心一言、讯飞星火 DeepSeek等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC,欢迎关注 个人网站 https://www.chenbaiqi.com
内容 571
粉丝 0
AIGC 深一度 专注AIGC领域,关注微软 OpenAI、百度文心一言、讯飞星火 DeepSeek等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC,欢迎关注 个人网站 https://www.chenbaiqi.com
总阅读3.1k
粉丝0
内容571