AI写的论文登上Nature，通过ICLR盲审，6.33分超人类均值！- 大数跨境

AI前沿速递

2026-03-30

导读：AI写的论文登上Nature，通过ICLR盲审，6.33分超人类均值！

长久以来，科学家们一直梦想着能有一个全能的 AI 助手。以前的 AI 只能帮我们润色一下句子、或者预测个蛋白质结构。但你敢相信吗？现在，AI 已经可以直接包揽**“提出Idea ➡️ 写代码做实验 ➡️ 画图表 ➡️ 写成完整学术论文 ➡️ 甚至自己做同行评审”**的全部流程了！

就在2026年3月，一篇由 Sakana AI、牛津大学、不列颠哥伦比亚大学等机构联合发表在《Nature》上的重磅论文，向我们展示了这样一个名为 “The AI Scientist”（AI 科学家） 的超级系统。

更让人震惊的是：这个 AI 独立生成的论文，竟然成功通过了计算机顶会（ICLR）工作坊的盲审，差点被正式接收！

这到底是怎么做到的？科研打工人的饭碗还能保住吗？今天，我们就来扒一扒这位“AI 科学家”的硬核内幕。

论文标题：Towards end-to-end automation of AI research

论文链接：https://www.nature.com/articles/s41586-026-10265-5

AI Scientist-v1:https://github.com/SakanaAI/AI-Scientist

AI Scientist-v2:https://github.com/SakanaAI/AI-Scientist-v2

扫码添加小助手，发送关键词【C805】

免费领取《agent memory论文合集》

一、什么是“The AI Scientist”？

简单来说，“The AI Scientist” 是一个端到端的自动化科研流水线。只要你给它指定一个研究的大方向（比如“机器学习”），它就能像一个不知疲倦的超级博士生一样，开启自动运转的挂机模式。

论文中指出，这个系统完整覆盖了科研的四大生命周期：

图片说明（选自论文 Fig. 1a）： The AI Scientist 的四大核心阶段：灵感构思 (Ideation)、实验阶段 (Experimentation)、论文撰写 (Write-up) 和自动评审 (Automated Review) 。

1. 灵感构思（Ideation）：绝不“炒冷饭”

它会先利用大语言模型疯狂进行“头脑风暴”，提出各种有趣的研究假设。为了防止提出别人早就做过的老掉牙 Idea，它还会自动调用外部文献数据库（Semantic Scholar API）去全网查重，一旦发现和现有文献撞车，就果断毙掉，确保绝对的新颖性。

2. 疯狂做实验（Experimentation）：会自己 debug 的超级码农

有了好点子，接下来就是搬砖敲代码了。研究人员给系统设计了两种模式：

• 基于模板（Template-based）：人类给个基础代码框架，它在上面改。
• 无模板自由发挥（Template-free）：它完全自主从零开始写代码、调超参数、甚至进行复杂的“消融实验”（Ablation studies）。

如果在跑代码时报错了怎么办？没关系，它会自己读取错误日志，自己给自己修 Bug（Debug）！

3. 论文撰写（Write-up）：精通 LaTeX 的排版大师

实验做完了，数据也有了，它会自动把结果画成图表。然后打开空白的 LaTeX 模板，把引言、方法、结果分析、甚至是相关工作（Related Work）洋洋洒洒写成一篇标准的学术论文。它还会自动在网上去搜索并引用合适的参考文献，不仅不会乱引，还会给出详细的引用理由。

4. 自动同行评审（Automated Reviewer）：自己做自己的审稿人

论文写完了，总得有人把关吧？研究团队直接开发了一个基于 NeurIPS（顶会）标准打造的“自动化审稿人” 。这个审稿人不仅能打分，还会尖锐地指出论文的优缺点，甚至给出“接收”或“拒稿”的最终决定。

二、深入实验细节：它到底有多聪明？

你可能会觉得，AI 写出来的东西是不是满篇废话和胡说八道？为了验证它的实力，研究团队进行了一场硬核的**“AI 图灵测试”**：他们把 AI 写的 3 篇论文，悄悄混在了人类学者的稿件里，投给了 ICLR 2025 的一个正式 Workshop（工作坊），交由真实的人类专家进行盲审。

结果令人惊叹：其中一篇论文获得了 6、7、6 的高分（平均分 6.33），直接越过了接收线！

这篇被认可的论文到底写了啥？它提出了一种叫“组合正则化”（Compositional Regularization）的方法，用来探究神经网络的泛化能力。更绝的是，AI 甚至在论文中自己推导并定义了一个损失函数的数学公式！

图片说明（选自论文 Fig. 2）： AI 科学家撰写并被成功接收的论文片段，包含了标题、摘要、方法、高质量的数据图表以及参考文献。

我们在论文的截图（Fig. 2 中第2页）里可以清晰地看到 AI 自己构建的公式。为了防止隐藏状态（hidden states）在时间步之间发生剧烈变化，AI 提出了如下的均方差正则化项：

(其中代表时间的隐藏状态，是输入序列的长度。这公式写得可以说是相当地道了！)

除了写论文，它在做实验时的“树状搜索”策略也极其精妙：

图片说明（选自论文 Fig. 3）： AI 在实验阶段的“决策树”。从初步基线代码开始，逐步扩展出调参、主干执行和消融实验节点。红色的框代表代码有 Bug，绿色的框代表表现最好的节点。

从图中可以看出，AI 并不是无脑乱试。它会根据上一轮的实验结果（或者报错信息），兵分多路去探索。如果一条路走不通（红色节点），它就退回来尝试其他方向，直到找到最佳结果（绿色节点）继续向下深挖。这简直和现实中我们在实验室里不断试错的过程一模一样！

三、 AI 审稿人靠谱吗？

你也许会问，AI 自己审自己的文章，会不会王婆卖瓜，自卖自夸？

为了证明“自动化审稿系统”的客观性，研究人员拿它和历届真实的人类评审数据进行了对比。惊人的发现是：AI 审稿人的决策平衡准确率（Balanced accuracy）达到了 69%，这与人类审稿人之间的意见一致性几乎没有差异！ 也就是说，如果把这篇论文交给两个不同的人类专家去审，他们产生的意见分歧，和 AI 与人类产生的分歧是一样大的。

更有趣的是，随着底层大语言模型（如 GPT-4, Claude 3.5 Sonnet, Gemini 1.5 等）的不断迭代升级，AI 科学家写出的论文质量也在呈现一条清晰的上升曲线：

图片说明（选自论文 Fig. 1b）：
随着语言模型发布时间的推移（X轴），AI 科学家生成的论文得分（Y轴）在显著提升。

研究还发现，给 AI 分配的算力越多（让它跑更多的节点），产出的论文质量就越高（参见原论文 Fig. 3c）。这意味着什么？只要算力管够，未来的 AI 真的有可能批量制造出顶级期刊水准的突破性成果！

四、结语：科研人员要失业了吗？

读到这里，相信很多做科研的小伙伴可能感到了一丝寒意。

不过别慌，目前的 The AI Scientist 并不完美。论文作者也很坦诚地指出了它的局限性：

1. 创新性仍有不足：它有时只能提出一些较为“幼稚”或简单的点子。
2. 仍会“幻觉”：偶尔会胡乱引用不存在的文献，或者把相同的图表不小心放在不同的章节里。
3. 顶会门槛：目前它只能勉强达到 Workshop（工作坊，接收率约70%）的标准，还无法满足 ICLR 主会（接收率仅32%）的高端要求。

但不要忘记 AI 进化的速度。正如论文所言，在机器学习领域，一旦某个东西证明“行得通”（哪怕带着瑕疵），短短几年内，在算力和数据的堆叠下，它的能力就会呈现爆炸式增长，直至超越人类极限 。

The AI Scientist 的出现，标志着长达几个世纪的人类独占科学发现的时代可能正在走向终结 。它带来的不仅是科研效率的革命，也带来了深刻的伦理问题：未来的学术圈会被海量的 AI 论文淹没吗？科研信用的归属权该如何界定？

面对不可阻挡的技术洪流，与其焦虑，不如主动拥抱变化。也许未来的“科学家”，不再是那个苦哈哈在实验室里调参、画图的人，而是变成了科研大军的“指挥官”，引导着成百上千个“AI 科学家”，向未知的宇宙边界进发。

扫码添加小助手，发送关键词【C805】

免费领取《agent memory论文合集》

【声明】内容源于网络

AI前沿速递

AI前沿速递聚焦人工智能最新科研成果与技术动态，专注前沿论文解读、行业资讯分享与高校招生信息推送，助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容，让全球优秀研究被更多人看见。关注我们，探索AI无限可能！

内容 1899

粉丝 0

AI前沿速递 AI前沿速递聚焦人工智能最新科研成果与技术动态，专注前沿论文解读、行业资讯分享与高校招生信息推送，助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容，让全球优秀研究被更多人看见。关注我们，探索AI无限可能！

总阅读3.8k

粉丝0

内容1.9k

AI写的论文登上Nature，通过ICLR盲审，6.33分超人类均值！

一、 什么是“The AI Scientist”？