让AI从论文走到实验室：人大高瓴提出长程研究工程系统AiScientist- 大数跨境

首页

让AI从论文走到实验室：人大高瓴提出长程研究工程系统AiScientist

ScienceAl

2026-04-20

导读：AI 进入科研流程的方式，将从「辅助某一步」逐渐走向「接手整条链路」。

AiScientist系统突破长程机器学习研究工程挑战

作者 | 论文团队

编辑丨ScienceAI

AI for Science 的长期目标是辅助完整研究流程，而机器学习研究工程因涉及长程任务链成为关键挑战。该任务链涵盖论文理解、环境搭建、实验运行与结果迭代，环节间需紧密衔接且反馈延迟，单一环节错误即可阻断全流程。

近日，中国人民大学高瓴人工智能学院提出 AiScientist 系统，旨在解决此类 "long-horizon ML research engineering" 问题：给定论文、基础环境及有限预算，系统能否自主完成端到端研究流程？

论文地址：https://arxiv.org/pdf/2604.13018

代码地址：https://github.com/AweAI-Team/AiScientist

长程研究工程的核心挑战

研究工程不同于单点能力，属于"长程、延迟反馈、状态敏感"任务。其难点包括：论文规格常不完整，需模型自主补全决策；系统配置环境易受阻塞；实验反馈周期长且问题源混杂（理解偏差、代码实现或资源配置等）。

关键挑战在于项目状态的持续维护：实验日志、配置与结果记录必须在多轮迭代中有效继承，否则系统无法精准诊断问题并推进后续优化。

核心机制设计

AiScientist 采用 "thin control over thick state" 架构，将控制与状态分离：

层级化调度：分设不同角色处理论文理解、任务规划、代码实现等环节，确保各环节在适配的局部上下文中运行。

File-as-Bus 机制：将共享工作区作为"外部记忆"，持续存储项目分析、代码、实验日志等持久化成果。后续阶段可直接读取历史状态，避免每轮重复填充上下文。

该设计使系统不仅能完成基础任务，更能在跨阶段迭代中精准继承项目状态。

性能验证与关键发现

在 MLE-Bench Lite 的 Detecting Insults 任务中，AiScientist 于23小时内完成74轮实验，将 validation AUC 从 0.903 提升至 0.982；在 PaperBench 上相对基线平均提升 10.54 分；在 MLE-Bench Lite 达 81.82% Any Medal。

消融实验凸显 File-as-Bus 的决定性作用：移除后，PaperBench 分数下降 6.41 分，Any Medal 指标骤降 31.82 个百分点。验证表明，状态连续性并非辅助功能，而是长程任务可持续推进的核心机制，尤其在后期结果精调阶段作用显著。

对 AI for Science 的启示

该研究揭示：提升单步能力不足以解决长程任务挑战。真正关键在于系统能否在长时间跨度中维持项目状态、衔接异构环节并吸收实验反馈。对于高价值科研流程（如算法复现、参数迭代），持续继承状态比单次生成质量更重要。

团队正将 AiScientist 推进为实用软件工具，强调科研系统需嵌入日常研究流程。此举凸显从"benchmark 分数"到"可落地工具"的转型必要性——AI 要真正辅助科研，必须成为研究者工作流的有机部分。

未来科学智能体发展，需在"会推理、会生成"基础上，强化"记住状态、继承经验、持续推进"的能力。这标志着 AI 参与科研的范式正从单步辅助迈向全流程接管。

【声明】内容源于网络

ScienceAl

机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

内容 1956

粉丝 0

ScienceAl 机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

总阅读27.1k

粉丝0

内容2.0k