大数跨境

让AI从论文走到实验室:人大高瓴提出长程研究工程系统AiScientist

让AI从论文走到实验室:人大高瓴提出长程研究工程系统AiScientist ScienceAl
2026-04-20
2
导读:AI 进入科研流程的方式,将从「辅助某一步」逐渐走向「接手整条链路」。

AiScientist系统突破长程机器学习研究工程挑战

作者 | 论文团队
编辑丨ScienceAI

AI for Science 的长期目标是辅助完整研究流程,而机器学习研究工程因涉及长程任务链成为关键挑战。该任务链涵盖论文理解、环境搭建、实验运行与结果迭代,环节间需紧密衔接且反馈延迟,单一环节错误即可阻断全流程。

近日,中国人民大学高瓴人工智能学院提出 AiScientist 系统,旨在解决此类 "long-horizon ML research engineering" 问题:给定论文、基础环境及有限预算,系统能否自主完成端到端研究流程?

论文地址:https://arxiv.org/pdf/2604.13018

代码地址:https://github.com/AweAI-Team/AiScientist

长程研究工程的核心挑战

研究工程不同于单点能力,属于"长程、延迟反馈、状态敏感"任务。其难点包括:论文规格常不完整,需模型自主补全决策;系统配置环境易受阻塞;实验反馈周期长且问题源混杂(理解偏差、代码实现或资源配置等)。

关键挑战在于项目状态的持续维护:实验日志、配置与结果记录必须在多轮迭代中有效继承,否则系统无法精准诊断问题并推进后续优化。

核心机制设计

AiScientist 采用 "thin control over thick state" 架构,将控制与状态分离:

层级化调度:分设不同角色处理论文理解、任务规划、代码实现等环节,确保各环节在适配的局部上下文中运行。

File-as-Bus 机制:将共享工作区作为"外部记忆",持续存储项目分析、代码、实验日志等持久化成果。后续阶段可直接读取历史状态,避免每轮重复填充上下文。

该设计使系统不仅能完成基础任务,更能在跨阶段迭代中精准继承项目状态。

性能验证与关键发现

在 MLE-Bench Lite 的 Detecting Insults 任务中,AiScientist 于23小时内完成74轮实验,将 validation AUC 从 0.903 提升至 0.982;在 PaperBench 上相对基线平均提升 10.54 分;在 MLE-Bench Lite 达 81.82% Any Medal。

消融实验凸显 File-as-Bus 的决定性作用:移除后,PaperBench 分数下降 6.41 分,Any Medal 指标骤降 31.82 个百分点。验证表明,状态连续性并非辅助功能,而是长程任务可持续推进的核心机制,尤其在后期结果精调阶段作用显著。

对 AI for Science 的启示

该研究揭示:提升单步能力不足以解决长程任务挑战。真正关键在于系统能否在长时间跨度中维持项目状态、衔接异构环节并吸收实验反馈。对于高价值科研流程(如算法复现、参数迭代),持续继承状态比单次生成质量更重要。

团队正将 AiScientist 推进为实用软件工具,强调科研系统需嵌入日常研究流程。此举凸显从"benchmark 分数"到"可落地工具"的转型必要性——AI 要真正辅助科研,必须成为研究者工作流的有机部分。

未来科学智能体发展,需在"会推理、会生成"基础上,强化"记住状态、继承经验、持续推进"的能力。这标志着 AI 参与科研的范式正从单步辅助迈向全流程接管。

【声明】内容源于网络
0
0
ScienceAl
机器之心旗下媒体,关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。
内容 1956
粉丝 0
ScienceAl 机器之心旗下媒体,关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。
总阅读27.1k
粉丝0
内容2.0k