新智元报道
【新智元导读】中国人民大学团队研发的AiScientist系统,聚焦解决长程机器学习研究工程的持续性难题。该系统实现从论文理解到环境配置、代码实现与实验迭代的全流程贯通,其核心在于File-as-Bus机制稳定保存项目状态,使AI真正具备接手科研流程的能力。
自动化科学研究已成为人工智能重要研究方向。当前众多AI系统已能参与创意生成、文献综述、定向实验及学术写作等环节。AiScientist则进一步聚焦真实科研场景中的核心挑战:长程ML研究工程。
该设定要求系统从研究目标出发,连续完成环境配置、依赖管理、实验执行、结果比对及问题修复。此类任务不仅包含环节本身的复杂性,更面临跨阶段状态连续性难题:早期决策偏差可能数小时后才显现,项目状态丢失将导致归因困难。
中国人民大学高瓴人工智能学院提出的AiScientist,旨在将AI从"辅助单点环节"提升至"持续接管全流程"的新阶段。
论文:https://arxiv.org/pdf/2604.13018
代码库:https://github.com/AweAI-Team/AiScientist
23小时完成74轮实验
在MLE-Bench Lite的侮辱检测任务中,AiScientist在23小时内自主完成74轮实验循环,验证集AUC从0.903提升至0.982,实现18次最佳表现更新。其核心价值在于呈现完整研究工程链路:从任务解析到环境搭建、代码实现、实验分析及系统修正,形成持续迭代能力。
这标志着系统能力重心已从"强化代码助手"转向"构建流程推进力"。
攻克长程研究工程瓶颈
现有AI科研系统虽能在局部环节展现优势,但长程ML研究工程面临双重挑战:既包含论文理解不完整、环境配置脆弱等高难度局部问题,更需跨阶段保持状态连续性。如PaperBench测试显示,最优模型复现率仅21%,而顶尖博士48小时内达41%,证明瓶颈在于系统能否跨越阶段协同推进。
长程工程的本质是将多个复杂环节在时间轴上精准串联,确保跨阶段连贯推进,而非简单堆砌单点能力。
薄控制与厚状态协同机制
AiScientist核心理念为"薄控制覆盖厚状态"。顶层调度器(Orchestrator)负责阶段级任务推进,而项目记忆由工作空间持续演化的分析、计划与日志承担。该设计使系统避免反复重启,实现长程任务中的状态继承与渐进优化。
其关键突破在于:多智能体协作效能取决于稳定可继承的项目状态,而非单纯的分工数量。
File-as-Bus机制验证
系统将文件系统作为协作底座,将论文分析、实验日志等持续写回工作空间,形成可追溯的持久化证据链。该机制对长程任务至关重要:当前阶段判断可能在数小时后才通过实验异常显现,状态丢失将导致归因失效。
在PaperBench测试中,AiScientist平均领先基线10.54分,证明其在高难度论文复现场景具备稳定优势。
MLE-Bench Lite测试显示81.82%的Any Medal达成率,表明系统在真实研究迭代场景中持续优化能力突出。
消融实验证实:移除File-as-Bus机制后,PaperBench得分下降6.41分,MLE-Bench Lite Any Medal骤降31.82个百分点,证明状态连续性是长程工程核心支撑。
研究启示
AiScientist的价值可概括为三点:第一,长程ML工程是比局部问题更难的系统工程,关键在跨阶段连贯性;第二,状态连续性构建是多智能体系统发挥效能的基础;第三,File-as-Bus机制的核心价值体现在后期精细化优化,而非仅实现基础可执行性。
该研究揭示的深层意义在于:AI进入科研流程的关键,是突破单环节辅助阶段,转向全流程接管能力。团队正推动AiScientist从评测模型向实用化系统演进,真正解放实验流程生产力。
总结
AiScientist重构了长程研究工程的方法论——其核心突破不在于提升单次生成质量,而在于跨任务链中的状态稳定继承与推进能力。若此路径成立,AI参与科研的方式将从"辅助环节"转向"流程接管",从根本上变革机器学习研究范式。

