Agent不是关键！人大AiScientist实现23小时、74轮长程记忆- 大数跨境

新智元

2026-04-20

新智元报道

编辑：LRST

【新智元导读】中国人民大学团队研发的AiScientist系统，聚焦解决长程机器学习研究工程的持续性难题。该系统实现从论文理解到环境配置、代码实现与实验迭代的全流程贯通，其核心在于File-as-Bus机制稳定保存项目状态，使AI真正具备接手科研流程的能力。

自动化科学研究已成为人工智能重要研究方向。当前众多AI系统已能参与创意生成、文献综述、定向实验及学术写作等环节。AiScientist则进一步聚焦真实科研场景中的核心挑战：长程ML研究工程。

该设定要求系统从研究目标出发，连续完成环境配置、依赖管理、实验执行、结果比对及问题修复。此类任务不仅包含环节本身的复杂性，更面临跨阶段状态连续性难题：早期决策偏差可能数小时后才显现，项目状态丢失将导致归因困难。

中国人民大学高瓴人工智能学院提出的AiScientist，旨在将AI从"辅助单点环节"提升至"持续接管全流程"的新阶段。

论文：https://arxiv.org/pdf/2604.13018

代码库：https://github.com/AweAI-Team/AiScientist

23小时完成74轮实验

在MLE-Bench Lite的侮辱检测任务中，AiScientist在23小时内自主完成74轮实验循环，验证集AUC从0.903提升至0.982，实现18次最佳表现更新。其核心价值在于呈现完整研究工程链路：从任务解析到环境搭建、代码实现、实验分析及系统修正，形成持续迭代能力。

这标志着系统能力重心已从"强化代码助手"转向"构建流程推进力"。

现有AI科研系统虽能在局部环节展现优势，但长程ML研究工程面临双重挑战：既包含论文理解不完整、环境配置脆弱等高难度局部问题，更需跨阶段保持状态连续性。如PaperBench测试显示，最优模型复现率仅21%，而顶尖博士48小时内达41%，证明瓶颈在于系统能否跨越阶段协同推进。

长程工程的本质是将多个复杂环节在时间轴上精准串联，确保跨阶段连贯推进，而非简单堆砌单点能力。

AiScientist核心理念为"薄控制覆盖厚状态"。顶层调度器（Orchestrator）负责阶段级任务推进，而项目记忆由工作空间持续演化的分析、计划与日志承担。该设计使系统避免反复重启，实现长程任务中的状态继承与渐进优化。

其关键突破在于：多智能体协作效能取决于稳定可继承的项目状态，而非单纯的分工数量。

系统将文件系统作为协作底座，将论文分析、实验日志等持续写回工作空间，形成可追溯的持久化证据链。该机制对长程任务至关重要：当前阶段判断可能在数小时后才通过实验异常显现，状态丢失将导致归因失效。

在PaperBench测试中，AiScientist平均领先基线10.54分，证明其在高难度论文复现场景具备稳定优势。

MLE-Bench Lite测试显示81.82%的Any Medal达成率，表明系统在真实研究迭代场景中持续优化能力突出。

消融实验证实：移除File-as-Bus机制后，PaperBench得分下降6.41分，MLE-Bench Lite Any Medal骤降31.82个百分点，证明状态连续性是长程工程核心支撑。

AiScientist的价值可概括为三点：第一，长程ML工程是比局部问题更难的系统工程，关键在跨阶段连贯性；第二，状态连续性构建是多智能体系统发挥效能的基础；第三，File-as-Bus机制的核心价值体现在后期精细化优化，而非仅实现基础可执行性。

该研究揭示的深层意义在于：AI进入科研流程的关键，是突破单环节辅助阶段，转向全流程接管能力。团队正推动AiScientist从评测模型向实用化系统演进，真正解放实验流程生产力。

AiScientist重构了长程研究工程的方法论——其核心突破不在于提升单次生成质量，而在于跨任务链中的状态稳定继承与推进能力。若此路径成立，AI参与科研的方式将从"辅助环节"转向"流程接管"，从根本上变革机器学习研究范式。

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 0

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读0

粉丝0

内容0