一周前,Andrej Karpathy 在 X 平台发布开源项目 autoresearch,仅用约 630 行 Python 代码,构建出 AI 自主开展研究的最小可行系统,迅速引发 AI 社区广泛关注。
(来源:Karpathy)
上线不到两周,项目 GitHub Star 数已突破 4 万。有开发者在 H100 GPU 上完成 83 次实验,其中 15 次实现有效改进,验证损失从近 1000 降至 0.975 左右。
autoresearch:极简自主训练循环
项目提供一个轻量级、可运行的 LLM 训练环境,支持 AI 智能体持续迭代。核心由三个文件构成:
prepare.py:固定负责数据准备与 BPE 分词器训练;train.py:可编辑的核心训练脚本,含 GPT 模型、优化器与训练循环;program.md:人类编写的指令手册,引导 AI 行为。
每次实验严格限定 5 分钟墙钟时间,以 val_bpb 为评估指标确保公平性。AI 修改代码、运行训练、分析结果、决策保留或回滚,全程通过 Git 分支记录演化历史,延续 Karpathy 一贯的极简主义工程哲学。
AutoResearchClaw:端到端自主科研 Agent
发布后两周内,美国北卡罗来纳大学教堂山分校(UNC)AIMING Lab 华人团队基于 autoresearch,推出扩展性更强的开源项目 AutoResearchClaw。目前 GitHub Star 超 4500,版本快速迭代至 v0.3.0(2026年3月17日发布),并引入自进化机制。
(来源:GitHub)
覆盖科研全流程的 23 阶段流水线
用户只需输入一行 CLI 命令与原始研究想法(例如“探索新型注意力机制在长上下文建模中的效率”),系统即启动端到端流程,涵盖 8 大核心阶段:Idea Scoping、文献发现与合成、实验设计、执行、分析、写作、评审及定稿。
高可信文献检索机制
系统通过 arXiv 和 Semantic Scholar 检索论文,并借助 DataCite 与 CrossRef 进行交叉验证。每条引用需通过四层过滤:arXiv ID 校验、DOI 查找、标题匹配、LLM 相关性打分,彻底剔除幻觉引用,严谨度超越多数人工综述。
自适应实验执行与修复
AI 根据文献生成可运行代码,自动识别硬件环境(NVIDIA CUDA / Apple MPS / CPU),在沙箱中安全执行。代码报错时自动修复;若实验否定初始假设,则主动转向新方向,而非固守单一路径。相较 autoresearch 的参数优化,该阶段扩展至完整实验设计、图表生成与多维指标追踪。
多智能体同行评审与论文生成
实验完成后,多智能体评审模块启动多轮“同行评议”,核查方法论与证据一致性,并输出结构化修订建议。最终生成超 5000 词的完整论文草稿,包含引言、相关工作、方法、实验、结论等标准章节。
数学公式采用 KaTeX 渲染,图表自动绘制,直接适配 ICML、ICLR 或 NeurIPS LaTeX 模板。交付物包括:.tex 源文件、经验证的 BibTeX 引用库、全部实验脚本、沙箱运行日志及评审笔记。支持全无人值守模式(--auto-approve)或分阶段人工审批(默认设于第 5、9、20 阶段)。
(来源:GitHub)
技术底座与持续演进
AutoResearchClaw 构建于两大基础之上:
- Karpathy 的 autoresearch —— 提供代码级自主迭代微循环;
- OpenClaw 框架 —— 支持多 Agent 编排与协同。
v0.2 引入 MetaClaw 自进化引擎,从失败案例中提炼可复用技能,实测缩短 40% refine 周期;v0.3 新增速率限制防护、跨平台 API 级联检索(OpenAlex → Semantic Scholar → arXiv)及多 Agent 辩论模块。所有更新均开源,GitHub Issue 区活跃,用户反馈直接驱动版本迭代。
真实案例与工程鲁棒性
测试显示项目具备较强落地能力:
- 输入“Unity 资产剪枝优化”,系统自动完成文献搜集、代码生成、实验验证,并输出含完整图表的会议级论文;
- 某次实验失败后,AI 主动修正研究假设,规避 p-hacking 风险。
区别于传统 AI 论文生成工具,AutoResearchClaw 将 autoresearch 的“实验自我迭代”能力真正延伸至科研全链条——从灵感触发、文献调研、实验验证,到成果撰写与投稿准备,实现一体化闭环。
开放、可审查、以人为本
项目强调可追溯性与安全性:所有输出含完整实验脚本与日志,便于人工复核;引用均可溯源;代码沙箱默认隔离。当前尚未全面兼容边缘硬件,但社区适配工作已在推进。官方明确表示,目标不是替代研究人员,而是将“从灵感产生到 arXiv 投稿”的周期压缩至一晚。
截至最新 release,系统已优化多 Agent 辩论逻辑与 LaTeX 导出稳定性。结合 Claude Code 等强编码智能体,端到端成功率超 85%。
项目地址:https://github.com/aiming-lab/AutoResearchClaw

