从选题到论文一键生成：最新“论文虾”把Karpathy的autoresearch往前推了十步- 大数跨境

首页

从选题到论文一键生成：最新“论文虾”把Karpathy的autoresearch往前推了十步

DeepTech深科技

2026-03-18

导读：一周前，当 Andrej Karpathy 在 X 平台上发布他的新项目 autoresearch 时，整个

一周前，Andrej Karpathy 在 X 平台发布开源项目 autoresearch，仅用约 630 行 Python 代码，构建出 AI 自主开展研究的最小可行系统，迅速引发 AI 社区广泛关注。

（来源：Karpathy）

上线不到两周，项目 GitHub Star 数已突破 4 万。有开发者在 H100 GPU 上完成 83 次实验，其中 15 次实现有效改进，验证损失从近 1000 降至 0.975 左右。

autoresearch：极简自主训练循环

项目提供一个轻量级、可运行的 LLM 训练环境，支持 AI 智能体持续迭代。核心由三个文件构成：

prepare.py：固定负责数据准备与 BPE 分词器训练；
train.py：可编辑的核心训练脚本，含 GPT 模型、优化器与训练循环；
program.md：人类编写的指令手册，引导 AI 行为。

每次实验严格限定 5 分钟墙钟时间，以 val_bpb 为评估指标确保公平性。AI 修改代码、运行训练、分析结果、决策保留或回滚，全程通过 Git 分支记录演化历史，延续 Karpathy 一贯的极简主义工程哲学。

AutoResearchClaw：端到端自主科研 Agent

发布后两周内，美国北卡罗来纳大学教堂山分校（UNC）AIMING Lab 华人团队基于 autoresearch，推出扩展性更强的开源项目 AutoResearchClaw。目前 GitHub Star 超 4500，版本快速迭代至 v0.3.0（2026年3月17日发布），并引入自进化机制。

（来源：GitHub）

覆盖科研全流程的 23 阶段流水线

用户只需输入一行 CLI 命令与原始研究想法（例如“探索新型注意力机制在长上下文建模中的效率”），系统即启动端到端流程，涵盖 8 大核心阶段：Idea Scoping、文献发现与合成、实验设计、执行、分析、写作、评审及定稿。

高可信文献检索机制

系统通过 arXiv 和 Semantic Scholar 检索论文，并借助 DataCite 与 CrossRef 进行交叉验证。每条引用需通过四层过滤：arXiv ID 校验、DOI 查找、标题匹配、LLM 相关性打分，彻底剔除幻觉引用，严谨度超越多数人工综述。

自适应实验执行与修复

AI 根据文献生成可运行代码，自动识别硬件环境（NVIDIA CUDA / Apple MPS / CPU），在沙箱中安全执行。代码报错时自动修复；若实验否定初始假设，则主动转向新方向，而非固守单一路径。相较 autoresearch 的参数优化，该阶段扩展至完整实验设计、图表生成与多维指标追踪。

多智能体同行评审与论文生成

实验完成后，多智能体评审模块启动多轮“同行评议”，核查方法论与证据一致性，并输出结构化修订建议。最终生成超 5000 词的完整论文草稿，包含引言、相关工作、方法、实验、结论等标准章节。

数学公式采用 KaTeX 渲染，图表自动绘制，直接适配 ICML、ICLR 或 NeurIPS LaTeX 模板。交付物包括：.tex 源文件、经验证的 BibTeX 引用库、全部实验脚本、沙箱运行日志及评审笔记。支持全无人值守模式（--auto-approve）或分阶段人工审批（默认设于第 5、9、20 阶段）。

（来源：GitHub）

技术底座与持续演进

AutoResearchClaw 构建于两大基础之上：

Karpathy 的 autoresearch —— 提供代码级自主迭代微循环；
OpenClaw 框架 —— 支持多 Agent 编排与协同。

v0.2 引入 MetaClaw 自进化引擎，从失败案例中提炼可复用技能，实测缩短 40% refine 周期；v0.3 新增速率限制防护、跨平台 API 级联检索（OpenAlex → Semantic Scholar → arXiv）及多 Agent 辩论模块。所有更新均开源，GitHub Issue 区活跃，用户反馈直接驱动版本迭代。

真实案例与工程鲁棒性

测试显示项目具备较强落地能力：

输入“Unity 资产剪枝优化”，系统自动完成文献搜集、代码生成、实验验证，并输出含完整图表的会议级论文；
某次实验失败后，AI 主动修正研究假设，规避 p-hacking 风险。

区别于传统 AI 论文生成工具，AutoResearchClaw 将 autoresearch 的“实验自我迭代”能力真正延伸至科研全链条——从灵感触发、文献调研、实验验证，到成果撰写与投稿准备，实现一体化闭环。

开放、可审查、以人为本

项目强调可追溯性与安全性：所有输出含完整实验脚本与日志，便于人工复核；引用均可溯源；代码沙箱默认隔离。当前尚未全面兼容边缘硬件，但社区适配工作已在推进。官方明确表示，目标不是替代研究人员，而是将“从灵感产生到 arXiv 投稿”的周期压缩至一晚。

截至最新 release，系统已优化多 Agent 辩论逻辑与 LaTeX 导出稳定性。结合 Claude Code 等强编码智能体，端到端成功率超 85%。

项目地址：https://github.com/aiming-lab/AutoResearchClaw

【声明】内容源于网络

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

内容 5025

粉丝 0

DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

总阅读41.9k

粉丝0

内容5.0k