大数跨境

从选题到论文一键生成:最新“论文虾”把Karpathy的autoresearch往前推了十步

从选题到论文一键生成:最新“论文虾”把Karpathy的autoresearch往前推了十步 DeepTech深科技
2026-03-18
6
导读:一周前,当 Andrej Karpathy 在 X 平台上发布他的新项目 autoresearch 时,整个

一周前,Andrej Karpathy 在 X 平台发布开源项目 autoresearch,仅用约 630 行 Python 代码,构建出 AI 自主开展研究的最小可行系统,迅速引发 AI 社区广泛关注。

(来源:Karpathy)

上线不到两周,项目 GitHub Star 数已突破 4 万。有开发者在 H100 GPU 上完成 83 次实验,其中 15 次实现有效改进,验证损失从近 1000 降至 0.975 左右。

autoresearch:极简自主训练循环

项目提供一个轻量级、可运行的 LLM 训练环境,支持 AI 智能体持续迭代。核心由三个文件构成:

  • prepare.py:固定负责数据准备与 BPE 分词器训练;
  • train.py:可编辑的核心训练脚本,含 GPT 模型、优化器与训练循环;
  • program.md:人类编写的指令手册,引导 AI 行为。

每次实验严格限定 5 分钟墙钟时间,以 val_bpb 为评估指标确保公平性。AI 修改代码、运行训练、分析结果、决策保留或回滚,全程通过 Git 分支记录演化历史,延续 Karpathy 一贯的极简主义工程哲学。

AutoResearchClaw:端到端自主科研 Agent

发布后两周内,美国北卡罗来纳大学教堂山分校(UNC)AIMING Lab 华人团队基于 autoresearch,推出扩展性更强的开源项目 AutoResearchClaw。目前 GitHub Star 超 4500,版本快速迭代至 v0.3.0(2026年3月17日发布),并引入自进化机制。

(来源:GitHub)

覆盖科研全流程的 23 阶段流水线

用户只需输入一行 CLI 命令与原始研究想法(例如“探索新型注意力机制在长上下文建模中的效率”),系统即启动端到端流程,涵盖 8 大核心阶段:Idea Scoping、文献发现与合成、实验设计、执行、分析、写作、评审及定稿。

高可信文献检索机制

系统通过 arXiv 和 Semantic Scholar 检索论文,并借助 DataCite 与 CrossRef 进行交叉验证。每条引用需通过四层过滤:arXiv ID 校验、DOI 查找、标题匹配、LLM 相关性打分,彻底剔除幻觉引用,严谨度超越多数人工综述。

自适应实验执行与修复

AI 根据文献生成可运行代码,自动识别硬件环境(NVIDIA CUDA / Apple MPS / CPU),在沙箱中安全执行。代码报错时自动修复;若实验否定初始假设,则主动转向新方向,而非固守单一路径。相较 autoresearch 的参数优化,该阶段扩展至完整实验设计、图表生成与多维指标追踪。

多智能体同行评审与论文生成

实验完成后,多智能体评审模块启动多轮“同行评议”,核查方法论与证据一致性,并输出结构化修订建议。最终生成超 5000 词的完整论文草稿,包含引言、相关工作、方法、实验、结论等标准章节。

数学公式采用 KaTeX 渲染,图表自动绘制,直接适配 ICML、ICLR 或 NeurIPS LaTeX 模板。交付物包括:.tex 源文件、经验证的 BibTeX 引用库、全部实验脚本、沙箱运行日志及评审笔记。支持全无人值守模式(--auto-approve)或分阶段人工审批(默认设于第 5、9、20 阶段)。

(来源:GitHub)

技术底座与持续演进

AutoResearchClaw 构建于两大基础之上:

  • Karpathy 的 autoresearch —— 提供代码级自主迭代微循环;
  • OpenClaw 框架 —— 支持多 Agent 编排与协同。

v0.2 引入 MetaClaw 自进化引擎,从失败案例中提炼可复用技能,实测缩短 40% refine 周期;v0.3 新增速率限制防护、跨平台 API 级联检索(OpenAlex → Semantic Scholar → arXiv)及多 Agent 辩论模块。所有更新均开源,GitHub Issue 区活跃,用户反馈直接驱动版本迭代。

真实案例与工程鲁棒性

测试显示项目具备较强落地能力:

  • 输入“Unity 资产剪枝优化”,系统自动完成文献搜集、代码生成、实验验证,并输出含完整图表的会议级论文;
  • 某次实验失败后,AI 主动修正研究假设,规避 p-hacking 风险。

区别于传统 AI 论文生成工具,AutoResearchClaw 将 autoresearch 的“实验自我迭代”能力真正延伸至科研全链条——从灵感触发、文献调研、实验验证,到成果撰写与投稿准备,实现一体化闭环。

开放、可审查、以人为本

项目强调可追溯性与安全性:所有输出含完整实验脚本与日志,便于人工复核;引用均可溯源;代码沙箱默认隔离。当前尚未全面兼容边缘硬件,但社区适配工作已在推进。官方明确表示,目标不是替代研究人员,而是将“从灵感产生到 arXiv 投稿”的周期压缩至一晚。

截至最新 release,系统已优化多 Agent 辩论逻辑与 LaTeX 导出稳定性。结合 Claude Code 等强编码智能体,端到端成功率超 85%。

项目地址:https://github.com/aiming-lab/AutoResearchClaw

【声明】内容源于网络
0
0
DeepTech深科技
DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
内容 5025
粉丝 0
DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
总阅读41.9k
粉丝0
内容5.0k