前Google/Facebook工程师Deedy Das在推特上晒了一件事:
他用AI辅助编程,完全不手写底层代码,从零生成了一个用Rust写的国际象棋引擎。
ELO评分2250,相当于国际象棋大师级。
他自己的感慨是:我以前半竞技地下过棋,没想到现在你可以直接用嘴"说"出一个98百分位水平的国际象棋引擎。完全由AI完成。
两天后的3月22日,他又发了一条:同一个引擎,他套用了一个叫"Autoresearch"的方法,让AI agent自己去优化这个引擎——自动改搜索算法、调评估函数、优化参数。70多轮实验之后,ELO从2250直接拉到了2718,世界排名第311位,跻身前50名特级大师的水平。
整个过程完全无人干预。人做的事情就两件:写一个指令文件告诉AI"往哪个方向优化",然后去睡觉。
两条推文合计拿到了超过4万点赞。但让我觉得值得写一篇长文的,不是国际象棋本身,而是这个"AI优化AI"的方法,正在被快速复制到各种完全不相关的领域。
先把Autoresearch讲清楚
"Autoresearch"来自Andrej Karpathy——OpenAI联合创始人、前Tesla AI负责人、"vibe coding"概念的提出者。
他在3月7日开源了这个项目,代码只有630行Python。
方法的核心可以一句话说完:让AI agent在一个循环里不断做小实验,好了就留,差了就撤,然后继续。
展开来讲:你给agent一段代码和一个打分标准。agent自己改一个变量,跑5分钟实验,看分数变了没有——升了就保留这次改动,降了就回滚到上一版。然后再改下一个变量,再跑,再看。一晚上能跑100轮。
打个比方:你有一个炒菜的配方,十次里七次好吃、三次翻车。你不是把配方推倒重写,而是每次只改一样东西——多半勺盐、少两秒火候——然后炒十次看结果。好了就留,差了就改回来。重复五十轮之后,十次里九次半都好吃。
Karpathy自己第一次通宵跑了126轮实验,发现了大约20个有效改进,其中一个是他做了二十年研究都没注意到的注意力机制缺陷。这个项目现在拿到了5.1万GitHub星标,Fortune杂志专门把这种方法命名为"Karpathy Loop"。
回到Deedy的国际象棋引擎——他做的就是把这个方法套在自己用AI生成的引擎上。agent自动跑了70多轮,自主发现了哪些搜索策略有效、哪些评估权重需要调整,最终把一个"还不错"的引擎优化成了世界级。
autoresearch正在被用到什么地方?
Karpathy在GitHub上写了一句话:任何你关心的、可以合理高效评估的指标,都可以被autoresearch。
过去两周,已经有一批人在各种完全不同的场景里跑通了这个循环。
Shopify CEO的模型优化
著名网络购物平台Shopify的CEO Tobi Lutke把autoresearch指向了一个内部查询扩展模型。一晚上37轮实验之后,一个0.8B参数的小模型在质量上超过了他之前手工调了很久的1.6B大模型。关键原因是:agent不会默认"越大越好",它针对具体硬件找到了最优的架构配置。
Claude技能的自动迭代
一个叫Ole Lehmann的创作者,把autoresearch的逻辑包装成了一个Claude Code skill。使用方式是:你先定义3-6个是/否的质量判断标准(比如"标题有没有包含具体数字?""正文有没有用到陈词滥调?"),然后让agent反复运行你的skill,打分,微调prompt,保留好的改动,撤回差的。他的着陆页文案skill从56%的质量通过率提升到了92%,只跑了4轮,零人工。
营销实验的规模化
广告公司Single Grain的创始人Eric Siu提出了一个数字:传统营销团队一年做20-30次实验就算"数据驱动"了。用autoresearch的逻辑,下一代团队一年可以跑36500次——每天100次,在你睡觉的时候完成。做法是把训练脚本换成着陆页或广告文案,把评估指标换成转化率,agent改变量、测试、保留或回滚,然后循环。他推文的原话说:“Karpathy 的自主人工智能可使您的工作效率提升 701 倍。这是商业的未来。”
GPU集群的并行搜索
SkyPilot团队给agent接了16块GPU,8小时提交了910次实验。并行化让agent不再只能"一步步爬山",而是能一次测试多个变量的组合效果,一轮完成原来需要六轮才能做完的工作。
这件事真正改变的是什么?
说到底,autoresearch改变的不是某个具体技术,而是人在工作流中的角色。
Karpathy自己的表述最精确:你不再写训练代码了,你写的是一个program.md——一个用自然语言描述"往哪个方向研究"的Markdown文件。你在"编程那个做编程的AI"。
他甚至说vibe coding已经过时了,新的说法叫"agentic engineering":99%的时间你不碰代码,你在编排agent,充当监督者。
翻译成我们更熟悉的语言:你的核心竞争力从"做得好"变成了"定义什么叫好"。
Deedy的国际象棋故事证明了天花板——连世界级竞技水平都能靠这个方法达到。Ole Lehmann的故事证明了地板——不会写代码的人也能跑通这个循环。
一点冷水
当然不是什么都能autoresearch。
推特评论区有个用户提出了一个好问题:
Karpathy的原版方法需要快速、廉价、可量化的实验环境——训练一个小模型5分钟就出结果。但如果你优化的是文案质量,每次让LLM来当评委,成本和速度都跟不上,严格来说更接近"refinement loop"而不是真正的autoresearch。
另一个风险是评估标准本身的质量。如果你的checklist不够好,agent会学会"应试"——表面上高分,实际上产出质量没有真正变好。Ole Lehmann自己也承认,超过6个检查项就容易出现agent针对考试而不是真正提升输出的情况。
但这些都是操作层面的限制,不改变根本趋势。根本趋势是:重复性的优化工作正在被agent接管,人的价值集中到了"定义问题"和"设计评估标准"这两件事上。
Karpathy说,下一步是让多个agent并行协作——不是模拟一个博士生,而是模拟一个博士生研究社区。
你还在手动调你的prompt吗?也许该想想,你睡着的8个小时里,agent本来可以跑完多少轮实验。

