一个不会下棋的人，让AI自己把自己优化成了世界前50的棋手- 大数跨境

首页

一个不会下棋的人，让AI自己把自己优化成了世界前50的棋手

AIGCLINK

2026-03-23

导读：他不会下棋，但他的用AI写的AI国际象棋引擎两天内从业余打到了世界第311名。

前Google/Facebook工程师Deedy Das在推特上晒了一件事：

他用AI辅助编程，完全不手写底层代码，从零生成了一个用Rust写的国际象棋引擎。

ELO评分2250，相当于国际象棋大师级。

他自己的感慨是：我以前半竞技地下过棋，没想到现在你可以直接用嘴"说"出一个98百分位水平的国际象棋引擎。完全由AI完成。

两天后的3月22日，他又发了一条：同一个引擎，他套用了一个叫"Autoresearch"的方法，让AI agent自己去优化这个引擎——自动改搜索算法、调评估函数、优化参数。70多轮实验之后，ELO从2250直接拉到了2718，世界排名第311位，跻身前50名特级大师的水平。

整个过程完全无人干预。人做的事情就两件：写一个指令文件告诉AI"往哪个方向优化"，然后去睡觉。

两条推文合计拿到了超过4万点赞。但让我觉得值得写一篇长文的，不是国际象棋本身，而是这个"AI优化AI"的方法，正在被快速复制到各种完全不相关的领域。

先把Autoresearch讲清楚

"Autoresearch"来自Andrej Karpathy——OpenAI联合创始人、前Tesla AI负责人、"vibe coding"概念的提出者。

他在3月7日开源了这个项目，代码只有630行Python。

方法的核心可以一句话说完：让AI agent在一个循环里不断做小实验，好了就留，差了就撤，然后继续。

展开来讲：你给agent一段代码和一个打分标准。agent自己改一个变量，跑5分钟实验，看分数变了没有——升了就保留这次改动，降了就回滚到上一版。然后再改下一个变量，再跑，再看。一晚上能跑100轮。

打个比方：你有一个炒菜的配方，十次里七次好吃、三次翻车。你不是把配方推倒重写，而是每次只改一样东西——多半勺盐、少两秒火候——然后炒十次看结果。好了就留，差了就改回来。重复五十轮之后，十次里九次半都好吃。

Karpathy自己第一次通宵跑了126轮实验，发现了大约20个有效改进，其中一个是他做了二十年研究都没注意到的注意力机制缺陷。这个项目现在拿到了5.1万GitHub星标，Fortune杂志专门把这种方法命名为"Karpathy Loop"。

回到Deedy的国际象棋引擎——他做的就是把这个方法套在自己用AI生成的引擎上。agent自动跑了70多轮，自主发现了哪些搜索策略有效、哪些评估权重需要调整，最终把一个"还不错"的引擎优化成了世界级。

autoresearch正在被用到什么地方？

Karpathy在GitHub上写了一句话：任何你关心的、可以合理高效评估的指标，都可以被autoresearch。

过去两周，已经有一批人在各种完全不同的场景里跑通了这个循环。

Shopify CEO的模型优化

著名网络购物平台Shopify的CEO Tobi Lutke把autoresearch指向了一个内部查询扩展模型。一晚上37轮实验之后，一个0.8B参数的小模型在质量上超过了他之前手工调了很久的1.6B大模型。关键原因是：agent不会默认"越大越好"，它针对具体硬件找到了最优的架构配置。

Claude技能的自动迭代

一个叫Ole Lehmann的创作者，把autoresearch的逻辑包装成了一个Claude Code skill。使用方式是：你先定义3-6个是/否的质量判断标准（比如"标题有没有包含具体数字？""正文有没有用到陈词滥调？"），然后让agent反复运行你的skill，打分，微调prompt，保留好的改动，撤回差的。他的着陆页文案skill从56%的质量通过率提升到了92%，只跑了4轮，零人工。

营销实验的规模化

广告公司Single Grain的创始人Eric Siu提出了一个数字：传统营销团队一年做20-30次实验就算"数据驱动"了。用autoresearch的逻辑，下一代团队一年可以跑36500次——每天100次，在你睡觉的时候完成。做法是把训练脚本换成着陆页或广告文案，把评估指标换成转化率，agent改变量、测试、保留或回滚，然后循环。他推文的原话说：“Karpathy 的自主人工智能可使您的工作效率提升 701 倍。这是商业的未来。”