大数跨境

一个不会下棋的人,让AI自己把自己优化成了世界前50的棋手

一个不会下棋的人,让AI自己把自己优化成了世界前50的棋手 AIGCLINK
2026-03-23
4
导读:他不会下棋,但他的用AI写的AI国际象棋引擎两天内从业余打到了世界第311名。

Google/Facebook工程师Deedy Das在推特上晒了一件事:

他用AI辅助编程,完全不手写底层代码,从零生成了一个用Rust写的国际象棋引擎。

ELO评分2250,相当于国际象棋大师级。

他自己的感慨是:我以前半竞技地下过棋,没想到现在你可以直接用嘴"说"出一个98百分位水平的国际象棋引擎。完全由AI完成。

两天后的3月22日,他又发了一条:同一个引擎,他套用了一个叫"Autoresearch"的方法,让AI agent自己去优化这个引擎——自动改搜索算法、调评估函数、优化参数。70多轮实验之后,ELO从2250直接拉到了2718,世界排名第311位,跻身前50名特级大师的水平。

整个过程完全无人干预。人做的事情就两件:写一个指令文件告诉AI"往哪个方向优化",然后去睡觉。

两条推文合计拿到了超过4万点赞。但让我觉得值得写一篇长文的,不是国际象棋本身,而是这个"AI优化AI"的方法,正在被快速复制到各种完全不相关的领域


先把Autoresearch讲清楚

"Autoresearch"来自Andrej Karpathy——OpenAI联合创始人、前Tesla AI负责人、"vibe coding"概念的提出者。

他在3月7日开源了这个项目,代码只有630行Python。

方法的核心可以一句话说完:让AI agent在一个循环里不断做小实验,好了就留,差了就撤,然后继续

展开来讲:你给agent一段代码和一个打分标准。agent自己改一个变量,跑5分钟实验,看分数变了没有——升了就保留这次改动,降了就回滚到上一版。然后再改下一个变量,再跑,再看。一晚上能跑100轮。

打个比方:你有一个炒菜的配方,十次里七次好吃、三次翻车。你不是把配方推倒重写,而是每次只改一样东西——多半勺盐、少两秒火候——然后炒十次看结果。好了就留,差了就改回来。重复五十轮之后,十次里九次半都好吃。

Karpathy自己第一次通宵跑了126轮实验,发现了大约20个有效改进,其中一个是他做了二十年研究都没注意到的注意力机制缺陷。这个项目现在拿到了5.1万GitHub星标,Fortune杂志专门把这种方法命名为"Karpathy Loop"。

回到Deedy的国际象棋引擎——他做的就是把这个方法套在自己用AI生成的引擎上。agent自动跑了70多轮,自主发现了哪些搜索策略有效、哪些评估权重需要调整,最终把一个"还不错"的引擎优化成了世界级。


autoresearch正在被用到什么地方?

Karpathy在GitHub上写了一句话:任何你关心的、可以合理高效评估的指标,都可以被autoresearch。

过去两周,已经有一批人在各种完全不同的场景里跑通了这个循环。

著名网络购物平台Shopify的CEO Tobi Lutke把autoresearch指向了一个内部查询扩展模型。一晚上37轮实验之后,一个0.8B参数的小模型在质量上超过了他之前手工调了很久的1.6B大模型。关键原因是:agent不会默认"越大越好",它针对具体硬件找到了最优的架构配置。

  • Claude技能的自动迭代

 一个叫Ole Lehmann的创作者,把autoresearch的逻辑包装成了一个Claude Code skill。使用方式是:你先定义3-6个是/否的质量判断标准(比如"标题有没有包含具体数字?""正文有没有用到陈词滥调?"),然后让agent反复运行你的skill,打分,微调prompt,保留好的改动,撤回差的。他的着陆页文案skill从56%的质量通过率提升到了92%,只跑了4轮,零人工。

  • 营销实验的规模化

广告公司Single Grain的创始人Eric Siu提出了一个数字:传统营销团队一年做20-30次实验就算"数据驱动"了。用autoresearch的逻辑,下一代团队一年可以跑36500次——每天100次,在你睡觉的时候完成。做法是把训练脚本换成着陆页或广告文案,把评估指标换成转化率,agent改变量、测试、保留或回滚,然后循环。他推文的原话说:“Karpathy 的自主人工智能可使您的工作效率提升 701 倍。这是商业的未来。”


  • GPU集群的并行搜索

SkyPilot团队给agent接了16块GPU,8小时提交了910次实验。并行化让agent不再只能"一步步爬山",而是能一次测试多个变量的组合效果,一轮完成原来需要六轮才能做完的工作。


这件事真正改变的是什么?

说到底,autoresearch改变的不是某个具体技术,而是人在工作流中的角色

Karpathy自己的表述最精确:你不再写训练代码了,你写的是一个program.md——一个用自然语言描述"往哪个方向研究"的Markdown文件。你在"编程那个做编程的AI"。

他甚至说vibe coding已经过时了,新的说法叫"agentic engineering":99%的时间你不碰代码,你在编排agent,充当监督者。

翻译成我们更熟悉的语言:你的核心竞争力从"做得好"变成了"定义什么叫好"

Deedy的国际象棋故事证明了天花板——连世界级竞技水平都能靠这个方法达到。Ole Lehmann的故事证明了地板——不会写代码的人也能跑通这个循环。


一点冷水

当然不是什么都能autoresearch。

推特评论区有个用户提出了一个好问题:

Karpathy的原版方法需要快速、廉价、可量化的实验环境——训练一个小模型5分钟就出结果。但如果你优化的是文案质量,每次让LLM来当评委,成本和速度都跟不上,严格来说更接近"refinement loop"而不是真正的autoresearch。

另一个风险是评估标准本身的质量。如果你的checklist不够好,agent会学会"应试"——表面上高分,实际上产出质量没有真正变好。Ole Lehmann自己也承认,超过6个检查项就容易出现agent针对考试而不是真正提升输出的情况。

但这些都是操作层面的限制,不改变根本趋势。根本趋势是:重复性的优化工作正在被agent接管,人的价值集中到了"定义问题"和"设计评估标准"这两件事上。

Karpathy说,下一步是让多个agent并行协作——不是模拟一个博士生,而是模拟一个博士生研究社区。

你还在手动调你的prompt吗?也许该想想,你睡着的8个小时里,agent本来可以跑完多少轮实验。


【声明】内容源于网络
0
0
AIGCLINK
AIGCLINK公众号,致力于让每个想拥抱AI的人都能找到适合自己的AI产品
内容 565
粉丝 0
AIGCLINK AIGCLINK公众号,致力于让每个想拥抱AI的人都能找到适合自己的AI产品
总阅读4.2k
粉丝0
内容565