AlphaEvolve 使用大型语言模型来寻找超越数据中心管理、芯片设计等领域最佳人造解决方案的新算法。

谷歌 DeepMind 再次运用大型语言模型,探索数学和计算机科学领域长期存在的问题的新解决方案。这一次,该公司证明了其方法不仅可以解决尚未解决的理论难题,还能改进一系列重要的现实世界流程。
Google DeepMind 的新工具 AlphaEvolve 使用 Gemini 2.0 系列大型语言模型 (LLM) 为各种不同的任务生成代码。众所周知,LLM在编码方面表现不稳定。AlphaEvolve 的独特之处在于,它会对 Gemini 的每条建议进行评分,不断剔除不好的,调整好的,这个过程会不断迭代,直到生成最佳算法。在许多情况下,其结果比现有的最佳(人工编写的)解决方案更高效或更准确。
“你可以把它看作是一种超级编码 Agent,”谷歌 DeepMind 副总裁、AI for Science 团队负责人 Pushmeet Kohli 说道。“它不仅仅是提出一段代码或进行一次编辑,它实际上会生成一个可能无人知晓的结果。”
尤其是 AlphaEvolve,它提出了一种改进谷歌用于向其遍布全球数百万台服务器分配任务的软件的方法。谷歌 DeepMind 声称,该公司已在其所有数据中心使用这款新软件一年多,释放了谷歌 0.7% 的总计算资源。这听起来可能不多,但以谷歌的规模来看,这可谓是巨大的进步。
英国华威大学数学家雅各布·穆斯鲍尔对此印象深刻。他表示,AlphaEvolve 寻找能够产生特定解决方案的算法(而非寻找解决方案本身)的方式使其格外强大。“这使得该方法适用于各种各样的问题,”他说道。“人工智能正在成为数学和计算机科学领域不可或缺的工具。”
AlphaEvolve 延续了谷歌 DeepMind 多年来一直致力于的研究方向。其愿景是让人工智能助力人类在数学和科学领域的知识进步。2022 年,谷歌开发了 AlphaTensor 模型,该模型找到了一种更快的矩阵乘法求解方法——这是计算机科学中的一个基本问题——打破了保持了 50 多年的纪录。2023 年,谷歌发布了 AlphaDev 模型,它找到了更快的方法来执行计算机每天执行数万亿次的基本计算。AlphaTensor 和 AlphaDev 都将数学问题转化为一种游戏,然后寻找一系列制胜的策略。
2023年末推出的FunSearch,用能够生成代码的LLM取代了游戏AI。由于LLM可以执行一系列任务,FunSearch可以解决比其前辈更广泛的问题,而前辈们只接受过单一类型游戏的训练。该工具曾被用于破解纯数学中一个著名的未解难题。
AlphaEvolve 是 FunSearch 的下一代版本。它不像 FunSearch 那样,只能用一小段代码来解决特定问题,而是可以生成数百行代码的程序。这使得它能够应用于更广泛的问题。
理论上,AlphaEvolve 可以应用于任何可以用代码描述且有可由计算机评估的解决方案的问题。“算法运行着我们周围的世界,因此其影响是巨大的,”领导算法探索团队的谷歌 DeepMind 研究员 Matej Balog 说道。
适者生存
它的工作原理如下:AlphaEvolve 可以像任何 LLM 一样进行提示。输入问题描述以及任何你想要的额外提示,例如先前的解决方案,AlphaEvolve 就会使用 Gemini 2.0 Flash(谷歌 DeepMind 旗舰 LLM 最小、最快的版本)生成多个代码块来解决问题。
然后,它会获取这些候选解决方案,运行它们以评估其准确性和效率,并根据一系列相关指标进行评分。这些代码是否产生了正确的结果?它的运行速度是否比之前的解决方案更快?等等。
然后,AlphaEvolve 从当前一批解决方案中选取最佳方案,并请求 Gemini 进行改进。有时,AlphaEvolve 会将之前的解决方案重新加入,以防止 Gemini 陷入死胡同。
当遇到瓶颈时,AlphaEvolve 还可以调用 Gemini 2.0 Pro,这是谷歌 DeepMind 最强大的法学硕士 (LLM)。其理念是先用速度更快的 Flash 生成大量解决方案,然后在需要时从速度较慢的 Pro 中添加解决方案。
这些生成、计分和再生的循环一直持续,直到双子座无法想出比已有的更好的东西为止。
数字游戏
该团队在一系列不同的问题上测试了 AlphaEvolve。例如,他们再次研究了矩阵乘法,以比较像 AlphaEvolve 这样的通用工具与专用 AlphaTensor 的性能。矩阵是数字的网格。矩阵乘法是一项基本计算,支撑着从人工智能到计算机图形学等许多应用,但没有人知道最快的计算方法。“这仍然是一个悬而未决的问题,这有点令人难以置信,”Balog 说。
该团队向 AlphaEvolve 提供了问题描述以及一个标准算法示例。该工具不仅生成了新的算法,能够比任何现有方法更快地计算 14 种不同大小的矩阵,还改进了 AlphaTensor 打破两个 4×4 矩阵相乘记录的结果。
AlphaEvolve 对 Gemini 建议的 16,000 个候选集进行了评分,最终找到了最终解决方案,但 Balog 表示,AlphaEvolve 的效率仍然高于 AlphaTensor。AlphaTensor 的解决方案也仅在矩阵由 0 和 1 填充时有效。AlphaEvolve 也能解决其他数字的问题。
奥地利林茨约翰内斯开普勒大学的数学家 Manuel Kauers 对此表示赞同:“矩阵的改进可能具有实际意义。”
巧合的是,考尔斯和一位同事刚刚使用了另一种计算技术,发现了 AlphaEvolve 的一些加速效果。两人上周在网上发表了一篇论文,报告了他们的研究成果。
“很高兴看到我们对矩阵乘法的理解不断进步,”考尔斯说道,“每一项有用的技术都是对这项工作的宝贵贡献。”
现实世界的问题
矩阵乘法只是其中一项突破。谷歌 DeepMind 总共用 AlphaEvolve 测试了 50 多个不同类型的知名数学难题,包括傅里叶分析问题(数据压缩背后的数学原理,对视频流等应用至关重要)、最小重叠问题(数学家保罗·埃尔德什于 1955 年提出的数论开放问题)以及接吻数(艾萨克·牛顿提出的一个问题,在材料科学、化学和密码学领域都有应用)。AlphaEvolve 在 75% 的案例中匹配到了现有的最佳解决方案,并在 20% 的案例中找到了更优的解决方案。
随后,谷歌 DeepMind 将 AlphaEvolve 应用于一些实际问题。除了提出一种更高效的跨数据中心计算资源管理算法外,该工具还找到了降低谷歌专用张量处理单元芯片功耗的方法。
AlphaEvolve 甚至找到了一种加速 Gemini 本身训练的方法,即通过生成一种更有效的算法来管理训练过程中使用的某种类型的计算。
Google DeepMind 计划继续探索其工具的潜在应用。AlphaEvolve 的一个局限性在于,它无法用于需要人工评分的解题,例如需要解释的实验室实验。
穆斯鲍尔还指出,虽然 AlphaEvolve 可能在一系列问题上取得令人印象深刻的新成果,但它却很少提供关于其如何得出这些解决方案的理论见解。这对于提升人类理解力来说是一个缺陷。
即便如此,像 AlphaEvolve 这样的工具注定会改变研究人员的工作方式。“我认为我们还没有完成,”Kohli 说。“就这种方法的威力而言,我们还有很长的路要走。”
免责声明:
关注我们,一起探索AWM!
近期热点
2025-05-08
2025-05-06
2025-05-06




