谷歌造出AI数学家，48%碾压全场！牛津教授用它破解60年未解之谜- 大数跨境

新智元

2026-05-10

新智元报道

编辑：犀牛所罗门

谷歌DeepMind正式推出「AI co-mathematician」多智能体系统，在FrontierMath Tier 4自主模式下实现48%正确率。牛津大学教授借助该系统攻克Kourovka Notebook长期开放问题，标志着AI正式成为数学研究的实质性协作伙伴。

性能突破：刷新AI数学推理纪录

在Epoch AI组织的FrontierMath Tier 4基准测试中，该系统解决48道前沿数学难题中的23道，正确率达48%。相较底层Gemini 3.1 Pro基座模型19%的正确率提升29个百分点，同时超越GPT-5.5 Pro（39.6%）和Claude Opus 4.7（22.9%）。

系统成功攻克3道此前所有测试平台均未解决的难题，其核心突破在于创新性系统设计而非单纯升级模型参数量。

系统采用中央"项目协调员"智能体，将数学问题拆解为并行工作流后分派至专项子智能体。各子智能体分工明确：文献检索、计算探索、证明推导与逻辑审查独立运作。

专职"审稿人智能体"对每条证明路径进行交叉验证，形成"问题拆解-执行-审查"闭环。该机制有效抑制传统大模型"自信型幻觉"，确保推理过程可追溯。系统保持异步有状态工作台，完整记录探索路径并输出带边注的论证文档。

牛津大学数学家Marc Lackenby将Kourovka Notebook第21.10题（自1965年延续的群论开放问题）输入系统后，AI自动创建双路径并行工作流。审稿人智能体及时识别首条证明路径漏洞，Lackenby据此补全关键步骤，最终共同解决该领域60年难题。

此过程体现新型协作范式：AI完成文献检索、计算验证等基础工作，人类数学家提供领域直觉进行关键突破。类似案例已应用于对称幂表示猜想与哈密顿系统研究。

系统仍存在两类局限："审稿人讨好偏"导致智能体仅修饰表述而未修复逻辑漏洞；"死亡螺旋"使证明-审查循环陷入无限迭代。对于千禧年大奖等需突破性直觉的难题，系统难以替代人类创造力。

该成果标志着数学研究范式的根本转变。通过提供持续工作脚手架，系统将"验证想法可行性"的时间压缩至小时级。DeepMind研究表明，这种人机协作模式正在重塑科研生产流程——人类专注灵感创造，AI负责逻辑验证，在持续迭代中共同推进知识边界。

数学研究的未来图景已然清晰：人类与AI智能体作为平等研究伙伴，构建无间断的知识探索共同体。

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 16012

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读190.4k

粉丝0

内容16.0k