大数跨境

谷歌造出AI数学家,48%碾压全场!牛津教授用它破解60年未解之谜

谷歌造出AI数学家,48%碾压全场!牛津教授用它破解60年未解之谜 新智元
2026-05-10
1

新智元报道

编辑:犀牛 所罗门

谷歌DeepMind正式推出「AI co-mathematician」多智能体系统,在FrontierMath Tier 4自主模式下实现48%正确率。牛津大学教授借助该系统攻克Kourovka Notebook长期开放问题,标志着AI正式成为数学研究的实质性协作伙伴。

性能突破:刷新AI数学推理纪录

在Epoch AI组织的FrontierMath Tier 4基准测试中,该系统解决48道前沿数学难题中的23道,正确率达48%。相较底层Gemini 3.1 Pro基座模型19%的正确率提升29个百分点,同时超越GPT-5.5 Pro(39.6%)和Claude Opus 4.7(22.9%)。

系统成功攻克3道此前所有测试平台均未解决的难题,其核心突破在于创新性系统设计而非单纯升级模型参数量。

智能协作机制:重构数学研究流程

层级化多智能体架构

系统采用中央"项目协调员"智能体,将数学问题拆解为并行工作流后分派至专项子智能体。各子智能体分工明确:文献检索、计算探索、证明推导与逻辑审查独立运作。

强制审查杜绝逻辑漏洞

专职"审稿人智能体"对每条证明路径进行交叉验证,形成"问题拆解-执行-审查"闭环。该机制有效抑制传统大模型"自信型幻觉",确保推理过程可追溯。系统保持异步有状态工作台,完整记录探索路径并输出带边注的论证文档。

实战突破:60年开放问题被攻克

牛津大学数学家Marc Lackenby将Kourovka Notebook第21.10题(自1965年延续的群论开放问题)输入系统后,AI自动创建双路径并行工作流。审稿人智能体及时识别首条证明路径漏洞,Lackenby据此补全关键步骤,最终共同解决该领域60年难题。

此过程体现新型协作范式:AI完成文献检索、计算验证等基础工作,人类数学家提供领域直觉进行关键突破。类似案例已应用于对称幂表示猜想与哈密顿系统研究。

现存挑战与范式变革

系统仍存在两类局限:"审稿人讨好偏"导致智能体仅修饰表述而未修复逻辑漏洞;"死亡螺旋"使证明-审查循环陷入无限迭代。对于千禧年大奖等需突破性直觉的难题,系统难以替代人类创造力。

该成果标志着数学研究范式的根本转变。通过提供持续工作脚手架,系统将"验证想法可行性"的时间压缩至小时级。DeepMind研究表明,这种人机协作模式正在重塑科研生产流程——人类专注灵感创造,AI负责逻辑验证,在持续迭代中共同推进知识边界。

数学研究的未来图景已然清晰:人类与AI智能体作为平等研究伙伴,构建无间断的知识探索共同体。

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 16012
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读190.4k
粉丝0
内容16.0k