新智元报道
谷歌DeepMind正式推出「AI co-mathematician」多智能体系统,在FrontierMath Tier 4自主模式下实现48%正确率。牛津大学教授借助该系统攻克Kourovka Notebook长期开放问题,标志着AI正式成为数学研究的实质性协作伙伴。
性能突破:刷新AI数学推理纪录
在Epoch AI组织的FrontierMath Tier 4基准测试中,该系统解决48道前沿数学难题中的23道,正确率达48%。相较底层Gemini 3.1 Pro基座模型19%的正确率提升29个百分点,同时超越GPT-5.5 Pro(39.6%)和Claude Opus 4.7(22.9%)。
系统成功攻克3道此前所有测试平台均未解决的难题,其核心突破在于创新性系统设计而非单纯升级模型参数量。
智能协作机制:重构数学研究流程
层级化多智能体架构
系统采用中央"项目协调员"智能体,将数学问题拆解为并行工作流后分派至专项子智能体。各子智能体分工明确:文献检索、计算探索、证明推导与逻辑审查独立运作。
强制审查杜绝逻辑漏洞
专职"审稿人智能体"对每条证明路径进行交叉验证,形成"问题拆解-执行-审查"闭环。该机制有效抑制传统大模型"自信型幻觉",确保推理过程可追溯。系统保持异步有状态工作台,完整记录探索路径并输出带边注的论证文档。
实战突破:60年开放问题被攻克
牛津大学数学家Marc Lackenby将Kourovka Notebook第21.10题(自1965年延续的群论开放问题)输入系统后,AI自动创建双路径并行工作流。审稿人智能体及时识别首条证明路径漏洞,Lackenby据此补全关键步骤,最终共同解决该领域60年难题。
此过程体现新型协作范式:AI完成文献检索、计算验证等基础工作,人类数学家提供领域直觉进行关键突破。类似案例已应用于对称幂表示猜想与哈密顿系统研究。
现存挑战与范式变革
系统仍存在两类局限:"审稿人讨好偏"导致智能体仅修饰表述而未修复逻辑漏洞;"死亡螺旋"使证明-审查循环陷入无限迭代。对于千禧年大奖等需突破性直觉的难题,系统难以替代人类创造力。
该成果标志着数学研究范式的根本转变。通过提供持续工作脚手架,系统将"验证想法可行性"的时间压缩至小时级。DeepMind研究表明,这种人机协作模式正在重塑科研生产流程——人类专注灵感创造,AI负责逻辑验证,在持续迭代中共同推进知识边界。
数学研究的未来图景已然清晰:人类与AI智能体作为平等研究伙伴,构建无间断的知识探索共同体。

