11月30日,2025年全国中学生数学奥林匹克竞赛(Chinese Mathematical Olympiad,以下简称CMO)决赛结果出炉,700余名参赛选手参赛,共223人获得金牌,其中60人入选国家集训队。今年,CMO首设AI测试,共邀请三家大模型参与,与人类选手在相同时长内完成答题,并由官方组织以相同标准进行阅卷评分。其中,书生科学多模态大模型(Intern-S1-20251122)以102分(满分126分),位列大模型得分榜第一名,远超金牌线78分和国家集训队入选线87分。
阅卷专家评价Intern-S1:“答案表达方式非常接近人类”,其中对第四题的解答是“一个新的解法,巧妙的调整法,在学生的解法中没有见过”——这标志着Intern-S1不仅在表达逻辑的严谨性和推理能力方面达到专业级水准,还能突破人类解题思路局限,通过自主探索和分析找到新的解题方法,为进一步赋能科学发现夯实技术基础。
作为本次AI大模型数学顾问的第50届IMO金牌选手郑凡感慨:“未来,希望大模型能成为一名真正的‘研究伙伴’,携手探索数学,乃至更广阔科学边疆。”
Intern-S1推理能力大幅升级的背后,是上海人工智能实验室(上海AI实验室)基于“通专融合”技术架构SAGE(Synergistic Architecture for Generalized Expertise,中文含义为智者),通过多项创新实现了通用模型的超长程严谨推理。
未来,上海AI实验室计划将Intern-S1的长程推理能力拓展应用于物理、化学、生命科学等基础科研领域,通过与专业工具的打通与融合,实现从“长时间独立思考”向“长时间独立科研”转变,进而加速各领域科研范式的根本性变革,为重大科学突破提供关键支撑,赋能未来的科学发现进程。
创新点及技术报告链接:
以数学引理为核心的多轮分层推理机制,通过通用推理模型和专业校验模型分工协作实现分阶段推理校验和探索,https://huggingface.co/papers/2512.10739
基于结果的过程校验模型,显著提升了模型在超长程思考和证明时的严谨性,https://huggingface.co/papers/2512.10756
通用模型结合专业符号引擎,让通用模型掌握像人类科学家一样逐步推导、探索和修正的思路,https://huggingface.co/papers/2512.10534
Intern-S1体验链接:https://chat.intern-ai.org.cn/
AI“考生”首登数学奥赛考场,解题展现新思路
CMO是中国最高规格的高中生数学奥林匹克竞赛,其题目难度往往不亚于国际数学奥林匹克竞赛(IMO)。今年,主办方首次设置了赛题AI测试,要求AI在与人类选手相同的比赛时长内完成和提交结果,并交由相同的评委专家组进行阅卷打分,以保证公平性和严谨性。
“CMO竞赛不仅要求结果正确,更看重解题过程的连贯性、推理的严密性以及数学结构的深刻理解——这些恰恰是通用模型的薄弱环节。”郑凡亦坦言,刚收到研发团队邀请时信心不足。“通用对话模型有时能给出正确的答案,但推导过程常常缺乏严谨的逻辑链条,尤其是在需要深度推理、多步骤分析和严格数学证明的场合,它们往往表现得不够稳定。要让一个依赖模式匹配和概率生成的系统达到人类顶尖数学选手的思维层次,希望相当渺茫。”
中国人民大学附属中学教师,“数之谜”创始人,奥数金牌教练张端阳在带学生之余,也成为了AI训练的“顾问”。在接触之初他对大模型的印象还停留在只能解答数学高考题的水平。据介绍,CMO试题覆盖代数、几何、数论、组合四个板块,试题往往具有条件隐蔽、逻辑链条长、需跨知识点整合等特点,需要答题者对数学概念有深刻理解,并能创造性地进行应用。“想获得好名次,四个板块不能有短板,而且要有板块比较突出。”
CMO的题目均为高难度证明题,需要模型具备严谨的复杂推理能力。但当前大部分模型均聚焦于通过强化学习技术解决结果可校验的解答题,在证明题领域能力薄弱;且高难度数学问题的推理复杂度,已超出模型单次推理的可探索范畴。
以第四题为例:有30种颜色的纸牌,每种颜色的纸牌均有70张。开始时从这些纸牌中任意选取70张,并从上至下摆成一叠。接着进行如下操作:从最下方20张纸牌中选择一张纸牌 X,满足其颜色在最上方50张纸牌中从未出现;再从最上方50张纸牌中选择一张纸牌Y,满足其颜色在最上方50张纸牌中至少出现两次;从这叠纸牌中抽出X并将其紧贴着Y的上方放回这叠纸牌中。称上述过程为一次操作。重复上述操作直至无法选取这样的纸牌X时,整个操作过程结束。
(1)证明:对所有可能的初始情况及操作方式,整个操作过程都会在有限次操作后结束;
(2)在所有可能的初始情况及操作方式中,求操作次数的最大可能值。
“考生”Intern-S1在规定时长内不仅得出了正确的结论,还展示了清晰的回答思路。
评委认为上述解题思路提供了“一个新的解法,巧妙的调整法,结合了几种观察到的东西。在学生的解法中没有见过”——这一例证,展示出Intern-S1具备了理解复杂概念、进行创造性推理和发现精妙解法的能力,并在表达逻辑的严谨性能方面,通过了阅卷专家的严苛考核。
根据中国数学会出具的结果简报,Intern-S1在本次竞赛中,4道题目全对分别获21分,2道题目由于“未证明最优性”“部分不严格”得9分,取得总分102分的好成绩,位列AI大模型得分榜第一名。
Intern-S1于今年7月发布以来,在多个领域专业评测集组成的科学能力评测中取得良好表现,并在化学、材料、地球等多学科专业任务基准上超越了顶尖闭源模型Grok-4。此次Intern-S1在CMO 2025以高分摘金并领跑AI大模型得分榜,体现其不仅在表达逻辑的严谨性和推理能力方面达到专业级水准,还能突破人类解题思路局限,通过自主探索和分析找到新的解题方法。
多项创新机制,让通用模型快速达到数学专家水平
Intern-S1在CMO的表现,让张端阳惊讶于AI发展的速度之快:“就像10年前的围棋一样,突破可能就是一刹那。高质量的语料和高水平科研人员的投入加快了这一天的到来。”
“Intern-S1与顶尖人类选手同台竞技而不落下风,彻底改变了我对当前大模型数学能力上限的看法,也印证了训练路径的可行性。”郑凡感慨道。
Intern-S1的表达逻辑与推理能力大幅提升,得益于AI与数学研究者的共同努力。
基于实验室提出的通专融合技术架构SAGE,Intern-S1模型重点突破了技术框架中融合协同层的技术,成功实现超长程严谨推理,为通专融合模型进一步解决更高难度的科学研究问题提供了可行的技术基础。
通专融合技术架构SAGE
创新点一:以数学引理为核心的多轮分层推理机制,通过通用推理模型和专业校验模型分工协作实现分阶段推理校验和探索。
高难度数学问题所需的推理复杂度远超大模型在单次推理过程中所能探索的范围。对此,科研人员提出了多轮分层推理机制,基于通用推理模型和专业校验模型构建了具备推理、总结和验证智能体的多智能体系统,通过多模型分工协作实现了分阶段推理和探索。同时提出了以数学引理为核心的紧凑记忆形式,将复杂推理过程拆解为可复用、可积累的引理模块,让模型的思考推理过程不再受限于单次上下文长度,因而能够探索和发现更多的数学性质,并基于观察提出一些人类没有发现过的解决思路,为通专模型进一步解决更高难度的科学研究问题提供了基础解决方案。
创新点二:基于结果的过程校验模型,显著提升了模型在超长程思考和证明时的严谨性。
基于形式化语言的专业数学证明模型(例如谷歌AlphaProof)泛化性差,训练推理效率低,但是能保证推理过程的绝对严谨性;采用自然语言推理的通用模型泛化性强,数据效率高,但难以保证推理过程严谨性,尤其是高难度数学问题的超长程推理更是加剧了这一挑战。
针对这一矛盾,科研人员创新性地提出了基于结果的过程校验模型,对通用模型针对高难度问题的思考结果进行高密度监督,以提升监督效率,并推出了具有高精度的数学证明校验模型,解决了超长程推理的校验难题,显著提升了模型在超长程思考和证明时的严谨性。
该创新使得通专融合模型在CMO/IMO级难题中,能产生“表达方式非常接近人类”的解答,最终通过阅卷专家严苛的阅卷标准,为通专模型进一步服务于广大数理研究者奠定基础。
创新点三:通用模型结合专业符号引擎,让通用模型掌握像人类科学家一样逐步推导、探索和修正的思路。
上海人工智能实验室主任、首席科学家周伯文教授提出AGI for Science的六个前沿问题,其中提及,未来的AI for Science应当迈向AGI for Science,这不仅意味着能力需从狭义AI提升至AGI(通用人工智能),也意味着我们需要从纯粹依赖自然语言,走向自然语言与符号语言等多种表示形式的融合。
实验室科研团队进而提出了通用模型结合专业符号引擎的全新技术路线,并应用于解决数学几何证明问题,解决了当前大模型面临的需要不断尝试可行的几何构造和定理,搜索空间大,推理步骤长等瓶颈。科研人员通过动态记忆机制突破了通用模型与符号引擎超200次的超长程交互,让通用模型能像人类科学家一样逐步推导、探索、和修正思路,弥补了专业模型在几何启发式思维上的短板。
区别于谷歌AlphaGeometry2所采用的专业模型思路,上海AI实验室的研发团队引入了复杂度递增强化学习技术,仅需不到万分之一的训练样本就超越AlphaGeometry2,解决了专业模型路线由于缺乏泛化性导致的依赖超大规模数据合成与搜索的问题。这一技术路线有较高的泛化潜力,目前各个科学领域都积累了许多专业工具和计算引擎,几何证明上的突破说明,通用模型结合领域专业工具这一路线提供了快速达到领域专家水平的能力,从而赋能科学研究问题的技术可行性。

