AGI-Eval托管UGMathBench：数学推理评估从「浅层解题」迈向「深层理解」



AGI-Eval托管UGMathBench：数学推理评估从「浅层解题」迈向「深层理解」

AGI-Eval大模型评测

2025-06-09

导读：AGI-Eval助力UGMathBench，长期诚邀各位专家学者合作

数学推理能力作为衡量模型智能水平的关键指标，需对其进行全面公平的评估。然而，现有的 GSM8K、MATH 数学基准因覆盖不足和易被数据污染饱受诟病，要么缺乏对本科水平数学问题的广泛覆盖，要么可能受到测试集的污染。

为了填补这些空白，来自香港科技大学的研究团队近日发表在 ICLR 2025的最新研究 UGMathBench——首个针对本科数学的多元化动态评测体系，专为评估 LLM 在本科阶段各类数学主题下的推理能力而设计。它提供了动态多样的评估工具，首次将数学推理评测带入「动态污染防控」时代，标志着 LLMs 数学推理评估从“浅层解题”迈向“深层理解”。

论文地址：https://arxiv.org/pdf/2501.13766

该基准测试已经与 AGI-Eval 大模型评测社区达成合作，可至社区查看 UGMathBench 的所有子集！

01.UGMathBench 与现有基准的区别

1.1 数据集深度

数学推理对于评估 LLM 的基本推理能力越来越重要，随着现代 LLM 变得越来越强大，已有的基准测试对最新的 LLM 缺乏足够的挑战。在该领域现有数据集如 GSM8K（小学）、MATH（竞赛），大多聚焦中小学或竞赛数学，已逐渐被 LLM “攻克”，缺乏本科 level 的深度与广度。

UGMathBench 包含更广泛的主题、答案类型和测试示例，还有几个跨模态数学相关的数据集，以填补本科数学评估的空白。与常用数学基准相比，UGMathBench 被证明更具挑战性。例如，OpenAI-o1-mini 在 MATH 上达到了94.8%的准确率，相比之下在 UGMathBench 上只达到了 56.3%。大多数开源 LLM（包括大多数专业的数学模型），在 UGMathBench 中都难以达到 30% 的 EAcc。

1.2 测试集污染

由于预训练数据通常从网上抓取大型语料库，任何静态基准都有数据污染的“记忆风险”—— 模型可能通过训练数据接触过测试题。数学推理的基准测试数据出现在新模型的训练集中，通过人为夸大性能，严重挑战公平的 LLM 评估。

为了缓解这种情况，最近的基准测试有两种解决方案：

一是维护私有测试集，要求希望评估其模型的人在排行榜发布结果之前提交预测以供集中处理，但这个过程可能效率低下，并且缺乏错误分析的透明度。其二是发布定期更新的动态基准。 UGMathBench 就是一个动态基准测试，通过设置不同的随机种子来为变量提供不同的采样值。

总之，UGMathBench 与其他数学基准的核心区别在于现有基准如 GSM8K（小学）、MATH（竞赛）层次较低，为静态基准，有数据污染的风险；UGMathBench 专注于本科数学推理，用动态随机化题目检测模型真实推理能力，其创新指标 EAcc 和 Δ 可有效衡量模型对变量扰动的真实推理能力，避免测试集污染。

2.UGMathBench 的设计

UGMathBench 的构建是从在线作业评分系统中精心收集、整理和格式化本科水平的数学问题，核心优势体现在其全面性与动态性。

2.1 核心亮点

超全学科覆盖：UGMathBench 涵盖本科阶段数学的 16 个核心学科领域，包括单变量微积分、多变量微积分、微分方程、概率等，从而有111 个细分主题及 583 个子主题，包含 5062 个问题。

答案类型多元：分为 8 种原子答案类型和 2 种复合答案类型，答案类型范围从原子类型（例如，数值、表达式）到复合类型（例如，有序或无序列表中的多个答案），使 UGMathBench 与许多其他主要关注具有原子类型的单个答案的数学相关基准区分开来。

动态评估体系：每个问题包括 3 个随机版本，未来计划随模型性能提升而增加版本数。通过变量扰动（如系数、边界条件变化）创建多版本试题，确保模型依靠推理，进而真正理解阶梯逻辑，而非依靠记忆生成答案。

2.2 关键指标

平均准确率（Acc）：的准确率定义为模型在版本题集上的平均准确率，来评估该版本的平均性能。

鲁棒效率（RE）：Δ与EAcc的比值，表示为 RE=Δ/EAcc，反映推理差距的相对大小。

传统准确率（Acc）难以揭示模型在问题变体中的稳定性。UGMathBench 引入两项创新指标：

平均准确率（AAcc）：定义为所有 Acc 的平均值，

有效准确率（EAcc）：衡量模型在所有随机化版本中均能正确解决问题的比例，量化真实推理。

公式：

若模型仅靠记忆特定数值，EAcc 会显著低于单一版本准确率。

推理差距（Δ）：计算平均准确率与有效准确率的差值。

公式：Δ=AAcc−EAcc，衡量模型在面对问题变体时的推理鲁棒性，用来评估推理的稳健性，Δ＝0表示完美鲁棒性。

3.UGMathBench 的评估

研究团队对 OpenAI、Meta、Anthropic 等机构的23 个 LLMs进行了全面测试，结果揭示当前模型的短板。参测模型共23个，含 4 个闭源模型（如 OpenAI-o1-mini、GPT-4o）和 19 个开源模型（如 LLaMA-3、Qwen2-Math）。

△UGMathBench 上的主要结果（所有数字均以 % 为单位）。模型根据其用途和来源分为三类。每列中的最佳结果以粗体显示，类似参数大小组中开源 Chat LLM 的最佳结果以下划线显示。

3.1 推理的不稳定性

所有模型 Δ>10%，鲁棒效率最高达 196.6%（DeepSeek-MOE-16B-Chat），当前模型对变量扰动敏感，在问题变体上的推理一致性不足。所有 LLM 在 UGMathBench 上都表现出极高的鲁棒效率，值从 20.78% 到 196.6% 不等。在鲁棒效率最低的 5 款车型中，其中 3 款来自 OpenAI （OpenAI-o1-mini：20.78%；GPT-4o：20.89%；Mistral-Large-Instruct：24.36%；Qwen2-Math-72B-Instruct：24.39%；GPT-4o-mini：27.87%）。这些结果指出了当前 LLM 的局限性，并敦促我们开发具有高有效准确率和 Δ=0 的 “大型推理模型”。

3.2 闭源与开源差距

在经研究团队测试推出的榜单中，前 5 名有 4 个为闭源模型，OpenAI-o1-mini 在平均准确率、i=1,2,3 和有效准确率中取得了最佳结果，有效准确率仅为56.3%，且 Δ 为 11.7%，表明其在约 1/5 的问题变体中出错。

开源模型中， Qwen2-Math-72B-Instruct 表现最佳，有效准确率达到 45.85% ，接近 GPT-4o。然而，其仍与闭源模型存在显著差距，与 OpenAI-o1-mini 相比，它的平均准确率降低了 10.97%，有效准确率降低了 10.45%。此外，超过一半的开源模型（19 个中的 10 个）的有效准确率小于 20%。

3.3 学科表现分化

算数、代数等基础学科：LLM 在算术问题方面很有效，有效准确率达到 62.8%，模型表现相对较好。在代数上达到了58.3%。LLM 还擅长组合学和复分析（超过 30% 的平均有效准确率）。

抽象代数、微分方程和金融数学：平均有效准确率不到 10%，抽象代数仅约 5%，凸显高阶概念推理的不足。这些领域需深度逻辑推导与领域知识整合，现有 LLMs 缺乏足够训练数据与结构化推理能力。

3.4 误差类型分析

计算错误：（如数值积分误差、矩阵运算错误）占比最高，反映模型在符号运算中的不稳定性。

推理不一致：同一问题的不同版本中，模型可能给出矛盾答案，其依赖表面特征而非深层逻辑。

UGMathBench 是一个多样且动态的基准测试，它的发布旨在全面评估 LLMs 在本科生水平的数学推理能力，不仅提供了评估工具，还指明了研究方向。UGMathBench 仅支持文本问题，当前的 LLMs 在这一领域仍有很大的改进空间。

4.未来展望

UGMathBench 未来预计开发多模态版本，支持多语言数学问题评估，以及更多学科的问题数量，以更贴近真实学术场景。开发“大型推理模型”，目标是实现高有效准确率（EAcc 接近 100%）和 Δ→0 的模型，探索模型自适应训练以缩小推理差距，提升推理稳定性。优化评估代码，结合更优的提示策略和模型架构改进，持续更新数据集以提升质量。

UGMathBench 基准既是一面镜子，映照出当前 AI 的能力边界，更如一把钥匙，开启通往更具鲁棒性、可解释性 AI 的大门。

UGMathBench 已开源评估代码和数据集，期待学界利用这一工具，推动 LLMs 从“文字游戏”走向“真正的数学理解”！

🔗GitHub：

https://github.com/YangLabHKUST/UGMathBench

🔗论文地址：

https://arxiv.org/pdf/2501.13766

🔗UGMathBench 评测集地址：

https://agi-eval.cn/evaluation/detail?id=61

5.合作邀约

AGI—Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区，旨在打造公正、可信、科学、全面的评测生态，以“评测助力，让AI成为人类更好的伙伴”为使命，专门设计用于评估基础模型在人类认知和问题解决相关任务中的一般能力。

合作方式：

数据托管：论文作者将评测集授权托管给 AGI - Eval 大模型评测社区，新模型出现后，社区实时更新评测结果，论文作者可免去评测成本烦恼，与 AGI - Eval 一起共建开源社区。
双向引流：提供GitHub可附的公开、独立网站链接，支持论文用户、评测社区用户双向访问。

我们热忱欢迎更多的论文作者加入 AGI - Eval 大家庭！无论您专注于多模态理解评测能力建设、自动化评测方法，还是评测数据集自动更新研究，亦或是其他 AI 关键领域；无论您是初出茅庐、满怀热忱的新锐学者，还是经验丰富、硕果累累的资深专家……在这里，都有一片属于您的创新沃土。

真正的智能不应是考试机器，而是能理解人类思维的协作者。携手 AGI - Eval 大模型评测社区，共同破解“模型看似合理，实则偏离人类思维”的黑箱谜题，用科学标尺丈量 AI 的“人类化”进程，一起为 AI 的未来添砖加瓦！

👉 合作渠道：

合作咨询：AGI-Eval小助手【微信号：AGI-Eval001】

合作邮箱：agieval17@gmail.com

最后，如果你也喜欢这篇文章，那就点赞转发收藏吧~下一期继续为你带来使用干货，别忘了关注我们！

— 完 —

>/ 联系AGI-Eval小助手：请添加微信 AGI-Eval001

>/ 投稿请联系邮箱：agieval17@gmail.com

一键关注👇 点亮AGI-Eval 前沿进展随时看

往期回顾

1.【AGI-Eval评测报告】深度拆解Qwen3，刷榜之外，更需构建全面评测新体系

2.【AGI-Eval评测报告 NO.2】DeepSeek V3-0324抢先评测！最全报告输出

3.【AGI-Eval评测报告 NO.3】第一手实测GPT-4o文生图能力！最权威报告输出

同时也期待大家参与我们社群，一起探寻 AGI 的更多可能性，

发现更多不一样的视角，提出问题才有机会解决问题。

点击“阅读原文”可跳转至官网玩耍~

未经「AGI-Eval大模型评测」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AGI-Eval大模型评测」后台留言取得授权，转载时需标注来源并

插入本公众号名片。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法

【声明】内容源于网络

AGI-Eval大模型评测

AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区，旨在打造公正、可信、科学、全面的评测生态以“评测助力，让AI成为人类更好的伙伴"为使命。

内容 62

粉丝 0

AGI-Eval大模型评测 AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区，旨在打造公正、可信、科学、全面的评测生态以“评测助力，让AI成为人类更好的伙伴"为使命。

总阅读60

粉丝0

内容62