阿里推出世界最强的数学模型Qwen2-Math，击败GPT4o、Claude3.5

AI大模型智能体前沿

2024-08-21

导读：上周，阿里通义团队宣布，模型又迎来了一次升级，他们推出了专用于解决数学问题的Qwen2-Math！

点击下方卡片，关注「AI计算机视觉CV深度学习DL」公众号
选择星标，最新技术干货每日准时送达

图像处理|计算机视觉|机器学习|深度学习

前言

上周，阿里通义团队宣布，模型又迎来了一次升级，他们推出了专用于解决数学问题的Qwen2-Math！

转载自丨夕小瑶科技说

作者丨谷雨龙泽

Qwen2-Math模型简介

通义千问的数学模型包括Qwen2-Math 和 Qwen2-Math-Instruct-1.5B/7B/72B。这批模型是一系列基于 Qwen2 LLM 构建的专用数学语言模型，其数学能力明显强于开源模型甚至闭源模型（如 GPT-4o）的数学能力。

根据研发团队的评测，其中量最大的数学模型Qwen2-Math-72B-Instruct登顶全服最强，拳打GPT-4o、Claude-3.5-Sonnet，脚踢Gemini-1.5-Pro和Llama-3.1-405B。

基础模型 Qwen2-Math

Qwen2-Math 的基础模型使用Qwen2-1.5B/7B/72B 进行初始化，然后在团队构建的数学专用数据上进行预训练。数据包含通义千问合成的大规模高质量数学网络内容、数学书籍、代码、试题和数学预训练数据。比如这就是其中一道用来训练的数学题：

好吧，笔者承认，我已经不会做这道题了——当然也不能在几秒钟内回答。

值得注意的是，千问在训练的时候用了自己生产的数学内容。笔者之前报道过，用AI生产的数据训练AI有可能会让AI崩掉。而通义千问完美规避了在这个坏消息，足以说明研发团队在数据选择上费了很多功夫，他们对训练前和训练后的数据集都进行了筛选。

团队使用三个广泛使用的英语数学基准GSM8K（小学数学基准）、Math和MMLU-STEM和三个中国数学基准CMATH、高考数学小题和高考数学大题出了数学试卷考验Qwen2-Math基础模型。从得分上看，通义千问“遥遥领先”。

指令调优模型Qwen2-Math-Instruct

为了优化现有的模型，团队首先训练了一个基于Qwen2-Math-72B 的数学特定奖励模型，然后将密集的奖励信号与一个指示回答问题是否正确的信号相结合。

这个组合后的信号在两个方面发挥了作用：一是作为监督信号，通过拒绝采样（Rejection Sampling）的方式帮助构建用于后续微调（Standard Fine-Tuning，SFT）的数据集；二是在SFT之后，作为强化学习过程中的反馈信号，与群组相对策略优化（Group Relative Policy Optimization，GRPO）算法结合，进一步优化模型的性能。

于是乎，在这一套组合拳之下，升级版模型Qwen2-Math-Instruct就这样水灵灵地出来了。

在评测上，必须给他上上强度！于是除了广泛使用的基准测试（例如 GSM8K 和 Math）外，团队还使用了OlympiadBench（“五三”）、AIME2024（美国数学邀请赛）和 AMC2023（美国数学竞赛）等考试的试题，当然还有最新的2024年高考数学题和中考数学题。