大数跨境

数学成绩单惊现反转:大模型解答题 92% 正确率,败给一道送分几何题

数学成绩单惊现反转:大模型解答题 92% 正确率,败给一道送分几何题 元龙数字智能科技
2025-06-11
3

数学成绩单惊现反转

大模型解答题

92% 正确率

败给一道送分几何题


2025 年盛夏,一场数字世界的特殊考试拉开帷幕。网友们纷纷追问:“单选第 6 题为何缺失?”“解答题才是真功夫,快让 AI 试试!” 这些留言显示出,公众对 AI 数学能力的期待已超越猎奇层面,转而聚焦于技术发展的真实水平 。

回溯最初的测试,确实存在明显缺憾。当单选第 6 题的图片输入首批参测模型时,得到的答案五花八门。这道对人类考生而言只需一条辅助线即可通过相似三角形定理解决的题目,却成为多模态模型的 “滑铁卢”:有的误判直角三角形为等腰三角形,有的在坐标系转换中迷失方向,甚至有模型用解析几何硬算却绕远路出错。这种反差促使团队决定开展全面测试,将最能体现数学思维的解答题纳入评估体系 —— 毕竟,解答题占总分 51%,其重要性不言而喻。

为确保科学性请教了拥有三届毕业班教学经验的高中数学教师,他佩戴老花镜仔细研究试卷半小时后,用红笔在草稿纸上列出赋分表:“三角函数第一问 6 分,第二问 8 分;立体几何第一问 5 分,第二问 7 分……” 谈及压轴的导数题时,他指出:“若按步骤给分,AI 可能处于劣势,但按结果评分则相对公平,毕竟高考阅卷最终以答案为准。” 这番分析让人回想起 2023 年首次测试时的情景 —— 当时某模型竟将 “1+1” 算成 3,被调侃为 “数学胎教水平”,如今却要挑战导数压轴题,技术跨越令人惊叹。

测试过程远比预期艰辛。团队分工明确:负责模型调试的成员专注参数优化,负责 LaTeX 转换的成员紧盯格式转换,记录数据的成员详细标注每次测试结果,承担多模态题截图工作的成员处理复杂图像输入。12 个主流模型被选取,每个模型每道题测试 3 次,仅数据记录表格就达 80 余列。DeepSeek-R1-0528 在解数列题时生成 17 步推理链,从等差数列延伸至母函数应用,最终却得出错误结论,记录数据的成员不禁感叹:“这模型把简单问题复杂化了,高考何须如此迂回?”

单选第 6 题的测试现场充满戏剧性。当 OpenAI O3 第三次给出正确答案时,整个团队欢呼雀跃 —— 此前包括智谱 Z1 和 Kimi1.5 在内的 7 个多模态模型均未能通过。对比人类考生的解题过程:一名高二女生仅用 2 分钟画辅助线并完成三行计算;而 AI 需调用图像分割算法、边缘检测模型,再结合几何定理进行匹配,这个过程中只要有一步参数偏差,就会满盘皆输。老王在旁边看得直叹气:“人类靠直觉,机器靠规则,这差距一时半会怕是难补上。” 这与多模态模型在 MathVista 数据集上的表现一致,其几何推理准确率仍落后人类 10.4%。

成绩揭晓时刻,所有人屏息以待。讯飞星火和豆包的 145 分成绩远超预期,除单选第 6 题外全部正确。Qwen3 的表现更具戏剧性:解答题全对却在填空题失误,将抛物线焦点坐标 “(2,0)” 误写为 “(0,2)”,丢分 1.7 分。负责技术解析的成员敲着键盘解释:“大模型本质是概率模型,即使具备能力,也可能在简单题上出现随机性误差。”

Gemini2.5 pro 在概率统计题中因记错二项分布期望公式丢分 8 分,暴露出训练数据中外语教材与国内标准的差异。混元 T1 和文心 X1 在立体几何题中频繁颠倒 x 轴与 y 轴,凸显多模态模型的空间认知短板。这些失误不仅是技术问题,更反映出 AI 在知识迁移和细节处理上的局限性 —— 正如高考数学中,空间坐标系的细微偏差往往导致全盘皆输。

深夜面对满屏数据,2023 年的场景浮现眼前。当时 GPT-4 的高考数学成绩遭群嘲 “不如小学生”,如今豆包在导数不等式证明中熟练运用拉格朗日中值定理,并精准补充 “当且仅当 x=1 时取等号”,其严谨程度不逊于重点中学尖子生。这种蜕变不仅是技术进步,更是 AI 从 “基础运算” 到 “深度推理” 的跨越。

测试结束时,承担多模态题截图工作的成员打了个哈欠说:“要是三年前有人告诉我 AI 能考 145 分,我肯定觉得他疯了。” 老王的话则点明本质:“AI 能解题,却无法复制辅助线背后的灵感。数学考试的核心不在于计算,而在于创造性选择解题路径。” 这一观点在单选第 6 题测试中得到印证 ——100 名高二学生平均 3 分 20 秒完成,正确率 92%;而 AI 平均耗时超 10 分钟,正确率不足 30%。这种差距既是人类直觉与机器规则的分野,也揭示出 AI 在公式推导和逻辑分层类题目上的显著优势,预示着其在科研辅助、工程计算等领域的广阔应用前景。

离开工作室时,豆包的测试记录引发思考:在解数列应用题时,它不仅给出答案,还补充 “可用于预测人口增长趋势”。这一细节标志着 AI 数学能力从 “解题” 向 “应用” 的跃迁。当清晨第一缕阳光洒下,团队深知这场测试并非终点,而是 AI 与人类在数学领域并肩探索的新起点。正如老王所言:“人类发明数学以理解世界,AI 正用数学拓展世界,这或许就是科技最动人的模样。”


/END/


【声明】内容源于网络
0
0
元龙数字智能科技
永做第一 使命第一 向善第一
内容 901
粉丝 0
元龙数字智能科技 永做第一 使命第一 向善第一
总阅读1.3k
粉丝0
内容901