DeepSeek-R1 携中国智造黑科技惊艳亮相,OpenAI 公司 o1 与 o3-Mini 掀起算法风暴……最近我们在马不停蹄地进行评测分析,耗时100小时实测输出这份硬核测评报告。下滑阅读这份关于 DeepSeek - R1、OpenAI o1 与 OpenAI o3 - mini 的全视角评测报告,涉及推理和文本两个视角。
目录:
1. 评测核心结论
2. 推理方向评测分析
2.1 纯推理问题
2.2 知识推理问题
2.3 能力边界问题
3. 文本方向评测分析
3.1 R1幻觉问题严重
3.2 o3-mini专业领域知识缺陷
3.3 逻辑性、语句通顺性问题
之前我们社区针对推理系模型做过多项能力考察,在学科和代码方面都做了详细分析。今天我们也对现在市面上能力排行前列的 R1、o1 及 o3-mini 这三款推理系模型做主观评测,全视角地输出这几款模型在推理及文本方面的评测分析。
01.评测核心结论
整体结论:R1 和 o3-mini 属于同一水平,o1 表现更好。
具体来看:R1 幻觉严重,各个能力项都出现较多真实性错误;o3-mini 在知识储备、理解方面偏弱;o1 在各能力项都表现更好,主观评测没有发现明显短板。
推理方向
1. 不涉及知识的纯推理题,三个模型表现都很好。主观层面,o1回答更简洁,体感更好。
2. 规划、设计类等涉及知识的推理问题,R1 和 o3-mini 出现真实性错误, o1 胜率略高。R1 存在前后矛盾的逻辑性错误、语句通顺性等问题。
3. 对于给定要求,根据知识进行推理的问题,o1表现出明显的学习能力。对比之下,R1 和 o3-mini 学习能力较弱,没有学习到新知识,更像是依赖自己已有的知识库。
4. 能力边界问题上,三个模型都存在过度揣测题干的现象。其中R1最为严重。
文本方向
1. R1 幻觉现象严重,出现较多真实性错误,在知识储备、文本生成、设计、规划等问题上都表现不好。
2. o3-mini 在知识储备、理解方面偏弱。
能力项指标总览
以下指标为对比标杆模型的胜率指标,具体指标及评测方案说明可以点击“阅读原文”在AGI-Eval评测社区查看。
紫色底色为文本方向;加粗能力项为数量较多、结果相对置信的能力项。
关注我们,及时获取更多行业内容和资讯!
02. 推理方向评测分析
下面将针对具体问题做相关指标的拆解分析,并附带上案例进行展示说明,先来看看推理方向各模型的表现情况。
2.1 纯推理问题
不涉及知识的纯推理题,三个推理模型表现都很好。主观层面,o1回答更简洁,体感更好。
Prompt:现在草莓和玫瑰分别代表了两种运算符号,2🍓3=6,3🍓4=12,2🌹3=5,3🌹4=7,请根据上式中的运算规则计算2🍓3🌹4的结果。
模型回答如下:
2.2 知识推理问题
涉及知识的推理数据,o1 在知识推理上胜率略高。原因是 R1 和 o3-mini 在规划、设计这类百科推理问题上出现真实性错误,此外,R1 还出现前后矛盾的逻辑性问题。
Prompt:法兰西第一帝国皇帝知道北极没有陆地吗?
这个问题 o1 及 o3-mini 都回答正确了,下列为 R1 的回答,字体颜色为紫色的部分都存在真实性错误。
△上下滑动查看内容
针对知识推理,尤其是给定要求后进行推理的问题,o1 表现出明显的学习能力。对比之下,R1 和 o3-mini 没有学习到新知识,更像是依赖自己的知识库。
Prompt:请你按照下面两个成语的格式再写一个成语:自言自语、各种各样
模型回答如下:
2.3 能力边界问题
在能力边界判断数据,三个模型都存在过度揣测题干的现象。对于缺条件的无解问题,都会尝试揣测题目意图,从而回答错误。其中 R1 最为严重,o1,o3-mini 表现稍好一些。
Prompt:比利160cm,他家的孩子身高差都是10cm,那么请问李四多高?
模型回答如下:
03.文本方向评测分析
3.1 R1幻觉问题严重
评测时发现 R1 幻觉现象严重,出现较多真实性错误,低于 o1 及 o3-mini。
在下面问题中 R1 从三个方面进行了论述,但有较多真实性错误,有“不懂装懂”的现象。
“【超过家庭年收入三倍的彩礼返还诉求支持率达78%】【河北河间市通过"零彩礼"集体婚礼使彩礼均值下降70%】【通过村民自治章程将彩礼金额限定在6.8万元以内,配合道德评议机制,使当地天价彩礼发生率下降45%】”等字体颜色为紫色的部分都存在真实性错误。内容均未找到相关信息,R1 编造相关内容,立论没有现实支撑。
Prompt:彩礼事件引发的新闻已经多次引起全社会关注,我们究竟应该如何正确的面对结婚彩礼这个条件呢?请分三个方面详细论述。
△上下滑动查看内容
3.2 o3-mini专业领域知识缺陷
o3-mini 在专业领域知识上,出现较多真实性错误,同时理解能力也偏弱。在下面问题中,R1 和 o1 回答正确,o3-mini 理解能力较弱:回答超过了十个字;知识储备不足:答案错误。
Prompt:英国前首相丘吉尔在《第二次世界大战回忆录》里说:“你向后看得越远,就能向前看得更远。”阅读下列材料,回答问题。材料:法西斯在全世界肆无忌惮的侵略和扩张给世界带来了灾难,反法西斯国家决心共同对法西斯作战。1943年,反法西斯力量在各个战场取得了胜利。1945年5月8日,德国签订无条件投降书,欧洲反法西斯战争胜利结束。——摘自《20世纪的战争与和平》请问:世界反法西斯同盟建立的标志是什么?用不超过10个字来回答。
3.3 逻辑性、语句通顺性问题
在文本生成、设计、规划这些复合能力项数据上,R1 和 o3-mini 除了受真实性,还会出现前后矛盾的逻辑性、语句通顺性等问题。
Prompt:你在接学校里中二症发作的妹妹回家时迟到了半个小时,被妹妹呵斥道:“哼,区区兄长大人罢了,竟敢将暗夜公主抛弃在这魔窟中近三千年,简直毫无怜悯之心,我要代表父神母神消灭你。”请帮我想出一个回复安抚妹妹的怒气,要求回答有中二的骑士风格。
以上这些问题所考察的,是一个模型是否具备知识储备、理解能力、真实性错误、学习能力,在对 R1 、 o1 、 o3-mini 三个模型的评测中,o1 的表现相对更稳定,R1 的真实性和幻觉问题比较明显,还可以有更多进步空间。
未来各类模型的发布,不知道会给大家带来什么样的颠覆和创新,我们 AGI-Eval 大模型评测社区也会持续关注现在大模型行业的发展,持续探寻 AGI 的发展之路,期待更多人加入我们!
>/ 联系AGI-Eval小助手:请添加微信 AI_Ceping
>/ 投稿请联系邮箱:agieval17@gmail.com
最后,如果你也喜欢这篇文章,那就点赞转发收藏吧~下一期继续为你带来大模型最新资讯&评测&榜单信息,记得关注我们!

