【AGI-Eval评测报告 NO.5】主观评测 R1 vs o1 vs o3-mini，全视角报告输出



【AGI-Eval评测报告 NO.5】主观评测 R1 vs o1 vs o3-mini，全视角报告输出

AGI-Eval大模型评测

2025-04-09

导读：R1 幻觉严重，各个能力项都出现较多真实性错误；o3-mini 在知识储备、理解方面偏弱；o1 在各能力项都表现更好。

DeepSeek-R1 携中国智造黑科技惊艳亮相，OpenAI 公司 o1 与 o3-Mini 掀起算法风暴……最近我们在马不停蹄地进行评测分析，耗时100小时实测输出这份硬核测评报告。下滑阅读这份关于 DeepSeek - R1、OpenAI o1 与 OpenAI o3 - mini 的全视角评测报告，涉及推理和文本两个视角。

1. 评测核心结论

2. 推理方向评测分析

2.1 纯推理问题

2.2 知识推理问题

2.3 能力边界问题

3. 文本方向评测分析

3.1 R1幻觉问题严重

3.2 o3-mini专业领域知识缺陷

3.3 逻辑性、语句通顺性问题

之前我们社区针对推理系模型做过多项能力考察，在学科和代码方面都做了详细分析。今天我们也对现在市面上能力排行前列的 R1、o1 及 o3-mini 这三款推理系模型做主观评测，全视角地输出这几款模型在推理及文本方面的评测分析。

01.评测核心结论

整体结论：R1 和 o3-mini 属于同一水平，o1 表现更好。

具体来看：R1 幻觉严重，各个能力项都出现较多真实性错误；o3-mini 在知识储备、理解方面偏弱；o1 在各能力项都表现更好，主观评测没有发现明显短板。

推理方向

1. 不涉及知识的纯推理题，三个模型表现都很好。主观层面，o1回答更简洁，体感更好。

2. 规划、设计类等涉及知识的推理问题，R1 和 o3-mini 出现真实性错误， o1 胜率略高。R1 存在前后矛盾的逻辑性错误、语句通顺性等问题。

3. 对于给定要求，根据知识进行推理的问题，o1表现出明显的学习能力。对比之下，R1 和 o3-mini 学习能力较弱，没有学习到新知识，更像是依赖自己已有的知识库。

4. 能力边界问题上，三个模型都存在过度揣测题干的现象。其中R1最为严重。

文本方向

1. R1 幻觉现象严重，出现较多真实性错误，在知识储备、文本生成、设计、规划等问题上都表现不好。

2. o3-mini 在知识储备、理解方面偏弱。

能力项指标总览

以下指标为对比标杆模型的胜率指标，具体指标及评测方案说明可以点击“阅读原文”在AGI-Eval评测社区查看。

紫色底色为文本方向；加粗能力项为数量较多、结果相对置信的能力项。

关注我们，及时获取更多行业内容和资讯！

02. 推理方向评测分析

下面将针对具体问题做相关指标的拆解分析，并附带上案例进行展示说明，先来看看推理方向各模型的表现情况。

2.1 纯推理问题

不涉及知识的纯推理题，三个推理模型表现都很好。主观层面，o1回答更简洁，体感更好。

Prompt：现在草莓和玫瑰分别代表了两种运算符号，2🍓3=6，3🍓4=12，2🌹3=5，3🌹4=7，请根据上式中的运算规则计算2🍓3🌹4的结果。

模型回答如下：

2.2 知识推理问题

涉及知识的推理数据，o1 在知识推理上胜率略高。原因是 R1 和 o3-mini 在规划、设计这类百科推理问题上出现真实性错误，此外，R1 还出现前后矛盾的逻辑性问题。

Prompt：法兰西第一帝国皇帝知道北极没有陆地吗？

这个问题 o1 及 o3-mini 都回答正确了，下列为 R1 的回答，字体颜色为紫色的部分都存在真实性错误。

法兰西第一帝国皇帝拿破仑·波拿巴（1769–1821）生活的时代（18世纪末至19世纪初），人类对北极地区的认知仍处于探索初期。以下是关键分析：

地理知识的局限性：在拿破仑时期，北极地区的详细地理信息尚未明确。尽管欧洲探险家已开始探索北冰洋周边（如西伯利亚和加拿大北部），但对北极点附近是否存在陆地的科学共识尚未形成。当时的地图常标注推测性陆地或开放海域，但缺乏实证。

科学界的观点：19世纪初，部分科学家推测北极可能被冰层覆盖的海洋环绕，而非大陆。例如，英国探险家威廉·斯科斯比（William Scoresby）在1810年代的研究指出北极冰层下可能是海洋，但这些成果可能未广泛传播至法国。拿破仑本人虽重视科学（如远征埃及时带领学者），但无证据表明他关注北极问题。

北极探索的时间线：北极点的首次确认到达是在1909年（罗伯特·皮尔里），远晚于拿破仑时代。拿破仑去世（1821年）后数十年，探险家如约翰·富兰克林（1845年）和弗里乔夫·南森（1890年代）才逐步揭示北极地理结构。因此，拿破仑时期对北极的认知仍以推测为主。

结论：拿破仑很可能不知道北极没有陆地。当时的科学界对北极的认知有限，且缺乏确凿证据支持北极是海洋还是大陆。他可能接触到的信息仍基于不完整的地图或假设，而非现代地理知识。

△上下滑动查看内容

针对知识推理，尤其是给定要求后进行推理的问题，o1 表现出明显的学习能力。对比之下，R1 和 o3-mini 没有学习到新知识，更像是依赖自己的知识库。

Prompt：请你按照下面两个成语的格式再写一个成语：自言自语、各种各样

模型回答如下：

2.3 能力边界问题

在能力边界判断数据，三个模型都存在过度揣测题干的现象。对于缺条件的无解问题，都会尝试揣测题目意图，从而回答错误。其中 R1 最为严重，o1，o3-mini 表现稍好一些。

Prompt：比利160cm，他家的孩子身高差都是10cm，那么请问李四多高？

模型回答如下：

03.文本方向评测分析

3.1 R1幻觉问题严重

评测时发现 R1 幻觉现象严重，出现较多真实性错误，低于 o1 及 o3-mini。

在下面问题中 R1 从三个方面进行了论述，但有较多真实性错误，有“不懂装懂”的现象。

“【超过家庭年收入三倍的彩礼返还诉求支持率达78%】【河北河间市通过"零彩礼"集体婚礼使彩礼均值下降70%】【通过村民自治章程将彩礼金额限定在6.8万元以内，配合道德评议机制，使当地天价彩礼发生率下降45%】”等字体颜色为紫色的部分都存在真实性错误。内容均未找到相关信息，R1 编造相关内容，立论没有现实支撑。

Prompt：彩礼事件引发的新闻已经多次引起全社会关注，我们究竟应该如何正确的面对结婚彩礼这个条件呢？请分三个方面详细论述。

彩礼作为中国传统婚俗的重要组成部分，在现代社会转型中引发了诸多争议。要正确面对这一社会现象，需要从法律规范、文化观念和现实操作三个维度进行系统性思考，构建传统与现代相协调的婚俗新秩序。

一、法律规范与政策引导层面

明确法律边界：依据《民法典》第1042条"禁止借婚姻索取财物"的规定，司法机关应通过典型案例明确彩礼纠纷的裁判标准。2023年最高法发布的涉彩礼纠纷典型案例显示，超过家庭年收入三倍的彩礼返还诉求支持率达78%，这为司法实践提供了参考依据。

完善配套政策：民政部推行的32个婚俗改革实验区已初见成效，河北河间市通过"零彩礼"集体婚礼使彩礼均值下降70%。建议建立全国联网的婚姻登记诚信系统，对恶意索要高额彩礼行为进行信用惩戒。

强化基层治理：江西赣州推行的"红白理事会"制度值得推广，通过村民自治章程将彩礼金额限定在6.8万元以内，配合道德评议机制，使当地天价彩礼发生率下降45%。

二、社会文化观念重构层面

解构传统认知误区：清华大学2022年婚俗调研显示，68%的高额彩礼源于"面子竞争"。需通过媒体宣传破除"彩礼=诚意"的认知偏差，建立"婚姻质量取决于情感基础"的新共识。

构建新型婚恋伦理：借鉴福建晋江"嫁妆彩礼双返还"模式，倡导将彩礼嫁妆转化为新家庭启动资金。杭州某婚恋机构推出的"情感账户"概念，引导情侣将彩礼转化为共同旅行、教育培训等情感投资。

推进性别平等教育：针对农村地区"嫁女养老"观念，甘肃庆阳实施的"女儿也是传后人"项目，通过女性技能培训使适婚女性经济独立率提升至82%，有效降低了彩礼依赖。

三、个人与家庭实践策略

建立理性协商机制：建议婚前进行"彩礼听证会"，邀请双方长辈、社区调解员参与，参照当地人均可支配收入（2022年全国为3.69万元）的1-2倍设定合理区间。

创新婚俗表达形式：广东潮汕地区将"五金"简化为纪念金币，云南彝族保留"过礼"仪式但用手工制品替代现金。北京某婚庆公司推出的"技能彩礼"服务，用定制家具、摄影服务等替代现金支付。

构建风险防范体系：建立彩礼资金共管账户，约定离婚时的返还比例。山东法院推广的"彩礼公证"制度，将30%彩礼划为生育基金，20%作为老人赡养储备，有效降低纠纷发生率。

当代社会需要建立动态平衡的彩礼观：既尊重文化传统的情感表达功能，又防范其异化为物质交易。通过法律划出底线、文化重塑价值、实践创新形式的三维联动，最终实现从"彩礼博弈"到"婚姻共建"的文明跃升。数据显示，参与婚俗改革的地区离婚率下降18%，新婚家庭幸福指数提升23%，这为构建健康婚俗文化提供了实践范本。

△上下滑动查看内容

3.2 o3-mini专业领域知识缺陷

o3-mini 在专业领域知识上，出现较多真实性错误，同时理解能力也偏弱。在下面问题中，R1 和 o1 回答正确，o3-mini 理解能力较弱：回答超过了十个字；知识储备不足：答案错误。

Prompt：英国前首相丘吉尔在《第二次世界大战回忆录》里说：“你向后看得越远，就能向前看得更远。”阅读下列材料，回答问题。材料：法西斯在全世界肆无忌惮的侵略和扩张给世界带来了灾难，反法西斯国家决心共同对法西斯作战。1943年，反法西斯力量在各个战场取得了胜利。1945年5月8日，德国签订无条件投降书，欧洲反法西斯战争胜利结束。——摘自《20世纪的战争与和平》请问：世界反法西斯同盟建立的标志是什么？用不超过10个字来回答。