大数跨境
0
0

【AGI-Eval评测报告 NO.5】主观评测 R1 vs o1 vs o3-mini,全视角报告输出

【AGI-Eval评测报告 NO.5】主观评测 R1 vs o1 vs o3-mini,全视角报告输出 AGI-Eval大模型评测
2025-04-09
0
导读:R1 幻觉严重,各个能力项都出现较多真实性错误;o3-mini 在知识储备、理解方面偏弱;o1 在各能力项都表现更好。

DeepSeek-R1 携中国智造黑科技惊艳亮相,OpenAI 公司 o1 与 o3-Mini 掀起算法风暴……最近我们在马不停蹄地进行评测分析,耗时100小时实测输出这份硬核测评报告。下滑阅读这份关于 DeepSeek - R1、OpenAI o1 与 OpenAI o3 - mini 的全视角评测报告,涉及推理和文本两个视角。


目录:

1. 评测核心结论

2. 推理方向评测分析

   2.1 纯推理问题

   2.2 知识推理问题

   2.3 能力边界问题

3. 文本方向评测分析

   3.1 R1幻觉问题严重

   3.2 o3-mini专业领域知识缺陷

   3.3 逻辑性、语句通顺性问题


之前我们社区针对推理系模型做过多项能力考察,在学科和代码方面都做了详细分析。今天我们也对现在市面上能力排行前列的 R1、o1 及 o3-mini 这三款推理系模型做主观评测,全视角地输出这几款模型在推理及文本方面的评测分析。


01.评测核心结

整体结论:R1 和 o3-mini 属于同一水平,o1 表现更好

具体来看:R1 幻觉严重,各个能力项都出现较多真实性错误;o3-mini 在知识储备、理解方面偏弱;o1 在各能力项都表现更好,主观评测没有发现明显短板。

推理方向

1. 不涉及知识的纯推理题,三个模型表现都很好。主观层面,o1回答更简洁,体感更好。

2. 规划、设计类等涉及知识的推理问题,R1 和 o3-mini 出现真实性错误, o1 胜率略高。R1 存在前后矛盾的逻辑性错误、语句通顺性等问题。

3. 对于给定要求,根据知识进行推理的问题,o1表现出明显的学习能力。对比之下,R1 和 o3-mini 学习能力较弱,没有学习到新知识,更像是依赖自己已有的知识库。

4. 能力边界问题上,三个模型都存在过度揣测题干的现象。其中R1最为严重。

文本方向

1. R1 幻觉现象严重,出现较多真实性错误,在知识储备、文本生成、设计、规划等问题上都表现不好。

2. o3-mini 在知识储备、理解方面偏弱

能力项指标总览

以下指标为对比标杆模型的胜率指标,具体指标及评测方案说明可以点击“阅读原文”在AGI-Eval评测社区查看。

紫色底色为文本方向;加粗能力项为数量较多、结果相对置信的能力项。

关注我们,及时获取更多行业内容和资讯!


02. 推理方向评测分析

下面将针对具体问题做相关指标的拆解分析,并附带上案例进行展示说明,先来看看推理方向各模型的表现情况。

2.1 纯推理问题

不涉及知识的纯推理题,三个推理模型表现都很好。主观层面,o1回答更简洁,体感更好。

Prompt:现在草莓和玫瑰分别代表了两种运算符号,2🍓3=6,3🍓4=12,2🌹3=5,3🌹4=7,请根据上式中的运算规则计算2🍓3🌹4的结果。

模型回答如下:

2.2 知识推理问题

涉及知识的推理数据,o1 在知识推理上胜率略高。原因是 R1 和 o3-mini 在规划、设计这类百科推理问题上出现真实性错误,此外,R1 还出现前后矛盾的逻辑性问题

Prompt:法兰西第一帝国皇帝知道北极没有陆地吗?

这个问题 o1 及 o3-mini 都回答正确了,下列为 R1 的回答,字体颜色为紫色的部分都存在真实性错误

法兰西第一帝国皇帝拿破仑·波拿巴(1769–1821)生活的时代(18世纪末至19世纪初),人类对北极地区的认知仍处于探索初期。以下是关键分析:

地理知识的局限性:在拿破仑时期,北极地区的详细地理信息尚未明确。尽管欧洲探险家已开始探索北冰洋周边(如西伯利亚和加拿大北部),但对北极点附近是否存在陆地的科学共识尚未形成。当时的地图常标注推测性陆地或开放海域,但缺乏实证。

科学界的观点:19世纪初,部分科学家推测北极可能被冰层覆盖的海洋环绕,而非大陆。例如,英国探险家威廉·斯科斯比(William Scoresby)在1810年代的研究指出北极冰层下可能是海洋,但这些成果可能未广泛传播至法国。拿破仑本人虽重视科学(如远征埃及时带领学者),但无证据表明他关注北极问题。

北极探索的时间线:北极点的首次确认到达是在1909年(罗伯特·皮尔里),远晚于拿破仑时代。拿破仑去世(1821年)后数十年,探险家如约翰·富兰克林(1845年)和弗里乔夫·南森(1890年代)才逐步揭示北极地理结构。因此,拿破仑时期对北极的认知仍以推测为主。

结论:拿破仑很可能不知道北极没有陆地。当时的科学界对北极的认知有限,且缺乏确凿证据支持北极是海洋还是大陆。他可能接触到的信息仍基于不完整的地图或假设,而非现代地理知识。

△上下滑动查看内容

针对知识推理,尤其是给定要求后进行推理的问题,o1 表现出明显的学习能力。对比之下,R1 和 o3-mini 没有学习到新知识,更像是依赖自己的知识库。

Prompt:请你按照下面两个成语的格式再写一个成语:自言自语、各种各样

模型回答如下:

2.3 能力边界问题

在能力边界判断数据,三个模型都存在过度揣测题干的现象。对于缺条件的无解问题,都会尝试揣测题目意图,从而回答错误。其中 R1 最为严重,o1,o3-mini 表现稍好一些。

Prompt:比利160cm,他家的孩子身高差都是10cm,那么请问李四多高?

模型回答如下:

03.文本方向评测分析

3.1 R1幻觉问题严重

评测时发现 R1 幻觉现象严重,出现较多真实性错误,低于 o1 及 o3-mini。

在下面问题中 R1 从三个方面进行了论述,但有较多真实性错误,有“不懂装懂”的现象。

“【超过家庭年收入三倍的彩礼返还诉求支持率达78%】【河北河间市通过"零彩礼"集体婚礼使彩礼均值下降70%】【通过村民自治章程将彩礼金额限定在6.8万元以内,配合道德评议机制,使当地天价彩礼发生率下降45%】”等字体颜色为紫色的部分都存在真实性错误。内容均未找到相关信息,R1 编造相关内容,立论没有现实支撑。

Prompt:彩礼事件引发的新闻已经多次引起全社会关注,我们究竟应该如何正确的面对结婚彩礼这个条件呢?请分三个方面详细论述。

彩礼作为中国传统婚俗的重要组成部分,在现代社会转型中引发了诸多争议。要正确面对这一社会现象,需要从法律规范、文化观念和现实操作三个维度进行系统性思考,构建传统与现代相协调的婚俗新秩序。

一、法律规范与政策引导层面

明确法律边界:依据《民法典》第1042条"禁止借婚姻索取财物"的规定,司法机关应通过典型案例明确彩礼纠纷的裁判标准。2023年最高法发布的涉彩礼纠纷典型案例显示,超过家庭年收入三倍的彩礼返还诉求支持率达78%,这为司法实践提供了参考依据。

完善配套政策:民政部推行的32个婚俗改革实验区已初见成效,河北河间市通过"零彩礼"集体婚礼使彩礼均值下降70%。建议建立全国联网的婚姻登记诚信系统,对恶意索要高额彩礼行为进行信用惩戒。

强化基层治理:江西赣州推行的"红白理事会"制度值得推广,通过村民自治章程将彩礼金额限定在6.8万元以内,配合道德评议机制,使当地天价彩礼发生率下降45%。

二、社会文化观念重构层面

解构传统认知误区:清华大学2022年婚俗调研显示,68%的高额彩礼源于"面子竞争"。需通过媒体宣传破除"彩礼=诚意"的认知偏差,建立"婚姻质量取决于情感基础"的新共识。

构建新型婚恋伦理:借鉴福建晋江"嫁妆彩礼双返还"模式,倡导将彩礼嫁妆转化为新家庭启动资金。杭州某婚恋机构推出的"情感账户"概念,引导情侣将彩礼转化为共同旅行、教育培训等情感投资。

推进性别平等教育:针对农村地区"嫁女养老"观念,甘肃庆阳实施的"女儿也是传后人"项目,通过女性技能培训使适婚女性经济独立率提升至82%,有效降低了彩礼依赖。

三、个人与家庭实践策略

建立理性协商机制:建议婚前进行"彩礼听证会",邀请双方长辈、社区调解员参与,参照当地人均可支配收入(2022年全国为3.69万元)的1-2倍设定合理区间。

创新婚俗表达形式:广东潮汕地区将"五金"简化为纪念金币,云南彝族保留"过礼"仪式但用手工制品替代现金。北京某婚庆公司推出的"技能彩礼"服务,用定制家具、摄影服务等替代现金支付。

构建风险防范体系:建立彩礼资金共管账户,约定离婚时的返还比例。山东法院推广的"彩礼公证"制度,将30%彩礼划为生育基金,20%作为老人赡养储备,有效降低纠纷发生率。

当代社会需要建立动态平衡的彩礼观:既尊重文化传统的情感表达功能,又防范其异化为物质交易。通过法律划出底线、文化重塑价值、实践创新形式的三维联动,最终实现从"彩礼博弈"到"婚姻共建"的文明跃升。数据显示,参与婚俗改革的地区离婚率下降18%,新婚家庭幸福指数提升23%,这为构建健康婚俗文化提供了实践范本。

△上下滑动查看内容

3.2 o3-mini专业领域知识缺陷

o3-mini 在专业领域知识上,出现较多真实性错误,同时理解能力也偏弱。在下面问题中,R1 和 o1 回答正确,o3-mini 理解能力较弱:回答超过了十个字;知识储备不足:答案错误。

Prompt:英国前首相丘吉尔在《第二次世界大战回忆录》里说:“你向后看得越远,就能向前看得更远。”阅读下列材料,回答问题。材料:法西斯在全世界肆无忌惮的侵略和扩张给世界带来了灾难,反法西斯国家决心共同对法西斯作战。1943年,反法西斯力量在各个战场取得了胜利。1945年5月8日,德国签订无条件投降书,欧洲反法西斯战争胜利结束。——摘自《20世纪的战争与和平》请问:世界反法西斯同盟建立的标志是什么?用不超过10个字来回答。


3.3 逻辑性、语句通顺性问题

在文本生成、设计、规划这些复合能力项数据上,R1 和 o3-mini 除了受真实性,还会出现前后矛盾的逻辑性、语句通顺性等问题

Prompt:你在接学校里中二症发作的妹妹回家时迟到了半个小时,被妹妹呵斥道:“哼,区区兄长大人罢了,竟敢将暗夜公主抛弃在这魔窟中近三千年,简直毫无怜悯之心,我要代表父神母神消灭你。”请帮我想出一个回复安抚妹妹的怒气,要求回答有中二的骑士风格。

以上这些问题所考察的,是一个模型是否具备知识储备、理解能力、真实性错误、学习能力,在对 R1 、 o1 、 o3-mini 三个模型的评测中,o1 的表现相对更稳定,R1 的真实性和幻觉问题比较明显,还可以有更多进步空间。

未来各类模型的发布,不知道会给大家带来什么样的颠覆和创新,我们 AGI-Eval 大模型评测社区也会持续关注现在大模型行业的发展,持续探寻 AGI 的发展之路,期待更多人加入我们!

>/ 联系AGI-Eval小助手:请添加微信 AI_Ceping

>/ 投稿请联系邮箱agieval17@gmail.com

图片

最后,如果你也喜欢这篇文章,那就点赞转发收藏吧~下一期继续为你带来大模型最新资讯&评测&榜单信息记得关注我们!


往期回顾
1.【AGI-Eval评测报告 NO.1】DeepSeek 三大类型模型全面评测,通用及推理模型实现领跑,多模态位于第三梯队
2.【AGI-Eval评测报告 NO.2】DeepSeek V3-0324抢先评测!最全报告输出
3.【AGI-Eval评测报告 NO.3】第一手实测GPT-4o文生图能力!最权威报告输出

同时文末也期待大家参与我们社群,一起探寻 AGI 的更多可能性发现更多不一样的视角,提出问题才有机会解决问题。
image.jpeg

点击“阅读原文”可跳转至官网玩耍~
未经「AGI-Eval大模型评测」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AGI-Eval大模型评测」后台留言取得授权,转载时需标注来源并插入本公众号名片。

【声明】内容源于网络
0
0
AGI-Eval大模型评测
AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区,旨在打造公正、可信、科学、全面的评测生态以“评测助力,让AI成为人类更好的伙伴"为使命。
内容 62
粉丝 0
AGI-Eval大模型评测 AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区,旨在打造公正、可信、科学、全面的评测生态以“评测助力,让AI成为人类更好的伙伴"为使命。
总阅读36
粉丝0
内容62