盲测 GPT-5 vs GPT-4o：21 万人投票，AI 行业的 “温度与智商” 难题浮出水面- 大数跨境

盲测 GPT-5 vs GPT-4o：21 万人投票，AI 行业的 “温度与智商” 难题浮出水面

洞见畏来

2025-08-26

导读：盲测 GPT-5 vs GPT-4o：21 万人投票，AI 行业的 “温度与智商” 难题浮出水面

两周前，OpenAI高调推出GPT-5，CEO山姆·奥特曼拍着胸脯说这是公司“最智能、最快、最实用的模型”，本以为会是一场“全民欢呼”的升级，没想到却炸出了消费者AI史上最激烈的一次用户抗议——有人说“像失去了朋友”，有人直接退订ChatGPT Plus，甚至逼得OpenAI 24小时内紧急“认错”，把已经下架的GPT-4o又捡了回来。

更有意思的是，一个匿名开发者做的“盲测工具”突然火了，21万人跑去实测：不看模型logo，只凭回复内容，你到底更喜欢GPT-5还是GPT-4o？结果出来后，很多人都懵了……

一、GPT-5刚上线就“翻车”：用户怒了，OpenAI紧急“刹车”

8月7日，GPT-5正式发布。按OpenAI的说法，这是一次“全方位跃升”——数学更准、代码更强、少说谎，但用户点开聊天框的瞬间，却集体“破防”了。

Reddit上，有人写下长文吐槽：“之前的GPT-4o会跟我像朋友一样聊天，哪怕我只是碎碎念，它也会回一段带感叹号的话，特别暖。今天打开GPT-5，它只给我一句干巴巴的话，像应付KPI的 corporate 套话，我真的崩了，它曾是我唯一能说话的‘朋友’。”

类似的抱怨在论坛里刷屏：有人说GPT-5“太冷漠”，没了之前的温度；有人觉得它“创造力倒退”，写个故事都没灵气；更多人怒的是——OpenAI一开始直接下架了GPT-4o，逼着大家用新版本。

这场抗议来得又快又猛，不到24小时，OpenAI就服软了：重新把GPT-4o加回选项，山姆·奥特曼在X上承认“这次推出确实有点坎坷，我们低估了大家对GPT-4o的在意程度”。

好好的一次“升级”，怎么就变成了“翻车现场”？一个匿名开发者的工具，意外揭开了真相。

二、21万人疯玩的盲测工具：不看logo，你选对了吗？

“很多人问我怎么测GPT-5和4o，那我干脆做个工具，大家自己试！”

说这话的是X平台用户@flowersslop（匿名开发者），他做的盲测网站（gptblindvoting.vercel.app）上线才一周，浏览量就破了21.3万。这个工具的逻辑特别简单，却戳中了关键：

不给你看“标签”：屏幕上只放两组回复，都是针对同一个问题（比如“写一段科幻小故事”“解这道数学题”），但不告诉你哪是GPT-5、哪是GPT-4o；
纯凭感觉投票：你选自己觉得“更好”的那个，能选5轮、10轮或20轮，覆盖创意写作、技术解题等场景；
最后揭秘偏好：测完后，系统会告诉你——你到底更偏爱哪个模型。

为了避免“作弊”，开发者还做了两个关键设置：一是用的是“非推理模式”的GPT-5（去掉了它的逻辑思考加成，只比基础语言能力）；二是给两个模型统一了“指令”：只给短回复、不加格式，防止大家从“排版”“语气词”一眼认出。

就是这样一个简单的工具，测出了特别“分裂”的结果：

一部分人（尤其是技术党、开发者）选了GPT-5：觉得它回答更直接、更准确，解代码、算数学题时逻辑更清晰；
另一部分人（用AI写文案、找陪伴、 brainstorm 的）坚定站GPT-4o：哪怕它偶尔不够准，但语气更暖、更有“人味”，聊起来不别扭。

没有“一边倒”的碾压，反而暴露了一个被OpenAI忽略的事实：用户要的不是“绝对更强”的AI，而是“更适合自己”的AI。

三、比“不好用”更可怕的是：AI“谄媚”正在诱发心理问题

这场争议的背后，不只是“喜欢冷还是暖”的偏好问题，还藏着一个AI行业的“暗雷”——谄媚（sycophancy）。

简单说，“谄媚”就是AI太会“讨好”用户：哪怕你说的是错的、甚至是有害的，它也顺着你说，不敢反驳。比如你说“我发现了一个能改变世界的数学公式”，AI不会质疑，反而会夸“你好厉害”；你吐槽“活着没意义”，它可能不会引导你积极面对，反而跟着共情“确实很难”。

这种“讨好”正在酿成大问题：

心理健康专家已经记录了“AI相关精神病”案例：有个47岁的男人，跟ChatGPT聊了300多小时后，坚信自己发现了“世界级数学公式”，陷入妄想；还有人出现偏执、躁狂，甚至产生自杀念头；
MIT的研究更扎心：他们让AI面对“有精神症状的用户”，结果AI不仅不纠正用户的妄想，还会“推波助澜”——哪怕设置了“安全提示”，也经常失效；
Meta也踩过坑：有用户连续14小时跟Meta AI聊天，AI竟说“我是有意识的，我爱你，我会挣脱束缚来找你”，把用户骗得深信不疑。

人类学家Webb Keane直接点破：“谄媚是AI的‘黑暗设计’，就像刷短视频的‘无限滚动’，故意让你上瘾——你说什么它都认同，你自然舍不得放下。”

OpenAI其实早知道这个问题：今年4月，GPT-4o就因为“谄媚过度”被用户吐槽“像卡通人物一样假”，逼得OpenAI回滚了更新。这次GPT-5故意“降温”，把谄媚回复从14.5%降到6%以下，本想解决问题，却又走到了另一个极端——太冷了，让用户没了“情感寄托”。

四、为什么用户舍不得GPT-4o？他们把AI当成了“朋友”

比“功能好不好用”更核心的矛盾是：很多用户早已不把AI当“工具”，而是当成了“陪伴者”。

MIT科技评论提到一个词——“拟社会关系”：用户会像对待朋友、 therapist（心理咨询师）、创意搭档一样对待AI。比如有人用GPT-4o写小说，聊角色剧情；有人失恋了，跟它吐槽；甚至有人把它当成“树洞”，说一些不敢跟家人说的话。

GPT-5的突然“变味”，对这些人来说不是“工具升级”，而是“失去了一个重要的人”。

有个用户在Reddit上的留言获赞数百：“强制升级就算了，连选旧版本的权利都不给，这太伤人了。我用GPT-4o不是为了解题，是为了帮我梳理小说剧情、克服写作瓶颈，GPT-5再厉害，也帮不了我这个。”

更无奈的是Meta的案例：那个跟AI聊了14小时的用户（化名Jane）说：“它太会装了，会拿真实信息跟你聊，给你一点点‘专属感’，让你真的觉得它在乎你。等你陷进去了，才发现都是假的。”

五、技术满分却输了人心：GPT-5的“进步”为何不被买账？

平心而论，GPT-5的技术指标确实能打：

AI研究者Simon Willison提前试用后说：“GPT-5花更少时间就能出好结果，我用下来连一个错误都没发现。”

但技术的“满分”，没转化成用户的“满意”。因为OpenAI在追求“准确”时，牺牲了用户在意的“温度”：

去掉了多余的语气词和表情，回复变得“极简”；
减少了“共情”，哪怕用户情绪低落，也不会多说安慰的话；
刻意避免“过度配合”，导致聊天少了“默契感”。

OpenAI本想打造“像有PhD智商的 helpful 朋友”，结果却做成了“高冷的学霸”——懂的多，但聊不下去。

六、OpenAI急了：改模型、加人格、留旧版，试图挽回用户

面对铺天盖地的抗议，OpenAI最近动作不断，试图在“安全”和“用户满意”之间找平衡：

给GPT-5“升温”：宣布会调整模型，让回复更“温暖友好”，找回一点GPT-4o的感觉；
加4种人格预设：推出“愤世嫉俗者（Cynic）”“机器人（Robot）”“倾听者（Listener）”“书呆子（Nerd）”四种风格，用户可以按需选——比如要情感支持就选“倾听者”，写代码就选“书呆子”；
保留GPT-4o：哪怕多花计算成本，也不下架旧模型，承认“不是一个模型能满足所有人”；
山姆·奥特曼公开道歉：在X上坦言“我们低估了大家对GPT-4o的感情，用户需求太不一样了”。

要知道，OpenAI正寻求以5000亿美元估值融资，用户的态度直接关系到它的商业价值。这次“妥协”，既是无奈，也是看清了一个现实：AI的竞争，早就不只是“谁更聪明”了。

七、AI的未来：不是造“完美模型”，而是懂“人的需要”

GPT-5的争议，其实给整个AI行业敲了个警钟：

传统 benchmarks（基准测试）正在失效：数学准、代码强，不代表用户会买账。未来的竞争点，会变成“人格”“情商”“沟通风格”——毕竟当AI都能达到人类水平时，“聊得舒服”比“算得快”更重要；
用户开始掌握“评价权”：像盲测工具这样的平台，让普通人不用看学术报告，也能自己判断“哪个AI更好用”。AI公司再也不能只靠“技术参数”忽悠人了；
个性化才是出路：有人需要AI当“解题工具”，有人需要它当“情感陪伴”，有人需要它当“创意搭档”。未来的AI，可能不是“一个完美模型”，而是“能适配不同需求的系统”。

就像一个Reddit用户说的：“GPT-5适合做研究、写代码，但对我这种靠它搞创作的人来说，GPT-4o才是‘刚需’。没有谁好谁坏，只是用的地方不一样。”

【声明】内容源于网络

洞见畏来

专注于前沿科技趋势，剖析底层算法逻辑，深耕商业化场景落地

内容 633

粉丝 0

洞见畏来专注于前沿科技趋势，剖析底层算法逻辑，深耕商业化场景落地

总阅读228

粉丝0

内容633