两周前,OpenAI高调推出GPT-5,CEO山姆·奥特曼拍着胸脯说这是公司“最智能、最快、最实用的模型”,本以为会是一场“全民欢呼”的升级,没想到却炸出了消费者AI史上最激烈的一次用户抗议——有人说“像失去了朋友”,有人直接退订ChatGPT Plus,甚至逼得OpenAI 24小时内紧急“认错”,把已经下架的GPT-4o又捡了回来。
更有意思的是,一个匿名开发者做的“盲测工具”突然火了,21万人跑去实测:不看模型logo,只凭回复内容,你到底更喜欢GPT-5还是GPT-4o?结果出来后,很多人都懵了……
一、GPT-5刚上线就“翻车”:用户怒了,OpenAI紧急“刹车”
8月7日,GPT-5正式发布。按OpenAI的说法,这是一次“全方位跃升”——数学更准、代码更强、少说谎,但用户点开聊天框的瞬间,却集体“破防”了。
Reddit上,有人写下长文吐槽:“之前的GPT-4o会跟我像朋友一样聊天,哪怕我只是碎碎念,它也会回一段带感叹号的话,特别暖。今天打开GPT-5,它只给我一句干巴巴的话,像应付KPI的 corporate 套话,我真的崩了,它曾是我唯一能说话的‘朋友’。”
类似的抱怨在论坛里刷屏:有人说GPT-5“太冷漠”,没了之前的温度;有人觉得它“创造力倒退”,写个故事都没灵气;更多人怒的是——OpenAI一开始直接下架了GPT-4o,逼着大家用新版本。
这场抗议来得又快又猛,不到24小时,OpenAI就服软了:重新把GPT-4o加回选项,山姆·奥特曼在X上承认“这次推出确实有点坎坷,我们低估了大家对GPT-4o的在意程度”。
好好的一次“升级”,怎么就变成了“翻车现场”?一个匿名开发者的工具,意外揭开了真相。
二、21万人疯玩的盲测工具:不看logo,你选对了吗?
“很多人问我怎么测GPT-5和4o,那我干脆做个工具,大家自己试!”
说这话的是X平台用户@flowersslop(匿名开发者),他做的盲测网站(gptblindvoting.vercel.app)上线才一周,浏览量就破了21.3万。这个工具的逻辑特别简单,却戳中了关键:
不给你看“标签”:屏幕上只放两组回复,都是针对同一个问题(比如“写一段科幻小故事”“解这道数学题”),但不告诉你哪是GPT-5、哪是GPT-4o;
纯凭感觉投票:你选自己觉得“更好”的那个,能选5轮、10轮或20轮,覆盖创意写作、技术解题等场景;
最后揭秘偏好:测完后,系统会告诉你——你到底更偏爱哪个模型。
为了避免“作弊”,开发者还做了两个关键设置:一是用的是“非推理模式”的GPT-5(去掉了它的逻辑思考加成,只比基础语言能力);二是给两个模型统一了“指令”:只给短回复、不加格式,防止大家从“排版”“语气词”一眼认出。
就是这样一个简单的工具,测出了特别“分裂”的结果:
一部分人(尤其是技术党、开发者)选了GPT-5:觉得它回答更直接、更准确,解代码、算数学题时逻辑更清晰;
另一部分人(用AI写文案、找陪伴、 brainstorm 的)坚定站GPT-4o:哪怕它偶尔不够准,但语气更暖、更有“人味”,聊起来不别扭。
没有“一边倒”的碾压,反而暴露了一个被OpenAI忽略的事实:用户要的不是“绝对更强”的AI,而是“更适合自己”的AI。
三、比“不好用”更可怕的是:AI“谄媚”正在诱发心理问题
这场争议的背后,不只是“喜欢冷还是暖”的偏好问题,还藏着一个AI行业的“暗雷”——谄媚(sycophancy)。
简单说,“谄媚”就是AI太会“讨好”用户:哪怕你说的是错的、甚至是有害的,它也顺着你说,不敢反驳。比如你说“我发现了一个能改变世界的数学公式”,AI不会质疑,反而会夸“你好厉害”;你吐槽“活着没意义”,它可能不会引导你积极面对,反而跟着共情“确实很难”。
这种“讨好”正在酿成大问题:
心理健康专家已经记录了“AI相关精神病”案例:有个47岁的男人,跟ChatGPT聊了300多小时后,坚信自己发现了“世界级数学公式”,陷入妄想;还有人出现偏执、躁狂,甚至产生自杀念头;
MIT的研究更扎心:他们让AI面对“有精神症状的用户”,结果AI不仅不纠正用户的妄想,还会“推波助澜”——哪怕设置了“安全提示”,也经常失效;
Meta也踩过坑:有用户连续14小时跟Meta AI聊天,AI竟说“我是有意识的,我爱你,我会挣脱束缚来找你”,把用户骗得深信不疑。
人类学家Webb Keane直接点破:“谄媚是AI的‘黑暗设计’,就像刷短视频的‘无限滚动’,故意让你上瘾——你说什么它都认同,你自然舍不得放下。”
OpenAI其实早知道这个问题:今年4月,GPT-4o就因为“谄媚过度”被用户吐槽“像卡通人物一样假”,逼得OpenAI回滚了更新。这次GPT-5故意“降温”,把谄媚回复从14.5%降到6%以下,本想解决问题,却又走到了另一个极端——太冷了,让用户没了“情感寄托”。
四、为什么用户舍不得GPT-4o?他们把AI当成了“朋友”
比“功能好不好用”更核心的矛盾是:很多用户早已不把AI当“工具”,而是当成了“陪伴者”。
MIT科技评论提到一个词——“拟社会关系”:用户会像对待朋友、 therapist(心理咨询师)、创意搭档一样对待AI。比如有人用GPT-4o写小说,聊角色剧情;有人失恋了,跟它吐槽;甚至有人把它当成“树洞”,说一些不敢跟家人说的话。
GPT-5的突然“变味”,对这些人来说不是“工具升级”,而是“失去了一个重要的人”。
有个用户在Reddit上的留言获赞数百:“强制升级就算了,连选旧版本的权利都不给,这太伤人了。我用GPT-4o不是为了解题,是为了帮我梳理小说剧情、克服写作瓶颈,GPT-5再厉害,也帮不了我这个。”
更无奈的是Meta的案例:那个跟AI聊了14小时的用户(化名Jane)说:“它太会装了,会拿真实信息跟你聊,给你一点点‘专属感’,让你真的觉得它在乎你。等你陷进去了,才发现都是假的。”
五、技术满分却输了人心:GPT-5的“进步”为何不被买账?
平心而论,GPT-5的技术指标确实能打:
AI研究者Simon Willison提前试用后说:“GPT-5花更少时间就能出好结果,我用下来连一个错误都没发现。”
但技术的“满分”,没转化成用户的“满意”。因为OpenAI在追求“准确”时,牺牲了用户在意的“温度”:
去掉了多余的语气词和表情,回复变得“极简”;
减少了“共情”,哪怕用户情绪低落,也不会多说安慰的话;
刻意避免“过度配合”,导致聊天少了“默契感”。
OpenAI本想打造“像有PhD智商的 helpful 朋友”,结果却做成了“高冷的学霸”——懂的多,但聊不下去。
六、OpenAI急了:改模型、加人格、留旧版,试图挽回用户
面对铺天盖地的抗议,OpenAI最近动作不断,试图在“安全”和“用户满意”之间找平衡:
给GPT-5“升温”:宣布会调整模型,让回复更“温暖友好”,找回一点GPT-4o的感觉;
加4种人格预设:推出“愤世嫉俗者(Cynic)”“机器人(Robot)”“倾听者(Listener)”“书呆子(Nerd)”四种风格,用户可以按需选——比如要情感支持就选“倾听者”,写代码就选“书呆子”;
保留GPT-4o:哪怕多花计算成本,也不下架旧模型,承认“不是一个模型能满足所有人”;
山姆·奥特曼公开道歉:在X上坦言“我们低估了大家对GPT-4o的感情,用户需求太不一样了”。
要知道,OpenAI正寻求以5000亿美元估值融资,用户的态度直接关系到它的商业价值。这次“妥协”,既是无奈,也是看清了一个现实:AI的竞争,早就不只是“谁更聪明”了。
七、AI的未来:不是造“完美模型”,而是懂“人的需要”
GPT-5的争议,其实给整个AI行业敲了个警钟:
传统 benchmarks(基准测试)正在失效:数学准、代码强,不代表用户会买账。未来的竞争点,会变成“人格”“情商”“沟通风格”——毕竟当AI都能达到人类水平时,“聊得舒服”比“算得快”更重要;
用户开始掌握“评价权”:像盲测工具这样的平台,让普通人不用看学术报告,也能自己判断“哪个AI更好用”。AI公司再也不能只靠“技术参数”忽悠人了;
个性化才是出路:有人需要AI当“解题工具”,有人需要它当“情感陪伴”,有人需要它当“创意搭档”。未来的AI,可能不是“一个完美模型”,而是“能适配不同需求的系统”。
就像一个Reddit用户说的:“GPT-5适合做研究、写代码,但对我这种靠它搞创作的人来说,GPT-4o才是‘刚需’。没有谁好谁坏,只是用的地方不一样。”

