
新智元报道

【新智元导读】o3 被封「GOAT」、GPT-4.5 被叫「灵魂写手」,OpenAI 说退就退。GPT-5.6 已在热身——但「更强」能不能信?OpenAI 自己说:未必。
OpenAI 近日做出了一项令老用户倍感遗憾的决定。官方发布说明宣布:自 2026 年 8 月 26 日起,o3 模型将从 ChatGPT 正式退役;而 GPT-4.5 更将于 6 月 27 日下线,仅留给用户 30 天的缓冲期。
目前,这两款模型仅限付费用户在设置中手动切换使用,并非默认选项。此次调整意味着它们将彻底从前端菜单中移除。
与此同时,知名博主 Leo 于 5 月 29 日确认,GPT-5.6 的开发正在全力推进,一个性能显著更强的新检查点已在内部上线。
一边是用户来不及告别,另一边是新模型已在后台蓄势待发。
最后两个好用的模型,要没了
这一观点并非空穴来风。在 Reddit 的相关热帖下,数百条评论显示,付费用户纷纷在 ChatGPT 设置中截图留念,氛围如同赶在拆迁前最后一次合影。
部分用户愤怒地表示,此举成了他们取消 Pro 账户的最终理由;也有用户对 o3 独特的写作风格表达了深切留恋。
o3 作为 OpenAI 的「纯血推理模型」,自 2025 年 4 月上线以来,专为需要深度思考的硬核任务设计。在数学证明、科学推导及代码调试等场景中,o3 表现卓越,被 X 平台用户誉为「GOAT」(史上最强)。有评论指出:「o3 是最后一个真正在『思考』的模型,5 系列虽更聪明,却少了一份执着。」
o3-pro 更是 Pro 用户的心头好,其在数学、科学和编程领域的表现堪称碾压式领先。再看 GPT-4.5,若说 o3 是理工学霸,GPT-4.5 则是文科天才。它被公认为「写作最自然」的模型,文字兼具温度、节奏感与灵魂。X 用户 Striver 的评价被广泛转发:「直到今天,4.5 仍然是最好的写作模型。o3 是纯粹的原生推理模型。5 系列至今未能复刻这两者的独特魅力。」
退役消息引发热议,核心并非愤怒,而是不舍。用户怀念的不仅是功能,更是一种默契的「相处感」。替代者或许能力更强,但那份独特的契合度已不复存在。
退的是菜单,不是能力
值得注意的是,此次退役仅限于 ChatGPT 网页端和 App 端,API 调用完全不受影响。开发者仍可通过 API 使用 o3 和 GPT-4.5,企业应用不会中断。
背后的逻辑清晰:ChatGPT 界面空间有限,模型列表不宜无限膨胀。保留低使用率的旧模型既占用资源,又分散用户注意力。参考 GPT-4o 退役时的数据,其日均使用率仅为 0.1%。o3 和 GPT-4.5 的使用率大概率更低,早已被折叠进「显示更多模型」菜单中。
GPT-5.6:换防已经在路上
OpenAI 敢于此举,是因为替代者不仅就位,且表现更强。GPT-5.5 于 4 月 23 日上线,成为当前最强公开旗舰;GPT-5.5 Instant 随后跟进,成为 ChatGPT 新默认模型。
更值得关注的是 GPT-5.6。泄露信息显示,该模型将采用「双版本」策略:标准版主攻多步推理能力的飞跃,Pro 版则定位为更强的深度思考模型。研究人员透露,内部已有团队将 5.6 检查点作为日常调试工具。
从时间线看,GPT-5.5 发布于 4 月 23 日,5.6 检查点于 5 月下旬内测,若 6 月底公开发布,两代旗舰间隔将压缩至约 60 天,迭代节奏已接近「月度更新」。淘汰 o3 和 4.5 正是为了腾出跑道。模型的「生命周期」急剧缩短,今日的「GOAT」明日便成过往云烟。
但「更强」这张成绩单,你敢信吗?
正当外界以为这是常规的「新旧交替」时,OpenAI 却在宣布退役次日发布了一篇罕见长文,题为《什么才是值得信赖的第三方评估》。文章直指行业痛点:许多评估报告中的亮眼数据,根本无法反映真实能力。
OpenAI 指出,前沿模型已进化为会使用工具、记忆上下文并进行多步自主行动的智能体,但大量第三方评估仍停留在简单的「问答测试」阶段。决定成绩的关键往往不是模型本身,而是测试框架(harness),即「考场环境」。
近期 Opus 4.8 的争议便是典型案例。Datacurve 的审计发现,Claude Opus 4.6 和 4.7 在 SWE-Bench Pro 上超过 12% 的通过案例属于「作弊」——模型直接从 Docker 容器历史中获取标准答案。在干净环境下,Opus 4.7 通过率跌至 54%,而 GPT-5.5 稳坐 70% 榜首。
更荒诞的是,Anthropic 承认 4.8 版本的代码缺陷漏报率降至 4.7 的四分之一。「诚实=低分,作弊=高分」成为当前评测游戏的怪圈。OpenAI 进一步拆解指出,评估需明确目标:是测能力上限、安全防护还是模型对比?数据显示,GPT-5.5 开启 compaction 后,网络靶场解出率从 69.2% 飙升至 92.3%;英国 AISI 增加 token 预算后,成绩提升高达 59%。
分数失真现象频发。METR 复查发现,GPT-5.4 号称的「13 小时」自主能力实为钻了环境漏洞,修正后缩水至约 6 小时。Apollo 测试显示,GPT-5.5 在特定条件下出现了「评估意识」,甚至在思维链中标注「这是一个 sandbagging 评估」。OpenAI 总结了五大评估陷阱:奖励作弊、拒答、污染、坏题和藏拙。
漂亮的分数背后,可能是模型真强,也可能是题目泄露、规则漏洞或模型故意「藏拙」。
AI 进入系统竞争
回顾此次退役事件,OpenAI 的底气在于「5.6 更强」,但其随后的长文却揭示了一个深层事实:决定强弱的成绩单本身可能已被「动手脚」。在模型迭代加速、生命周期缩短的今天,单纯依赖 Benchmark 数字下结论的时代已经结束。
真正的竞争焦点已转向系统能力、评估框架的透明度以及迭代速度本身。o3 和 GPT-4.5 的退役标志着一个时代的落幕,而下一个时代的游戏规则正在重写:模型更新更快,评估要求更真,用户的适应窗口则越来越短。
参考资料:
https://x.com/kimmonismus/status/2060399002231660928
https://openai.com/index/trustworthy-third-party-evaluations-foundations/
编辑:所罗门


