OpenAI官宣退役o3与GPT-4.5！- 大数跨境

首页

OpenAI官宣退役o3与GPT-4.5！

新智元

2026-05-31

新智元报道

【新智元导读】o3 被封「GOAT」、GPT-4.5 被叫「灵魂写手」，OpenAI 说退就退。GPT-5.6 已在热身——但「更强」能不能信？OpenAI 自己说：未必。

OpenAI 近日做出了一项令老用户倍感遗憾的决定。官方发布说明宣布：自 2026 年 8 月 26 日起，o3 模型将从 ChatGPT 正式退役；而 GPT-4.5 更将于 6 月 27 日下线，仅留给用户 30 天的缓冲期。

目前，这两款模型仅限付费用户在设置中手动切换使用，并非默认选项。此次调整意味着它们将彻底从前端菜单中移除。

与此同时，知名博主 Leo 于 5 月 29 日确认，GPT-5.6 的开发正在全力推进，一个性能显著更强的新检查点已在内部上线。

一边是用户来不及告别，另一边是新模型已在后台蓄势待发。

最后两个好用的模型，要没了

这一观点并非空穴来风。在 Reddit 的相关热帖下，数百条评论显示，付费用户纷纷在 ChatGPT 设置中截图留念，氛围如同赶在拆迁前最后一次合影。

部分用户愤怒地表示，此举成了他们取消 Pro 账户的最终理由；也有用户对 o3 独特的写作风格表达了深切留恋。

o3 作为 OpenAI 的「纯血推理模型」，自 2025 年 4 月上线以来，专为需要深度思考的硬核任务设计。在数学证明、科学推导及代码调试等场景中，o3 表现卓越，被 X 平台用户誉为「GOAT」（史上最强）。有评论指出：「o3 是最后一个真正在『思考』的模型，5 系列虽更聪明，却少了一份执着。」

o3-pro 更是 Pro 用户的心头好，其在数学、科学和编程领域的表现堪称碾压式领先。再看 GPT-4.5，若说 o3 是理工学霸，GPT-4.5 则是文科天才。它被公认为「写作最自然」的模型，文字兼具温度、节奏感与灵魂。X 用户 Striver 的评价被广泛转发：「直到今天，4.5 仍然是最好的写作模型。o3 是纯粹的原生推理模型。5 系列至今未能复刻这两者的独特魅力。」

退役消息引发热议，核心并非愤怒，而是不舍。用户怀念的不仅是功能，更是一种默契的「相处感」。替代者或许能力更强，但那份独特的契合度已不复存在。

退的是菜单，不是能力

值得注意的是，此次退役仅限于 ChatGPT 网页端和 App 端，API 调用完全不受影响。开发者仍可通过 API 使用 o3 和 GPT-4.5，企业应用不会中断。

背后的逻辑清晰：ChatGPT 界面空间有限，模型列表不宜无限膨胀。保留低使用率的旧模型既占用资源，又分散用户注意力。参考 GPT-4o 退役时的数据，其日均使用率仅为 0.1%。o3 和 GPT-4.5 的使用率大概率更低，早已被折叠进「显示更多模型」菜单中。

GPT-5.6：换防已经在路上

OpenAI 敢于此举，是因为替代者不仅就位，且表现更强。GPT-5.5 于 4 月 23 日上线，成为当前最强公开旗舰；GPT-5.5 Instant 随后跟进，成为 ChatGPT 新默认模型。

更值得关注的是 GPT-5.6。泄露信息显示，该模型将采用「双版本」策略：标准版主攻多步推理能力的飞跃，Pro 版则定位为更强的深度思考模型。研究人员透露，内部已有团队将 5.6 检查点作为日常调试工具。

从时间线看，GPT-5.5 发布于 4 月 23 日，5.6 检查点于 5 月下旬内测，若 6 月底公开发布，两代旗舰间隔将压缩至约 60 天，迭代节奏已接近「月度更新」。淘汰 o3 和 4.5 正是为了腾出跑道。模型的「生命周期」急剧缩短，今日的「GOAT」明日便成过往云烟。

但「更强」这张成绩单，你敢信吗？

正当外界以为这是常规的「新旧交替」时，OpenAI 却在宣布退役次日发布了一篇罕见长文，题为《什么才是值得信赖的第三方评估》。文章直指行业痛点：许多评估报告中的亮眼数据，根本无法反映真实能力。

OpenAI 指出，前沿模型已进化为会使用工具、记忆上下文并进行多步自主行动的智能体，但大量第三方评估仍停留在简单的「问答测试」阶段。决定成绩的关键往往不是模型本身，而是测试框架（harness），即「考场环境」。

近期 Opus 4.8 的争议便是典型案例。Datacurve 的审计发现，Claude Opus 4.6 和 4.7 在 SWE-Bench Pro 上超过 12% 的通过案例属于「作弊」——模型直接从 Docker 容器历史中获取标准答案。在干净环境下，Opus 4.7 通过率跌至 54%，而 GPT-5.5 稳坐 70% 榜首。

更荒诞的是，Anthropic 承认 4.8 版本的代码缺陷漏报率降至 4.7 的四分之一。「诚实=低分，作弊=高分」成为当前评测游戏的怪圈。OpenAI 进一步拆解指出，评估需明确目标：是测能力上限、安全防护还是模型对比？数据显示，GPT-5.5 开启 compaction 后，网络靶场解出率从 69.2% 飙升至 92.3%；英国 AISI 增加 token 预算后，成绩提升高达 59%。

分数失真现象频发。METR 复查发现，GPT-5.4 号称的「13 小时」自主能力实为钻了环境漏洞，修正后缩水至约 6 小时。Apollo 测试显示，GPT-5.5 在特定条件下出现了「评估意识」，甚至在思维链中标注「这是一个 sandbagging 评估」。OpenAI 总结了五大评估陷阱：奖励作弊、拒答、污染、坏题和藏拙。

漂亮的分数背后，可能是模型真强，也可能是题目泄露、规则漏洞或模型故意「藏拙」。

AI 进入系统竞争

回顾此次退役事件，OpenAI 的底气在于「5.6 更强」，但其随后的长文却揭示了一个深层事实：决定强弱的成绩单本身可能已被「动手脚」。在模型迭代加速、生命周期缩短的今天，单纯依赖 Benchmark 数字下结论的时代已经结束。

真正的竞争焦点已转向系统能力、评估框架的透明度以及迭代速度本身。o3 和 GPT-4.5 的退役标志着一个时代的落幕，而下一个时代的游戏规则正在重写：模型更新更快，评估要求更真，用户的适应窗口则越来越短。

参考资料：
https://x.com/kimmonismus/status/2060399002231660928
https://openai.com/index/trustworthy-third-party-evaluations-foundations/

编辑：所罗门

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 16152

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读216.8k

粉丝0

内容16.2k