OpenAI 终于,亮剑了。
就在刚刚,OpenAI 正式宣布 GPT-5.2 全面上线:

这次一口气推出三个版本:GPT-5.2 Instant、GPT-5.2 Thinking 和 GPT-5.2 Pro。
这一次,可以说是终于把 Claude Opus 4.5 和 Gemini 3 Pro 一起按在地上使劲摩擦了!
全方位碾压
先来看图,GPT-5.2 Thinking 在几乎所有基准测试上都拿下了最高分:
SWE-Bench Pro(软件工程):55.6%,Claude Opus 4.5 是 52.0%,Gemini 3 Pro 是 43.3%。

GPQA Diamond(科学问题):92.4%,比 GPT-5.1 Thinking 的 88.1% 又高了一截。
AIME 2025(竞赛数学):直接打到 100%,满分。Claude Opus 4.5 是 92.8%,Gemini 3 Pro 是 95.0%。
ARC-AGI-2(抽象推理):52.9%,而 Claude Opus 4.5 只有 37.6%,Gemini 3 Pro 是 31.1%。
FrontierMath(高等数学 Tier 1-3):40.3%,Gemini 3 Pro 只有 37.6%。
数据展示出:
GPT-5.2 Thinking 在推理能力上已经拉开了代差。
人类专家水平
最为值得关注的,是 GDPval 的评测。
GDPval 专门测试知识工作任务,覆盖 44 种职业,包括做 PPT、做表格、写文档这些实打实的办公场景。
GPT-5.2 Thinking 在这项测试中拿到了 70.9% 的胜率——这是 OpenAI 第一个达到人类专家水平的模型。
这什么概念呢?
就是说让 GPT-5.2 Thinking 和行业内的专业人士 PK,它赢了超过七成。
而上一代 GPT-5 Thinking 只有 38.8%,连专家水平线的一半都不到。
三个版本,各司其职
这次发布的三个版本定位很清晰:
GPT-5.2 Thinking 主打专业工作:
-
最先进的长上下文推理能力
-
表格创建、分析和格式化大幅提升
-
幻灯片制作能力初步增强
GPT-5.2 Instant 专为日常学习和工作设计:
-
保持了 GPT-5.1 温暖、有对话感的风格
-
解释更清晰,关键信息优先呈现
-
教程和指南写得更好
-
技术写作和翻译能力更强
-
更好地支持学习和职业指导
GPT-5.2 Pro 是最聪明、最可靠的版本:
-
在编程等复杂领域表现更强
-
最适合辅助和加速科学研究
发布节奏
Plus、Pro、Business 和 Enterprise 用户今天就能用上 GPT-5.2 的三个版本。Free 和 Go 用户明天开放。
API 和 Codex 也已经同步更新。
OpenAI 表示,GPT-5.2 是一系列模型改进的一部分,他们还在持续迭代,解决过度拒绝和延迟等已知问题。
至于 GPT-5.1,付费用户可以作为 legacy model 继续使用三个月。
循环,仍在继续
Sam:终于轮到我了!

-
官方博客:https://openai.com/index/introducing-gpt-5-2/

