GPT-5.2 上线！全面超越 Claude Opus4.5 及 Gemimi 3.0 Pro



GPT-5.2 上线！全面超越 Claude Opus4.5 及 Gemimi 3.0 Pro

AGI Hunt

2025-12-12

导读：终于，亮剑了

OpenAI 终于，亮剑了。

就在刚刚，OpenAI 正式宣布 GPT-5.2 全面上线：

这次一口气推出三个版本：GPT-5.2 Instant、GPT-5.2 Thinking 和 GPT-5.2 Pro。

这一次，可以说是终于把 Claude Opus 4.5 和 Gemini 3 Pro 一起按在地上使劲摩擦了！

全方位碾压

先来看图，GPT-5.2 Thinking 在几乎所有基准测试上都拿下了最高分：

SWE-Bench Pro（软件工程）：55.6%，Claude Opus 4.5 是 52.0%，Gemini 3 Pro 是 43.3%。

GPQA Diamond（科学问题）：92.4%，比 GPT-5.1 Thinking 的 88.1% 又高了一截。

AIME 2025（竞赛数学）：直接打到 100%，满分。Claude Opus 4.5 是 92.8%，Gemini 3 Pro 是 95.0%。

ARC-AGI-2（抽象推理）：52.9%，而 Claude Opus 4.5 只有 37.6%，Gemini 3 Pro 是 31.1%。

FrontierMath（高等数学 Tier 1-3）：40.3%，Gemini 3 Pro 只有 37.6%。

数据展示出：

GPT-5.2 Thinking 在推理能力上已经拉开了代差。

人类专家水平

最为值得关注的，是 GDPval 的评测。

GDPval 专门测试知识工作任务，覆盖 44 种职业，包括做 PPT、做表格、写文档这些实打实的办公场景。

GPT-5.2 Thinking 在这项测试中拿到了 70.9% 的胜率——这是 OpenAI 第一个达到人类专家水平的模型。

这什么概念呢？

就是说让 GPT-5.2 Thinking 和行业内的专业人士 PK，它赢了超过七成。

而上一代 GPT-5 Thinking 只有 38.8%，连专家水平线的一半都不到。

三个版本，各司其职

这次发布的三个版本定位很清晰：

GPT-5.2 Thinking 主打专业工作：

最先进的长上下文推理能力
表格创建、分析和格式化大幅提升
幻灯片制作能力初步增强

GPT-5.2 Instant 专为日常学习和工作设计：

保持了 GPT-5.1 温暖、有对话感的风格
解释更清晰，关键信息优先呈现
教程和指南写得更好
技术写作和翻译能力更强
更好地支持学习和职业指导

GPT-5.2 Pro 是最聪明、最可靠的版本：

在编程等复杂领域表现更强
最适合辅助和加速科学研究

发布节奏

Plus、Pro、Business 和 Enterprise 用户今天就能用上 GPT-5.2 的三个版本。Free 和 Go 用户明天开放。

API 和 Codex 也已经同步更新。

OpenAI 表示，GPT-5.2 是一系列模型改进的一部分，他们还在持续迭代，解决过度拒绝和延迟等已知问题。

至于 GPT-5.1，付费用户可以作为 legacy model 继续使用三个月。

循环，仍在继续

Sam：终于轮到我了！

官方博客：https://openai.com/index/introducing-gpt-5-2/

【声明】内容源于网络

AGI Hunt

关注AGI 的沿途风景！

内容 393

粉丝 0

AGI Hunt 关注AGI 的沿途风景！

总阅读32

粉丝0

内容393