

GPT-5.2 深夜炸场：智商暴涨 3 倍，OpenAI 杀回来了！

AI信息Gap

2025-12-12

导读：刚刚，GPT-5.2 如期而至。

刚刚，GPT-5.2 如期发布。

距离上一版本 GPT-5.1 上线不足一个月，更新节奏之快在 OpenAI 历史上罕见。

此前，CEO Sam Altman 宣布启动“Code Red”紧急响应机制，暂停多项新功能开发，集中资源提升 ChatGPT 性能。此次发布被视为该战略的首个成果。

01｜首次达到人类专家水平

OpenAI 使用 GDPval 测试评估 AI 在真实工作场景中的表现，涵盖 44 种职业的知识型任务，如制作 PPT、撰写报告、处理表格等。

GPT-5.2 Thinking 在该测试中胜率或平局率达 70.9%，GPT-5.2 Pro 更达 74.1%。

这意味着，在超过七成的任务中，GPT-5.2 表现优于或等同于行业专家。

对比前代模型 GPT-5 Thinking（38.8%）、谷歌 Gemini 3 Pro（53.3%）和 Anthropic 的 Claude Opus 4.5（59.6%），GPT-5.2 实现显著跃升。

「这是我们第一个达到人类专家水平的模型。」—— OpenAI

02｜ARC-AGI-2：抽象推理能力三倍提升

ARC-AGI-2 被称为“AI 领域的图灵测试”，专用于评估模型的抽象推理能力，防止通过记忆或模式匹配作弊。

此前最佳成绩为 GPT-5.1 Thinking 的 17.6%。Gemini 3 Pro 发布时提升至 31.1%，引发行业关注。

此次 GPT-5.2 Thinking 成绩飙升至 52.9%，Pro 版本达 54.2%，实现近三倍增长。

03｜编程、数学与多模态全面升级

编程能力

SWE Bench Pro 是 SWE Bench Verified 的进阶版本，难度更高，覆盖四种编程语言。

GPT-5.2 Thinking 在 SWE Bench Pro 上准确率达 55.6%，在 SWE Bench Verified 上达 80%。

数学推理

在 AIME 2025（美国数学竞赛）测试中，GPT-5.2 Thinking 实现 100% 满分，且未使用任何外部工具，纯靠模型推理完成。

这是首个在该测试中取得满分的 AI 模型。

多模态能力

多模态理解错误率下降约 50%。

CharXiv Reasoning（科学图表推理）准确率达 88.7%，ScreenSpot Pro（软件界面理解）达 86.3%。

模型对图表、截图和技术文档的理解更加精准可靠。

此外，GPT-5.2 Thinking 的幻觉现象较前代减少 30%。

「和所有模型一样，GPT-5.2 并不完美。对于任何重要的事情，请复核它的答案。」

04｜三版本上线，今日起逐步推送

GPT-5.2 推出三个版本：

Instant：响应迅速，适用于日常问答、写作、翻译等任务，延续 GPT-5.1 温暖对话风格，信息呈现更清晰。
Thinking：擅长编程、文档分析、数学推理与决策规划，适合需深度思考的场景。
Pro：性能最强，响应较慢，适用于对输出质量要求高于时效性的任务。

ChatGPT 付费用户（Plus、Pro、Business、Enterprise）将从今日起陆续获得更新；免费用户及 ChatGPT Go 用户将于次日开放。

GPT-5.1 将作为旧版模型保留三个月后下线。

API 和 Codex 已同步上线。

GPT-5.2 API 定价为 1.75 美元/百万输入 tokens，14 美元/百万输出 tokens，较 GPT-5.1 上涨约 40%。OpenAI 表示，因 token 效率提升，实际任务成本可能更低。

05｜内部代号“大蒜”，Code Red 效应显现

此次发布早有预兆。ChatGPT 官方账号此前发布 Sam Altman 在厨房炒大蒜的照片，暗示新模型代号为“Garlic”（大蒜）。

OpenAI 应用 CEO Fidji Simo 表示，GPT-5.2 已开发数月，并非 Code Red 的即时产物，但该机制确实促使公司资源向 ChatGPT 集中。

Sam Altman 预计将于明年一月解除 Code Red 状态。

AI 领域的竞争正持续加剧，技术迭代速度远超预期。

【声明】内容源于网络

AI信息Gap

各类跨境出海行业相关资讯

内容 666

粉丝 0

AI信息Gap 各类跨境出海行业相关资讯

总阅读25.1k

粉丝0

内容666