大数跨境
0
0

GPT-5.2 深夜炸场:智商暴涨 3 倍,OpenAI 杀回来了!

GPT-5.2 深夜炸场:智商暴涨 3 倍,OpenAI 杀回来了! AI信息Gap
2025-12-12
3
导读:刚刚,GPT-5.2 如期而至。

刚刚,GPT-5.2 如期发布。

距离上一版本 GPT-5.1 上线不足一个月,更新节奏之快在 OpenAI 历史上罕见。

此前,CEO Sam Altman 宣布启动“Code Red”紧急响应机制,暂停多项新功能开发,集中资源提升 ChatGPT 性能。此次发布被视为该战略的首个成果。

01|首次达到人类专家水平

OpenAI 使用 GDPval 测试评估 AI 在真实工作场景中的表现,涵盖 44 种职业的知识型任务,如制作 PPT、撰写报告、处理表格等。

GPT-5.2 Thinking 在该测试中胜率或平局率达 70.9%,GPT-5.2 Pro 更达 74.1%。

这意味着,在超过七成的任务中,GPT-5.2 表现优于或等同于行业专家。

对比前代模型 GPT-5 Thinking(38.8%)、谷歌 Gemini 3 Pro(53.3%)和 Anthropic 的 Claude Opus 4.5(59.6%),GPT-5.2 实现显著跃升。

「这是我们第一个达到人类专家水平的模型。」—— OpenAI

02|ARC-AGI-2:抽象推理能力三倍提升

ARC-AGI-2 被称为“AI 领域的图灵测试”,专用于评估模型的抽象推理能力,防止通过记忆或模式匹配作弊。

此前最佳成绩为 GPT-5.1 Thinking 的 17.6%。Gemini 3 Pro 发布时提升至 31.1%,引发行业关注。

此次 GPT-5.2 Thinking 成绩飙升至 52.9%,Pro 版本达 54.2%,实现近三倍增长。

03|编程、数学与多模态全面升级

编程能力

SWE Bench Pro 是 SWE Bench Verified 的进阶版本,难度更高,覆盖四种编程语言。

GPT-5.2 Thinking 在 SWE Bench Pro 上准确率达 55.6%,在 SWE Bench Verified 上达 80%。

数学推理

在 AIME 2025(美国数学竞赛)测试中,GPT-5.2 Thinking 实现 100% 满分,且未使用任何外部工具,纯靠模型推理完成。

这是首个在该测试中取得满分的 AI 模型。

多模态能力

多模态理解错误率下降约 50%。

CharXiv Reasoning(科学图表推理)准确率达 88.7%,ScreenSpot Pro(软件界面理解)达 86.3%。

模型对图表、截图和技术文档的理解更加精准可靠。

此外,GPT-5.2 Thinking 的幻觉现象较前代减少 30%。

「和所有模型一样,GPT-5.2 并不完美。对于任何重要的事情,请复核它的答案。」

04|三版本上线,今日起逐步推送

GPT-5.2 推出三个版本:

  • Instant:响应迅速,适用于日常问答、写作、翻译等任务,延续 GPT-5.1 温暖对话风格,信息呈现更清晰。
  • Thinking:擅长编程、文档分析、数学推理与决策规划,适合需深度思考的场景。
  • Pro:性能最强,响应较慢,适用于对输出质量要求高于时效性的任务。

ChatGPT 付费用户(Plus、Pro、Business、Enterprise)将从今日起陆续获得更新;免费用户及 ChatGPT Go 用户将于次日开放。

GPT-5.1 将作为旧版模型保留三个月后下线。

API 和 Codex 已同步上线。

GPT-5.2 API 定价为 1.75 美元/百万输入 tokens,14 美元/百万输出 tokens,较 GPT-5.1 上涨约 40%。OpenAI 表示,因 token 效率提升,实际任务成本可能更低。

05|内部代号“大蒜”,Code Red 效应显现

此次发布早有预兆。ChatGPT 官方账号此前发布 Sam Altman 在厨房炒大蒜的照片,暗示新模型代号为“Garlic”(大蒜)。

OpenAI 应用 CEO Fidji Simo 表示,GPT-5.2 已开发数月,并非 Code Red 的即时产物,但该机制确实促使公司资源向 ChatGPT 集中。

Sam Altman 预计将于明年一月解除 Code Red 状态。

AI 领域的竞争正持续加剧,技术迭代速度远超预期。

【声明】内容源于网络
0
0
AI信息Gap
各类跨境出海行业相关资讯
内容 666
粉丝 0
AI信息Gap 各类跨境出海行业相关资讯
总阅读25.1k
粉丝0
内容666