被谷歌施压后,OpenAI于周四发布最新模型系列GPT-5.2,全面升级专业场景下的性能表现。
(来源:OpenAI官网)
GPT-5.2全面优化专业任务能力
GPT-5.2被OpenAI称为目前在“专业知识工作”方面表现最优的模型系列,在电子表格制作、演示文稿生成、图像理解、代码编写及长上下文处理等方面均超越前代。
该系列包含三个版本:Instant 针对常规查询如检索、翻译和写作进行速度优化;Thinking 擅长编程、数学与复杂文档分析;顶级型号 Pro 则为高难度问题提供最高准确率与稳定性。
OpenAI强调,GPT-5.2 Thinking 是当前最适合现实专业场景的模型。在涵盖44个职业任务的GDPval测试中,其表现优于或等同于行业顶尖专家的比例达70.9%,涉及销售提案、财务建模、流程图设计等实际应用。
在金融领域,GPT-5.2 Thinking的表现显著优于GPT-5.1,尤其在人力资源规划模型、股权结构表和项目管理表格的生成上展现出明显进步。
(来源:OpenAI)
技术能力全面领先
除办公自动化外,GPT-5.2在编码、数学、科学推理、视觉识别、长文本理解和工具调用等多项基准测试中刷新纪录。OpenAI表示,这些提升将推动更可靠的AI代理流程、可投入生产的代码生成以及能在大规模真实数据中运行的复杂系统落地。
横向对比显示,GPT-5.2 Thinking 在多数推理任务中略优于 Gemini 3 和 Claude Opus 4.5,覆盖软件工程(SWE-Bench Pro)、博士级科学知识(GPQA Diamond)以及抽象推理(ARC-AGI)等领域。
(来源:OpenAI)
OpenAI产品负责人Max Schwarzer透露,GPT-5.2 Thinking 的错误率较前代降低38%,显著提升其在决策支持、研究辅助和内容创作中的可靠性。
全面推送与未来展望
自发布日起,GPT-5.2已面向所有ChatGPT付费用户及API开发者开放。此次更新被视为OpenAI应对谷歌竞争的关键举措。
CEO奥尔特曼表示,这仅是“第一拳”,并预告下周将推出一项“圣诞礼物”级的新功能。他同时指出,Gemini 3对公司影响有限,并预计OpenAI将在明年1月结束“红色警报”状态。
首席产品官Fidji Simo透露,公司已在部分地区试点年龄估算系统,用于限制向未成年人展示的内容,为明年一季度推出“成人模式”做准备。
本次发布未涉及图像生成器更新,引发部分关注。尽管此前有消息称OpenAI计划于明年1月发布具备更强图像能力和个性化功能的新模型,但官方未予证实。


