点击上方蓝字关注我们
北京时间12月12日凌晨,OpenAI在成立十周年之际正式发布了GPT-5.2系列模型。这一被定位为“迄今为止功能最强大的专业知识工作模型”的发布,标志着AI助手在专业办公场景的应用迈入新阶段。
新模型在多项基准测试中表现优异,尤其在现实世界任务中展现出超越人类专家的潜力。
GPT-5.2系列包含三个版本:Instant(即时版)、Thinking(思考版)和Pro(专业版),分别针对不同使用场景进行了优化。
Instant版:适合日常对话和快速任务,保持了自然流畅的对话风格,同时在速度和实用性上全面提升。
Thinking版:专注于深度逻辑推理和复杂项目,是企业工作流的理想选择。
Pro版:则面向研究级任务和最高质量输出,在推理链条完整性和错误率控制上表现最佳。
价格方面,GPT-5.2标准版输入价格为每百万token 1.75美元,输出为14美元,较GPT-5.1上涨约40%。Pro版输入价格为21美元,输出为168美元。
OpenAI表示,虽然单价上涨,但由于token使用效率提高,实际完成任务的总成本可能不升反降。

GPT-5.2最引人注目的改进在于其专业知识处理能力。OpenAI引入了全新的GDPval基准测试,该测试覆盖了美国GDP贡献最大的9个行业中的44种职业,包含1320个真实业务场景。
测试结果显示,GPT-5.2 Thinking在70.9%的任务中表现超越或持平人类专家,而GPT-5.2 Pro更是达到了74.1%的优异表现。
在投资银行 spreadsheet 建模内部测试中,GPT-5.2 Thinking的平均得分达到68.4%,比GPT-5.1的59.1%提升了9.3个百分点。并排比较显示,新模型生成的电子表格和PPT在复杂度和格式上都有明显改进。

在编程方面,GPT-5.2 Thinking在SWE-Bench Pro测试中取得了55.6%的成绩,创造了新的纪录。与仅测试Python的SWE-bench Verified不同,SWE-Bench Pro测试四种编程语言,更具挑战性和工业相关性。
在SWE-bench Verified上,GPT-5.2 Thinking拿下了80%的高分,表明其在调试生产环境代码、实现功能请求、重构大型代码库方面具有更高可靠性。前端开发方面,新模型对现代UI、WebGL/Three.js和复杂3D界面的理解能力明显增强。

GPT-5.2在长上下文推理方面树立了新标准。新模型支持最高40万token的上下文窗口,在OpenAI MRCRv2测试中表现卓越。在"大海捞针"测试中,GPT-5.2在256k token长度下处理4个信息点的准确率接近100%,而GPT-5.1同样条件下仅有约30%的准确率。
对于超出最大上下文窗口的任务,GPT-5.2 Thinking兼容新的Responses/compact端点,通过摘要性迭代检索扩展可处理范围,为专业人士处理超长文档提供了便利。

GPT-5.2 Thinking在视觉能力方面取得显著进步,成为OpenAI目前最强的视觉模型。在图表推理和软件界面理解方面的错误率大约减少了一半。新模型对图像中元素的位置有了更强的掌握,能够更准确地解读仪表板、产品截图、技术图表和视觉报告。

在测试中,即使面对低质量的主板图像,GPT-5.2也能识别主要区域并标注大致位置,而GPT-5.1仅能标注少数几个部分。这一进步使得GPT-5.2能够更好地支持金融、运营、工程、设计等以视觉信息为核心的工作流。
在企业工作流场景中,GPT-5.2展现出更强的工具调用能力。在Tau2-bench Telecom多轮客服任务测试中,新模型取得了98.7%的完成度,覆盖订票、退款、延误补偿等复杂场景。
GPT-5.2的"工具决策粒度"更加稳定,在连续20-40步的任务中不易出现跳步、误调用等问题。例如,在处理旅客航班延误、错过转机、行李丢失及特殊座位需求等多重问题时,GPT-5.2能够一次性管理整个任务链,提供比前代更完整的结果。

1. 人力资源规划表生成
当提示"创建一个人力资源规划模型:人员数量、招聘计划、离职率和预算影响,包括工程、市场营销、法律和销售部门"时,GPT-5.2 Thinking能够生成结构完整、公式正确的专业级电子表格,而GPT-5.1的生成结果则存在多处错误和空白。

2. 前端应用快速开发
通过单一提示词,GPT-5.2能够生成完整的单页应用,如海浪模拟、节日贺卡制作器和打字雨游戏等,展示出强大的前端开发能力。
3.解读仪表板、产品截图、技术图表和视觉报告
在测试中,即使面对低质量的主板图像,GPT-5.2也能识别主要区域并标注大致位置,而GPT-5.1仅能标注少数几个部分。这一进步使得GPT-5.2能够更好地支持金融、运营、工程、设计等以视觉信息为核心的工作流。

GPT-5.2的推出标志着AI在专业知识工作领域迈出了重要一步。新模型不仅在传统基准测试中表现优异,更在真实世界任务中展现出实用价值。
随着GPT-5.2向ChatGPT付费用户开放,专业知识工作者将能更便捷地体验这一强大工具,进一步提升办公效率和质量。
OpenAI表示,未来将继续优化模型性能,特别是在多模态理解和复杂推理方面。对于企业和个人用户而言,GPT-5.2无疑将成为提升竞争力的重要工具。

以上内容参考自以下文章,如有侵权,请联系删除
GPT-5.2来了!首个「专家级」AI复仇成功,牛马打工人终于得救了
一文读懂GPT-5.2 : 直指“经济价值”,硬刚Gemini3的剧情未出现

