整理|华卫
OpenAI正式发布GPT-5.2系列模型,推出三个版本:GPT-5.2 Instant、GPT-5.2 Thinking和GPT-5.2 Pro。新版本在通用智能、长上下文理解、工具调用及视觉能力方面实现全面升级,显著提升复杂现实任务的端到端执行能力。
即日起,三款模型已通过ChatGPT平台向付费用户推送,并向开发者开放API接口。GPT-5.1将作为旧版继续支持三个月后下线。
GPT-5.2三大版本定位清晰
GPT-5.2 Instant:适用于日常信息检索、问答、操作指引、文档撰写与翻译等高频场景,延续自然对话风格,响应高效。
GPT-5.2 Thinking:面向深度工作需求,擅长编程开发、长文本总结、文件解析、数学逻辑推演及结构化决策支持。
GPT-5.2 Pro:专为高难度问题设计,提供最高质量输出,适合对准确性要求极高的专业任务,响应时间相对较长。
OpenAI称,这是目前功能最强的知识型工作模型系列,在涵盖44个职业的明确任务测试中表现超越行业专家。
经济效率显著提升,专业能力对标人类专家
GPT-5.2 Thinking在GDPval评测中创下新高,70.9%的任务表现优于或持平顶尖专业人士。其产出速度达人工的11倍以上,成本不足1%,具备极高经济性。
在初级投行分析师建模测试中,GPT-5.2 Thinking平均得分从59.1%提升至68.4%,电子表格与演示文稿生成质量明显优化。
一位评测人员表示:“输出成果版式精良、建议专业,接近专业团队水准。”
多模态与长上下文能力突破
GPT-5.2 Thinking是当前性能最强的多模态视觉模型,图像元素位置感知能力增强,图表推理与界面理解错误率降低约50%,可精准解析数据仪表盘、技术图纸、产品截图等视觉内容,广泛支持金融、工程、运营等领域。
在需处理数十万词元的深度文档分析任务中,GPT-5.2 Thinking在4-needle MRCR变体测试(词元上限25.6万)中实现近100%准确率,远超前代模型。
该能力使模型能高效处理合同、研究报告、会议记录等长篇幅文档,保持跨文件逻辑连贯,适用于信息整合与复杂决策场景。
在Tau2-bench Telecom测试中取得98.7%成绩,展现稳定调用工具完成冗长多轮任务的能力,降低端到端工作流中断率。
编程能力跃升,但响应速度受限
在SWE-Bench Pro(覆盖四种语言)测试中,GPT-5.2 Thinking获得55.6%成绩;在SWE-Bench Verified测试中达80%,可稳定完成生产环境代码调试、功能实现、大型代码库重构及漏洞修复上线。
前端开发方面,尤其在涉及3D元素的非标界面开发中表现突出,成为全栈工程师高效协作工具。
Windsurf CEO Jeff Wang评价:“这是GPT-5以来最大的飞跃,已是公司核心工作负载默认版本。”
多家AI编程企业如Cognition、Warp、JetBrains等确认,GPT-5.2在交互式编程、代码审查与漏洞排查中实现业界领先性能。
HyperWriteAI CEO Matt Shumer实测反馈:
- 指令遵循能力与攻坚意愿显著增强;
- 代码生成更强大、自主性更高、逻辑更严谨;
- 视觉与长上下文处理能力突出;
- 主要短板为响应慢,思考模式普遍延迟较长;
- GPT-5.2 Pro深度推理惊艳,但偶有持续运算无果情况;
- Codex CLI中表现最接近专业级,但高推理模式耗时极长。
科研性能获自评“最优”,幻觉减少30%
OpenAI称GPT-5.2 Pro与Thinking为当前全球助力科研工作的最优模型。
在研究生级别问答基准GPQA Diamond中,GPT-5.2 Pro达93.2%,Thinking为92.4%;在专家级数学测试FrontierMath中,Thinking解题率达40.3%。
一项研究利用GPT-5.2 Pro成功提出统计学习理论领域的有效证明,经专家评审确认成立。
在ARC-AGI-1验证测试中,GPT-5.2 Pro首次突破90%得分,较前代成本降低约390倍;在更高难度的ARC-AGI-2中,Pro版得分54.2%,Thinking为52.9%。
Triple Whale CEO AJ Orbach评价:“系统架构彻底变革,从脆弱多智能体简化为拥有20多个工具的超级智能体,维护成本降低百倍,延迟更低,工具调用更强,仅需一行提示即可执行。”
数据显示,GPT-5.2 Thinking相比5.1版本,在匿名查询中错误回复减少30%,可靠性提升。
OpenAI提醒:“尽管进步显著,模型仍不完美,关键任务需核实结果。”
定价策略公布,后续版本即将上线
ChatGPT订阅价格不变。API层面,GPT-5.2因性能更强,单价高于GPT-5.1:每百万输入词元1.75美元,每百万输出词元14美元,缓存输入享90%折扣。
未来几周内,OpenAI计划推出针对Codex优化的GPT-5.2专用版本。目前该模型已在Codex平台可用。


