大数跨境
0
0

GPT-5.2全力出击!碾压44类专业工作,实测编程同价位无对手、深度推理封神,但速度太拉胯了

GPT-5.2全力出击!碾压44类专业工作,实测编程同价位无对手、深度推理封神,但速度太拉胯了 AI前线
2025-12-12
0
导读:GPT-5.2 Thinking 是迄今为止最适合实际专业应用的模型,也是其首款性能达到或超越人类专家水平的模型。

整理|华卫

OpenAI正式发布GPT-5.2系列模型,推出三个版本:GPT-5.2 Instant、GPT-5.2 Thinking和GPT-5.2 Pro。新版本在通用智能、长上下文理解、工具调用及视觉能力方面实现全面升级,显著提升复杂现实任务的端到端执行能力。

即日起,三款模型已通过ChatGPT平台向付费用户推送,并向开发者开放API接口。GPT-5.1将作为旧版继续支持三个月后下线。

GPT-5.2三大版本定位清晰

  • GPT-5.2 Instant:适用于日常信息检索、问答、操作指引、文档撰写与翻译等高频场景,延续自然对话风格,响应高效。

  • GPT-5.2 Thinking:面向深度工作需求,擅长编程开发、长文本总结、文件解析、数学逻辑推演及结构化决策支持。

  • GPT-5.2 Pro:专为高难度问题设计,提供最高质量输出,适合对准确性要求极高的专业任务,响应时间相对较长。

OpenAI称,这是目前功能最强的知识型工作模型系列,在涵盖44个职业的明确任务测试中表现超越行业专家。

经济效率显著提升,专业能力对标人类专家

GPT-5.2 Thinking在GDPval评测中创下新高,70.9%的任务表现优于或持平顶尖专业人士。其产出速度达人工的11倍以上,成本不足1%,具备极高经济性。

在初级投行分析师建模测试中,GPT-5.2 Thinking平均得分从59.1%提升至68.4%,电子表格与演示文稿生成质量明显优化。

一位评测人员表示:“输出成果版式精良、建议专业,接近专业团队水准。”

多模态与长上下文能力突破

GPT-5.2 Thinking是当前性能最强的多模态视觉模型,图像元素位置感知能力增强,图表推理与界面理解错误率降低约50%,可精准解析数据仪表盘、技术图纸、产品截图等视觉内容,广泛支持金融、工程、运营等领域。

在需处理数十万词元的深度文档分析任务中,GPT-5.2 Thinking在4-needle MRCR变体测试(词元上限25.6万)中实现近100%准确率,远超前代模型。

该能力使模型能高效处理合同、研究报告、会议记录等长篇幅文档,保持跨文件逻辑连贯,适用于信息整合与复杂决策场景。

在Tau2-bench Telecom测试中取得98.7%成绩,展现稳定调用工具完成冗长多轮任务的能力,降低端到端工作流中断率。

编程能力跃升,但响应速度受限

在SWE-Bench Pro(覆盖四种语言)测试中,GPT-5.2 Thinking获得55.6%成绩;在SWE-Bench Verified测试中达80%,可稳定完成生产环境代码调试、功能实现、大型代码库重构及漏洞修复上线。

前端开发方面,尤其在涉及3D元素的非标界面开发中表现突出,成为全栈工程师高效协作工具。

Windsurf CEO Jeff Wang评价:“这是GPT-5以来最大的飞跃,已是公司核心工作负载默认版本。”

多家AI编程企业如Cognition、Warp、JetBrains等确认,GPT-5.2在交互式编程、代码审查与漏洞排查中实现业界领先性能。

HyperWriteAI CEO Matt Shumer实测反馈:

  • 指令遵循能力与攻坚意愿显著增强;
  • 代码生成更强大、自主性更高、逻辑更严谨;
  • 视觉与长上下文处理能力突出;
  • 主要短板为响应慢,思考模式普遍延迟较长;
  • GPT-5.2 Pro深度推理惊艳,但偶有持续运算无果情况;
  • Codex CLI中表现最接近专业级,但高推理模式耗时极长。

科研性能获自评“最优”,幻觉减少30%

OpenAI称GPT-5.2 Pro与Thinking为当前全球助力科研工作的最优模型。

在研究生级别问答基准GPQA Diamond中,GPT-5.2 Pro达93.2%,Thinking为92.4%;在专家级数学测试FrontierMath中,Thinking解题率达40.3%。

一项研究利用GPT-5.2 Pro成功提出统计学习理论领域的有效证明,经专家评审确认成立。

在ARC-AGI-1验证测试中,GPT-5.2 Pro首次突破90%得分,较前代成本降低约390倍;在更高难度的ARC-AGI-2中,Pro版得分54.2%,Thinking为52.9%。

Triple Whale CEO AJ Orbach评价:“系统架构彻底变革,从脆弱多智能体简化为拥有20多个工具的超级智能体,维护成本降低百倍,延迟更低,工具调用更强,仅需一行提示即可执行。”

数据显示,GPT-5.2 Thinking相比5.1版本,在匿名查询中错误回复减少30%,可靠性提升。

OpenAI提醒:“尽管进步显著,模型仍不完美,关键任务需核实结果。”

定价策略公布,后续版本即将上线

ChatGPT订阅价格不变。API层面,GPT-5.2因性能更强,单价高于GPT-5.1:每百万输入词元1.75美元,每百万输出词元14美元,缓存输入享90%折扣。

未来几周内,OpenAI计划推出针对Codex优化的GPT-5.2专用版本。目前该模型已在Codex平台可用。

【声明】内容源于网络
0
0
AI前线
面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。
内容 7982
粉丝 0
AI前线 面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。
总阅读43.0k
粉丝0
内容8.0k