GPT-5.2 正式发布:性能提升明显,但能否撼动 Gemini?
OpenAI 于今日凌晨正式向所有用户推出 GPT-5.2,此次更新包含三个模型:GPT-5.2 Instant、Thinking 和 Pro。尽管在多项测试中表现亮眼,但在与 Gemini 3.0 Pro 的对比中仍显差距。
此次升级最显著的变化在于推理能力增强和知识库更新。GPT-5.2 的知识截止日期已延至 2025 年 8 月,相较 GPT-5.1(2024 年 9 月)和 Gemini 3.0(2025 年 1 月)更具优势。
推理更强,响应更慢
用户普遍反馈,GPT-5.2 Thinking 与 Pro 模型在处理复杂任务时推理深度更高,但响应时间明显延长。有测试显示,生成一张 HLE 测试成绩图表耗时长达 24 分钟。对于简单任务,Thinking 与 Pro 模型响应差异较小;但在高负载场景下,延迟问题突出。
尽管耗时较长,输出内容准确性较高,甚至在图表中准确标注了 Gemini 3.0 Pro 的领先表现。
编程与多模态能力实测
GPT-5.2 在网页开发、3D 建模等任务中展现出强大能力。LMArena 实测视频显示,其使用 three.js 成功完成高质量 3D 建模。多个网友成功通过提示词构建交互式 3D 场景,如可导出 4K 分辨率的“雪天冰块王国”及“哥特风淹没城市”。
在 WebDev 项目排名中,GPT-5.2-High 列第二,整体 GPT-5.2 排名第六,Gemini 3.0 Pro 居第三,Claude 位列第一。
图像理解与设计能力评估
官方称 GPT-5.2 Thinking 在图表推理与界面理解错误率降低约 50%。测试中对模糊主板图像的标注较前代更为全面,但与专用视觉模型 Nano Banana Pro 相比,定位准确性仍有差距。
前端设计方面,GPT-5.2 审美水平有所提升,摆脱了此前“渐变紫”风格泛滥的问题,但在布局上偏好大量方框与网格结构,被指缺乏创新。
在 DesignArena 设计榜单中,GPT-5.2 从十名开外跃升至第三,但仍落后于 Gemini 3.0 Pro。
写作与长文本生成突破
部分提前体验用户反馈,GPT-5.2 具备初步长篇小说创作能力。在要求生成 50 个情节创意或撰写 200 页书籍时,模型未拒绝任务,并尝试构建完整结构,甚至输出 PDF 文件。虽内容尚显单薄,但显示出更强的任务遵循与思维深度。
价格上升,竞争力受限
GPT-5.2 整体定价较 GPT-5.1 上涨约 40%,Pro 模型输入成本达 21 美元/百万 Token,输出高达 168 美元。相比之下,Claude Opus 4.5 虽贵,但在编程任务中表现更优,进一步凸显 GPT-5.2 性价比短板。
Gemini 持续施压
谷歌并未停滞,同步推出重新设计的 Gemini Deep Research,支持 API 调用,并将在搜索、NotebookLM 等产品中集成。在 HLE 测试中,新 Gemini 深度研究 Agent 得分 46.4%,超越 GPT-5.2 Thinking(45.5%),仅次于 GPT-5.2 Pro(50.0%)。
综合来看,GPT-5.2 在推理、知识更新、多模态等方面均有进步,尤其适合专业级长期推理任务。然而,在代码稳定性、视觉精准性、设计审美及价格方面仍面临挑战。Gemini 的持续进化也意味着 OpenAI 尚未取得决定性领先,“红色警报”仍未解除。

