

实测 GPT-5.2 ：价格暴涨能力微涨，凭什么反击 Gemini

APPSO

2025-12-12

导读：榜是都刷了，但好像用起来没 Gemini 顺心了

GPT-5.2 正式发布：性能提升明显，但能否撼动 Gemini？

OpenAI 于今日凌晨正式向所有用户推出 GPT-5.2，此次更新包含三个模型：GPT-5.2 Instant、Thinking 和 Pro。尽管在多项测试中表现亮眼，但在与 Gemini 3.0 Pro 的对比中仍显差距。

此次升级最显著的变化在于推理能力增强和知识库更新。GPT-5.2 的知识截止日期已延至 2025 年 8 月，相较 GPT-5.1（2024 年 9 月）和 Gemini 3.0（2025 年 1 月）更具优势。

推理更强，响应更慢

用户普遍反馈，GPT-5.2 Thinking 与 Pro 模型在处理复杂任务时推理深度更高，但响应时间明显延长。有测试显示，生成一张 HLE 测试成绩图表耗时长达 24 分钟。对于简单任务，Thinking 与 Pro 模型响应差异较小；但在高负载场景下，延迟问题突出。

尽管耗时较长，输出内容准确性较高，甚至在图表中准确标注了 Gemini 3.0 Pro 的领先表现。

编程与多模态能力实测

GPT-5.2 在网页开发、3D 建模等任务中展现出强大能力。LMArena 实测视频显示，其使用 three.js 成功完成高质量 3D 建模。多个网友成功通过提示词构建交互式 3D 场景，如可导出 4K 分辨率的“雪天冰块王国”及“哥特风淹没城市”。

在 WebDev 项目排名中，GPT-5.2-High 列第二，整体 GPT-5.2 排名第六，Gemini 3.0 Pro 居第三，Claude 位列第一。

图像理解与设计能力评估

官方称 GPT-5.2 Thinking 在图表推理与界面理解错误率降低约 50%。测试中对模糊主板图像的标注较前代更为全面，但与专用视觉模型 Nano Banana Pro 相比，定位准确性仍有差距。

前端设计方面，GPT-5.2 审美水平有所提升，摆脱了此前“渐变紫”风格泛滥的问题，但在布局上偏好大量方框与网格结构，被指缺乏创新。

在 DesignArena 设计榜单中，GPT-5.2 从十名开外跃升至第三，但仍落后于 Gemini 3.0 Pro。

写作与长文本生成突破

部分提前体验用户反馈，GPT-5.2 具备初步长篇小说创作能力。在要求生成 50 个情节创意或撰写 200 页书籍时，模型未拒绝任务，并尝试构建完整结构，甚至输出 PDF 文件。虽内容尚显单薄，但显示出更强的任务遵循与思维深度。

价格上升，竞争力受限

GPT-5.2 整体定价较 GPT-5.1 上涨约 40%，Pro 模型输入成本达 21 美元/百万 Token，输出高达 168 美元。相比之下，Claude Opus 4.5 虽贵，但在编程任务中表现更优，进一步凸显 GPT-5.2 性价比短板。

Gemini 持续施压

谷歌并未停滞，同步推出重新设计的 Gemini Deep Research，支持 API 调用，并将在搜索、NotebookLM 等产品中集成。在 HLE 测试中，新 Gemini 深度研究 Agent 得分 46.4%，超越 GPT-5.2 Thinking（45.5%），仅次于 GPT-5.2 Pro（50.0%）。

综合来看，GPT-5.2 在推理、知识更新、多模态等方面均有进步，尤其适合专业级长期推理任务。然而，在代码稳定性、视觉精准性、设计审美及价格方面仍面临挑战。Gemini 的持续进化也意味着 OpenAI 尚未取得决定性领先，“红色警报”仍未解除。

【声明】内容源于网络

APPSO

AI第一新媒体，「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al

内容 14424

粉丝 0

APPSO AI第一新媒体，「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al

总阅读113.9k

粉丝0

内容14.4k