

GPT-5.2降智遭全网差评！奥特曼慌了

新智元

2025-12-14

导读：OpenAI输掉关键一战

【新智元导读】年终AI大戏：GPT-5.2上线48小时，多项第三方评测显示不敌Gemini 3 Pro

OpenAI推出GPT-5.2，但未实现对谷歌Gemini 3 Pro的全面超越。Epoch AI最新报告指出，GPT-5.2能力指数（ECI）得分为152，仅次于Gemini 3 Pro。

在FrontierMath数学评测中，GPT-5.2仅在T1–T3级领先；T4级仍由Gemini 3 Pro主导。国际象棋Chess Puzzles测试中，GPT-5.2排名第一。但在SimpleQA Verified可信问答测试中，其得分反低于GPT-5.1，提示迭代后事实准确性下降。

OCR-Arena、simple-bench与Live-Bench等第三方平台显示，GPT-5.2甚至落后于Claude Opus 4.5。

Epoch AI另一项评估显示，在长程任务持续性能上，Gemini 3 Pro达4.9小时，GPT-5.2为3.5小时，Claude Opus 4.5为2.6小时。

工程师Dan Mac指出，Gemini 3 Pro的深层智能源于谷歌更强大的预训练体系；而GPT-5.2的优势主要来自后训练阶段的专用优化。

在视觉推理、3D模型生成、越界小说生成及前端代码生成等关键场景中，GPT-5.2均落后于Gemini 3 Pro。例如，在“健身仪表盘首页”前端代码生成任务中，GPT-5.2输出结果多次垫底。

CAIS AI Dashboard数据显示：Gemini 3 Pro在文本与视觉能力指数上全面领先；GPT-5.2仅在风险指数上优于Gemini 3 Pro，但仍低于Claude Opus 4.5与Sonnet 4.5。

在Terminus自主智能体评估中，Gemini 3.0 Pro与GPT-5.2高推理模式差距微小（+0.2%），但整体稳定性更优。

面对压力，OpenAI已将ChatGPT优化列为最高优先级，并暂停Sora项目八周，内部AGI研发亦被暂缓。纽约时报披露，公司正筹备明年初更大规模发布，同步推进B2B企业软件与B2C电商场景落地。

疑似基于GPT-4o基底的GPT Image v2（代号“栗子”“榛子”）在LM Arena测试中表现不佳，存在色调失真、逻辑断裂、一致性弱、世界知识缺失等问题，显著落后于Gemini 3加持的Nano Banana Pro。

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 14597

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读75.2k

粉丝0

内容14.6k