【新智元导读】年终AI大戏:GPT-5.2上线48小时,多项第三方评测显示不敌Gemini 3 Pro
OpenAI推出GPT-5.2,但未实现对谷歌Gemini 3 Pro的全面超越。Epoch AI最新报告指出,GPT-5.2能力指数(ECI)得分为152,仅次于Gemini 3 Pro。
多维度基准测试表现分化
在FrontierMath数学评测中,GPT-5.2仅在T1–T3级领先;T4级仍由Gemini 3 Pro主导。国际象棋Chess Puzzles测试中,GPT-5.2排名第一。但在SimpleQA Verified可信问答测试中,其得分反低于GPT-5.1,提示迭代后事实准确性下降。
OCR-Arena、simple-bench与Live-Bench等第三方平台显示,GPT-5.2甚至落后于Claude Opus 4.5。
长程任务与底层能力对比
Epoch AI另一项评估显示,在长程任务持续性能上,Gemini 3 Pro达4.9小时,GPT-5.2为3.5小时,Claude Opus 4.5为2.6小时。
工程师Dan Mac指出,Gemini 3 Pro的深层智能源于谷歌更强大的预训练体系;而GPT-5.2的优势主要来自后训练阶段的专用优化。
视觉、代码与生成能力实测落后
在视觉推理、3D模型生成、越界小说生成及前端代码生成等关键场景中,GPT-5.2均落后于Gemini 3 Pro。例如,在“健身仪表盘首页”前端代码生成任务中,GPT-5.2输出结果多次垫底。
Gemini 3 Pro综合领先,GPT-5.2风险控制占优
CAIS AI Dashboard数据显示:Gemini 3 Pro在文本与视觉能力指数上全面领先;GPT-5.2仅在风险指数上优于Gemini 3 Pro,但仍低于Claude Opus 4.5与Sonnet 4.5。
在Terminus自主智能体评估中,Gemini 3.0 Pro与GPT-5.2高推理模式差距微小(+0.2%),但整体稳定性更优。
OpenAI战略调整与后续动向
面对压力,OpenAI已将ChatGPT优化列为最高优先级,并暂停Sora项目八周,内部AGI研发亦被暂缓。纽约时报披露,公司正筹备明年初更大规模发布,同步推进B2B企业软件与B2C电商场景落地。
GPT图像模型尚未形成竞争力
疑似基于GPT-4o基底的GPT Image v2(代号“栗子”“榛子”)在LM Arena测试中表现不佳,存在色调失真、逻辑断裂、一致性弱、世界知识缺失等问题,显著落后于Gemini 3加持的Nano Banana Pro。

