大数跨境
0
0

GPT-5.2降智遭全网差评!奥特曼慌了

GPT-5.2降智遭全网差评!奥特曼慌了 新智元
2025-12-14
4
导读:OpenAI输掉关键一战

【新智元导读】年终AI大戏:GPT-5.2上线48小时,多项第三方评测显示不敌Gemini 3 Pro

OpenAI推出GPT-5.2,但未实现对谷歌Gemini 3 Pro的全面超越。Epoch AI最新报告指出,GPT-5.2能力指数(ECI)得分为152,仅次于Gemini 3 Pro。

多维度基准测试表现分化

在FrontierMath数学评测中,GPT-5.2仅在T1–T3级领先;T4级仍由Gemini 3 Pro主导。国际象棋Chess Puzzles测试中,GPT-5.2排名第一。但在SimpleQA Verified可信问答测试中,其得分反低于GPT-5.1,提示迭代后事实准确性下降。

OCR-Arena、simple-bench与Live-Bench等第三方平台显示,GPT-5.2甚至落后于Claude Opus 4.5。

长程任务与底层能力对比

Epoch AI另一项评估显示,在长程任务持续性能上,Gemini 3 Pro达4.9小时,GPT-5.2为3.5小时,Claude Opus 4.5为2.6小时。

工程师Dan Mac指出,Gemini 3 Pro的深层智能源于谷歌更强大的预训练体系;而GPT-5.2的优势主要来自后训练阶段的专用优化。

视觉、代码与生成能力实测落后

在视觉推理、3D模型生成、越界小说生成及前端代码生成等关键场景中,GPT-5.2均落后于Gemini 3 Pro。例如,在“健身仪表盘首页”前端代码生成任务中,GPT-5.2输出结果多次垫底。

Gemini 3 Pro综合领先,GPT-5.2风险控制占优

CAIS AI Dashboard数据显示:Gemini 3 Pro在文本与视觉能力指数上全面领先;GPT-5.2仅在风险指数上优于Gemini 3 Pro,但仍低于Claude Opus 4.5与Sonnet 4.5。

在Terminus自主智能体评估中,Gemini 3.0 Pro与GPT-5.2高推理模式差距微小(+0.2%),但整体稳定性更优。

OpenAI战略调整与后续动向

面对压力,OpenAI已将ChatGPT优化列为最高优先级,并暂停Sora项目八周,内部AGI研发亦被暂缓。纽约时报披露,公司正筹备明年初更大规模发布,同步推进B2B企业软件与B2C电商场景落地。

GPT图像模型尚未形成竞争力

疑似基于GPT-4o基底的GPT Image v2(代号“栗子”“榛子”)在LM Arena测试中表现不佳,存在色调失真、逻辑断裂、一致性弱、世界知识缺失等问题,显著落后于Gemini 3加持的Nano Banana Pro。

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14597
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读75.2k
粉丝0
内容14.6k