大数跨境

刚刚!OpenAI 祭出「土豆」连夜反击 Claude,GPT-5.5 正式发布!

刚刚!OpenAI 祭出「土豆」连夜反击 Claude,GPT-5.5 正式发布! AI信息Gap
2026-04-24
4
导读:OpenAI 的「土豆」,端上来了。大名 GPT-5.5,代号 Spud。

OpenAI发布GPT-5.5模型:性能突破与商业落地分析

OpenAI正式推出代号Spud的GPT-5.5模型。此前内部备忘录已将其列为2026年Q2首要项目。

OpenAI称其为"迄今最智能、体验最优"的模型,总裁Greg Brockman强调该模型"集成两年核心研究成果"。

终端操作能力显著领先

GPT-5.5在Terminal-Bench 2.0测试中取得82.7%的得分,大幅超越GPT-5.4(75.1%)和Claude Opus 4.7(69.4%)。

其得分甚至微超Anthropic闭源模型Claude Mythos Preview的82.0%,后者此前被视为行业最强基准。

软件工程领域仍存差距

在SWE-Bench Pro真实软件工程测试中,GPT-5.5(58.6%)仍低于Claude Opus 4.7(64.3%)。但OpenAI指出,Anthropic部分测试数据存在重复暴露风险。

多维度性能优势

在Expert-SWE编程任务中提升至73.1%(前代68.5%),OSWorld-Verified系统操作测试达78.7%,反超竞争对手;知识类任务GDPval以84.9%的准确率领先行业。数学专项测试FrontierMath Tier 4中,GPT-5.5 Pro(39.6%)显著优于Claude Opus 4.7(22.9%)。

第三方机构Artificial Analysis的综合评测显示,GPT-5.5在同等算力下提供最高性能输出。

实际应用验证

Every平台创始人Dan Shipper证实,GPT-5.5成功修复了其工程师耗时数日的代码漏洞,解决方案完全匹配人类专家成果。MagicPath CEO Pietro Schirano则利用该模型在20分钟内解决复杂代码合并问题。

商业化部署与定价策略

GPT-5.5 API定价较前代翻倍:输入5美元/百万token,输出30美元/百万token;GPT-5.5 Pro更高至30/180美元。ChatGPT Plus/Pro/Business/Enterprise订阅已支持GPT-5.5 Thinking,Codex同步上线40万上下文版本并新增1.5倍速的Fast模式。API服务预计近期通过安全审核后开放。

作为OpenAI历时两年的技术结晶,GPT-5.5在关键性能指标实现突破,标志着大模型进入新的发展阶段。当前可通过ChatGPT订阅服务体验模型能力。

【声明】内容源于网络
0
0
AI信息Gap
各类跨境出海行业相关资讯
内容 894
粉丝 0
AI信息Gap 各类跨境出海行业相关资讯
总阅读55.3k
粉丝0
内容894