

万万没想到，GPT-5编程超能打！奥特曼回应翻车，马斯克隔空叫板

GitCode开源探索

2025-08-20

导读：时隔2年半，GPT-5终于正式亮相。

时隔2年半，GPT-5终于正式亮相。

8月8日凌晨，OpenAI举行了长达1个多小时的线上发布会，正式发布了新的旗舰AI模型GPT-5。并表示该模型更智能、更快、“更有用”，特别是在写作、编码和医疗保健等领域。即日起向所有免费、Plus、Pro、Team用户推出，企业和教育用户将在一周内获得访问权限。

OpenAI首席执行官萨姆·奥特曼（Sam Altman）表示，GPT-5是该公司此前人工智能模型的“重大升级”，并表示“与它交流，真的就像在和任何领域的专家对话”。

来源：OpenAI

与此同时，GPT-5上线后，迅速屠榜大模型竞技场LMArena，在所有细分类目中都位列第一。

来源：LMArena

不过，发布会现场也上演了“翻车”环节，图表数据环节出现了明显“胡编乱造”的失误，连奥特曼也忍不住发文自嘲。

图源：X截图

马斯克也马上上线吐槽，表示Grok 4在ARC-AGI测试中击败了GPT-5，顺势剧透 Grok 5将于今年年底前发布，预计表现将更加出色。

图源：X截图

不过，在多项基准测试中，GPT-5也展示出惊人的性能。OpenAI公开的测试数据显示，GPT-5在多项基准测试中刷新纪录：数学能力：AIME 2025 （no tools）测试得分 94.6%；编程能力：SWE-bench Verified（With thinking）得分74.9%，Aider Polyglot（With thinking）得分88%；多模态理解：MMMU得分84.2%；健康领域：HealthBench Hard得分46.2%。均大幅超越前代模型，展现了顶尖的性能。

来源：OpenAI

尤其在编程能力方面，再次将AI编程助手的发展推向了新的高度。

超越Vibe Coding，号称史上最强编程，开发者福音来了？

据介绍，GPT-5是OpenAI迄今为止最强大的编码模型，能够处理复杂的前端开发和大型代码库调试工作。奥特曼表示：“根据需求即时生成的软件的理念将成为GPT-5时代的一个重要特征。”

GPT-5在关键编码基准测试中处于行业领先水平，在SWE-bench验证测试中得分74.9%，较o3版本的69.1%有所提升。GPT-5以更高的效率和速度获得了高分：与o3在高推理强度下相比，GPT-5的输出tokens数量减少了22%，工具调用次数减少了45%。

来源：OpenAI

此外，GPT-5在Aider polyglot测试中得分88%。在内部测试中，其在70%的Web任务开发中表现和OpenAI o3。此外，GPT-5在深度分析代码库方面表现出色，能够精准解答关于代码模块运作机制及相互协作的问题。

来源：OpenAI

同时，GPT-5的代码生成速度相比前代有了质的飞跃，达到了惊人的10倍提升，这意味着开发者能够在更短的时间内获得所需的代码。并且，它对编程语言的支持范围也大幅扩展，现已支持超过30种编程语言，无论是常见的Python、Java、C++，还是一些相对小众的编程语言，GPT-5都能应对自如。

比如，在生成小游戏时，现场演示大概只用时几分钟，GPT-5就能快速写好一两百行代码，生成一个带关卡、音效的小游戏。

来源：OpenAI

在编程任务中，GPT-5可以快速一次性完成前端应用程序，生成一个3D版本的SVG文件，用于Canvas。

除此之外，GPT-5在减少AI幻觉方面，展现了行业领先的水平。据介绍，与GPT-4o相比，GPT-5的事实错误率降低了45%；在深度思考模式下，事实错误率更是比o3大幅下降80%，变得更加准确可靠。在开放性事实准确性基准LongFact和FActScore测试中，GPT-5的幻觉率比o3减少大约六倍，长篇内容生成的准确性显著提升。

来源：OpenAI

并且，GPT-5还引入了“安全完成”这一全新安全训练方式，让模型在保持安全边界的同时尽可能提供有用答案。当需要拒绝请求时，GPT-5会透明地说明拒绝原因并提供安全替代方案。

来源：OpenAI

此外，OpenAI还为所有用户推出了四种ChatGPT的预设个性：愤世嫉俗者、机器人、倾听者和书呆子，这些个性最初适用于文本聊天，晚些时候将上线语音。用户可根据个人喜好调整ChatGPT的交互风格。

博主内测资格暂缓，免费依旧有门槛？

CSDN也第一时间联系了博主进行实测，但多数博主称目前暂未拿到测试资格。

来源：博主截图

不过，从目前看到的编程能力测试结果来看，博主小雨青年认为：“GPT-5在准确率和推理能力上都有明显提升，并且比之前版本价格更低，这对所有开发者都是利好的，推荐大家以接入Claude Code替换API作为新的AI Coding方式，希望GPT-5的实际表现能够显著提高大家的编程效率，节省重复劳动的时间。”

博主猫头虎也表示：“能感觉到在创作和编程方面的明显提升，但部分功能需要Pro会员才能试用”。

定价方面，OpenAI为GPT-5制定了全面且差异化的定价策略，所有ChatGPT的免费用户皆可使用GPT-5，这是OpenAI首次免费向公众开放推理能力模型。不过，免费用户存在未公开的提示限制，达到限制后会自动切换至性能稍弱但依旧出色的GPT-5 mini；Plus用户可享有更高的GPT-5使用配额，每月20美元；Pro用户拥有对GPT-5 的无限制访问权限，还能够使用增强版的GPT-5 pro，每月200美元；团队、企业及教育用户发布一周后将其设为默认模型且配额充裕。

为满足开发者在成本与性能上的不同诉求，GPT-5通过OpenAI的API提供了三个版本：GPT-5、GPT-5-mini和GPT-5-nano，开发者可根据项目对性能、成本和响应速度的不同要求灵活选择。

来源：OpenAI

目前，OpenAI共有两个官方渠道可以体验到GPT-5系列模型。首先可以直接付费调用模型API。

另一个官方渠道是使用ChatGPT的免费版、Plus版、Pro版，以及Team版。值得注意的是，虽然在ChatGPT免费版上可以直接使用GPT-5，但仍有一定的限额。额度消耗完毕后，模型会自动切换成更轻量的GPT-5 mini。

当然，如果你想免费体验到GPT-5的预览版，还可以用GitHub Copilot。

来源：GitHub

OpenAI真的要Open了？

事实上，早在GPT-5发布前，X和开源社区上的消息已经沸沸扬扬。

8月3日开始，奥特曼先在X上用“20 Hours Left”虚晃一枪，又在接下来的几天，用不间断的小发布，吊足了观众胃口；8月5日，ChatGPT幽默地上线了“防沉迷弹窗”；8月6日，模型来是来了，但不是GPT-5——OpenAI突然发布两款开源模型GPT-OSS-120B和GPT-OSS-120B。

这一举动在开源社区掀起轩然大波，要知道，OpenAI在五年前逐渐转向闭源，如今的开源之举，难免让人猜测其战略是否发生了根本性转变。

从这次GPT-5的发布来看，OpenAI的 “Open” 似乎是有选择的。开源的两款模型更像是其在开源领域的 “先头兵”，用以应对Meta的Llama系列等开源模型的竞争，吸引开发者加入其生态。而GPT-5作为核心产品，依旧保持着闭源的姿态，掌握着最核心的技术优势。

对此，你怎么看？

【声明】内容源于网络

GitCode开源探索

GitCode官方账号，[GitCode」开源开发者平台，依托CSDN开发者社区，帮助开发者及开发者企业实现项目托管、协同研发、项目运营和生态拓展。

内容 360

粉丝 0

GitCode开源探索 GitCode官方账号，[GitCode」开源开发者平台，依托CSDN开发者社区，帮助开发者及开发者企业实现项目托管、协同研发、项目运营和生态拓展。

总阅读59

粉丝0

内容360