
时隔2年半,GPT-5终于正式亮相。
8月8日凌晨,OpenAI举行了长达1个多小时的线上发布会,正式发布了新的旗舰AI模型GPT-5。并表示该模型更智能、更快、“更有用”,特别是在写作、编码和医疗保健等领域。即日起向所有免费、Plus、Pro、Team用户推出,企业和教育用户将在一周内获得访问权限。
OpenAI首席执行官萨姆·奥特曼(Sam Altman)表示,GPT-5是该公司此前人工智能模型的“重大升级”,并表示“与它交流,真的就像在和任何领域的专家对话”。
来源:OpenAI
与此同时,GPT-5上线后,迅速屠榜大模型竞技场LMArena,在所有细分类目中都位列第一。
来源:LMArena
不过,发布会现场也上演了“翻车”环节,图表数据环节出现了明显“胡编乱造”的失误,连奥特曼也忍不住发文自嘲。
图源:X截图
马斯克也马上上线吐槽,表示Grok 4在ARC-AGI测试中击败了GPT-5,顺势剧透 Grok 5将于今年年底前发布,预计表现将更加出色。
图源:X截图
不过,在多项基准测试中,GPT-5也展示出惊人的性能。OpenAI公开的测试数据显示,GPT-5在多项基准测试中刷新纪录:数学能力:AIME 2025 (no tools)测试得分 94.6%;编程能力:SWE-bench Verified(With thinking)得分74.9%,Aider Polyglot(With thinking)得分88%;多模态理解:MMMU得分84.2%;健康领域:HealthBench Hard得分46.2%。均大幅超越前代模型,展现了顶尖的性能。
来源:OpenAI
尤其在编程能力方面,再次将AI编程助手的发展推向了新的高度。
超越Vibe Coding,号称史上最强编程,开发者福音来了?
据介绍,GPT-5是OpenAI迄今为止最强大的编码模型,能够处理复杂的前端开发和大型代码库调试工作。奥特曼表示:“根据需求即时生成的软件的理念将成为GPT-5时代的一个重要特征。”
GPT-5在关键编码基准测试中处于行业领先水平,在SWE-bench验证测试中得分74.9%,较o3版本的69.1%有所提升。GPT-5以更高的效率和速度获得了高分:与o3在高推理强度下相比,GPT-5的输出tokens数量减少了22%,工具调用次数减少了45%。
来源:OpenAI
此外,GPT-5在Aider polyglot测试中得分88%。在内部测试中,其在70%的Web任务开发中表现和OpenAI o3。此外,GPT-5在深度分析代码库方面表现出色,能够精准解答关于代码模块运作机制及相互协作的问题。
来源:OpenAI
同时,GPT-5的代码生成速度相比前代有了质的飞跃,达到了惊人的10倍提升,这意味着开发者能够在更短的时间内获得所需的代码。并且,它对编程语言的支持范围也大幅扩展,现已支持超过30种编程语言,无论是常见的Python、Java、C++,还是一些相对小众的编程语言,GPT-5都能应对自如。
比如,在生成小游戏时,现场演示大概只用时几分钟,GPT-5就能快速写好一两百行代码,生成一个带关卡、音效的小游戏。
来源:OpenAI
在编程任务中,GPT-5可以快速一次性完成前端应用程序,生成一个3D版本的SVG文件,用于Canvas。
除此之外,GPT-5在减少AI幻觉方面,展现了行业领先的水平。据介绍,与GPT-4o相比,GPT-5的事实错误率降低了45%;在深度思考模式下,事实错误率更是比o3大幅下降80%,变得更加准确可靠。在开放性事实准确性基准LongFact和FActScore测试中,GPT-5的幻觉率比o3减少大约六倍,长篇内容生成的准确性显著提升。
来源:OpenAI
并且,GPT-5还引入了“安全完成”这一全新安全训练方式,让模型在保持安全边界的同时尽可能提供有用答案。当需要拒绝请求时,GPT-5会透明地说明拒绝原因并提供安全替代方案。
来源:OpenAI
此外,OpenAI还为所有用户推出了四种ChatGPT的预设个性:愤世嫉俗者、机器人、倾听者和书呆子,这些个性最初适用于文本聊天,晚些时候将上线语音。用户可根据个人喜好调整ChatGPT的交互风格。
博主内测资格暂缓,免费依旧有门槛?
CSDN也第一时间联系了博主进行实测,但多数博主称目前暂未拿到测试资格。
来源:博主截图
不过,从目前看到的编程能力测试结果来看,博主小雨青年认为:“GPT-5在准确率和推理能力上都有明显提升,并且比之前版本价格更低,这对所有开发者都是利好的,推荐大家以接入Claude Code替换API作为新的AI Coding方式,希望GPT-5的实际表现能够显著提高大家的编程效率,节省重复劳动的时间。”
博主猫头虎也表示:“能感觉到在创作和编程方面的明显提升,但部分功能需要Pro会员才能试用”。
定价方面,OpenAI为GPT-5制定了全面且差异化的定价策略,所有ChatGPT的免费用户皆可使用GPT-5,这是OpenAI首次免费向公众开放推理能力模型。不过,免费用户存在未公开的提示限制,达到限制后会自动切换至性能稍弱但依旧出色的GPT-5 mini;Plus用户可享有更高的GPT-5使用配额,每月20美元;Pro用户拥有对GPT-5 的无限制访问权限,还能够使用增强版的GPT-5 pro,每月200美元;团队、企业及教育用户发布一周后将其设为默认模型且配额充裕。
为满足开发者在成本与性能上的不同诉求,GPT-5通过OpenAI的API提供了三个版本:GPT-5、GPT-5-mini和GPT-5-nano,开发者可根据项目对性能、成本和响应速度的不同要求灵活选择。
来源:OpenAI
目前,OpenAI共有两个官方渠道可以体验到GPT-5系列模型。首先可以直接付费调用模型API。
另一个官方渠道是使用ChatGPT的免费版、Plus版、Pro版,以及Team版。值得注意的是,虽然在ChatGPT免费版上可以直接使用GPT-5,但仍有一定的限额。额度消耗完毕后,模型会自动切换成更轻量的GPT-5 mini。
当然,如果你想免费体验到GPT-5的预览版,还可以用GitHub Copilot。
来源:GitHub
OpenAI真的要Open了?
事实上,早在GPT-5发布前,X和开源社区上的消息已经沸沸扬扬。
8月3日开始,奥特曼先在X上用“20 Hours Left”虚晃一枪,又在接下来的几天,用不间断的小发布,吊足了观众胃口;8月5日,ChatGPT幽默地上线了“防沉迷弹窗”;8月6日,模型来是来了,但不是GPT-5——OpenAI突然发布两款开源模型GPT-OSS-120B和GPT-OSS-120B。
这一举动在开源社区掀起轩然大波,要知道,OpenAI在五年前逐渐转向闭源,如今的开源之举,难免让人猜测其战略是否发生了根本性转变。
从这次GPT-5的发布来看,OpenAI的 “Open” 似乎是有选择的。开源的两款模型更像是其在开源领域的 “先头兵”,用以应对Meta的Llama系列等开源模型的竞争,吸引开发者加入其生态。而GPT-5作为核心产品,依旧保持着闭源的姿态,掌握着最核心的技术优势。
对此,你怎么看?



