关注【索引目录】服务号,更多精彩内容等你来探索!
OpenAI 上周发布了 GPT-5,并大肆宣传。Sam Altman 的神秘推文、网红们的“革命性”评价,无一不令人瞩目。炒作简直疯狂。
然后模型上线了……却什么都没发生。GPT-5 感觉就像 O3,只是做了些许改进。在一般任务上可能只好 5%。大家都一致认为:被过度炒作,平淡无奇,几乎没有什么不同。
然而,当每个人都忙着抱怨主模型时,他们却完全忽略了真正的故事。GPT-5 Mini 正在悄悄地扼杀它在实际生产中的应用,但却没有人谈论它。
让我多看几眼的数字
以下是引起我注意的内容:
- 每百万输入代币 0.25 美元
(比 Gemini 2.5 Pro 便宜 5 倍) - 每百万输出代币 2 美元
(也比 Gemini 2.5 Pro 便宜 5 倍) - 400,000 个令牌上下文窗口
-
基准测试结果非常接近 Gemini 2.5 Pro,但价格却便宜 5 倍
最后一点听起来像是营销噱头,直到你意识到,在高推理能力的 GPT-5 Mini 实际上在多个基准测试中都击败了 Gemini 2.5 Pro。虽然基准测试结果意义不大,但仍然如此。
为什么这真的很重要:构建变更日志代理
我一直在UserJot上开发一个 AI 代理,帮助团队编写更新日志。这个想法很简单:与一个可以访问你的反馈、路线图和已关闭工单的代理聊天。它会汇总已发布的更新,帮助你编写更新,并安排发布时间。
工作流程如下:
-
“自上次更新日志以来我们关闭了哪些票?” -
“这些都很棒。现在写下更新日志” -
“将我和 CTO 添加为作者” -
“周一下午 2 点的安排”
就是这样。
我几乎尝试了 OpenRouter 上的所有型号,包括开源的和专有的。Claude Opus 运行良好,但价格太贵了。GPT-4o Mini 运行还行,但不是很好。o4-mini 呢?也还行,但不是很好。我花了很多时间根据工作流程的不同部分混合搭配不同的型号。
然后我尝试了 GPT-5 Mini,并进行了中等程度的推理,结果效果非常好。
Mini 为何如此适合生产
Mini 的与众不同之处在于——它非常擅长生产级 AI 代理所关注的事情。它并非用于创作诗歌或提供医疗建议,而是用于实际的基于工具的工作流程:
工具调用非常出色。我在复杂的多步骤工作流程中获得了 95% 以上的成功率。它几乎每次都能选择正确的工具并正确格式化参数。
结构化数据输出成功率极高。当我请求 JSON 时,我得到的是有效的 JSON。没有随机的 markdown,没有多余的文本,只有我需要的数据结构。
能够很好地遵循指令。给它一个包含 10 条规则的系统提示,它就能全部执行。这种一致性对于生产系统来说至关重要。
处理长上下文,永不遗忘。它拥有 40 万个 token,足以容纳您的整个代码库和文档。而且它还能记住您在 5 万个 token 之前输入的内容。
陷阱(因为总有一个)
目前吞吐量还可以。我看到每秒能处理 60-70 个 token,这还有提升空间。OpenAI 可能还在为这些新模型扩展基础设施。
但是对于异步工作流?对于后台代理?对于任何可以等待几秒钟的事情?它是完美的。
真正的问题:过度炒作扼杀了好产品
如果 OpenAI 没有如此大肆宣传,人们会对渐进式的改进感到满意。GPT-5 比 o3 更好。GPT-5 Mini 的价格也非常实惠。但当你对它抱有极高的期望时,即使是好的更新也会让人失望。
典型的过度承诺、交付不足的案例。
如果您正在构建代理或需要可靠的工具调用,不妨试试 GPT-5 Mini。将推理难度设置为中或高。您可能会感到惊喜。
关注【索引目录】服务号,更多精彩内容等你来探索!

