新智元报道
新智元报道
【新智元导读】OpenAI正式发布GPT-5.4 mini和GPT-5.4 nano,两款轻量级模型在编码、推理、工具调用与计算机使用等关键任务中逼近满血版GPT-5.4,同时实现速度翻倍、成本大幅降低,为AI工程化落地提供高性价比新选择。
OpenAI悄然上线GPT-5.4 mini与GPT-5.4 nano——无预热、无倒计时,直接面向开发者开放。
两款模型聚焦真实生产需求:更快、更准、更便宜。它们继承GPT-5.4核心能力,在保持高性能的同时显著优化响应速度与调用成本,代表当前轻量级大模型的最高水准。
代码能力:mini逼近旗舰,nano超越前代
SWE-Bench Pro是衡量模型真实编码能力的硬核基准,要求模型修复GitHub真实Bug。
- GPT-5.4 mini达54.4%,仅比GPT-5.4(57.7%)低3.3个百分点;
- GPT-5 mini上一代仅为45.7%,mini单代提升近9%;
- 在Terminal-Bench 2.0中,mini达60.0%,较上一代(38.2%)提升超57%;
- GPT-5.4 nano亦达52.4%,反超上一代GPT-5 mini。
对开发者而言,定向代码修改、前端生成、调试循环、代码库检索等常规任务,现可交由mini高效处理:速度提升2倍,成本降至GPT-5.4输出价格的1/3,效果几乎无损。
博士级推理与复杂工具调用能力
编码仅是切面;真正决定AI能否“干活”的,是深度推理与多步骤工具协同能力。
- GPQA Diamond(博士级科学推理):GPT-5.4 mini达88%,与GPT-5.4(93%)差距仅5%;
- Toolathlon(多工具链组合调用):mini得分42.9%,远超GPT-5 mini(26.9%);
- τ2-bench(电信行业专用):mini达93.4%,逼近GPT-5.4(98.9%),大幅领先上一代(74.1%);
- MCP Atlas(通用工具调用):mini 57.7%,GPT-5 mini为47.6%。
数据表明,GPT-5.4 mini并非“缩水版聪明”,而是具备独立完成复杂任务链能力的生产级执行者。
计算机使用能力:mini支持“看屏操作”
OSWorld-Verified测试模型解析UI截图、定位控件并执行操作的综合能力:
- GPT-5.4 mini达72.1%,距GPT-5.4(75.0%)仅差2.9个百分点;
- GPT-5 mini仅为42.0%,mini单代能力接近翻倍;
- GPT-5.4 nano得分为39.0%,略低于上一代mini,显示视觉推理存在明显能力断层;
- MMMUPro(含Python工具):mini 78.0%,GPT-5.4为81.5%。
该能力使mini成为构建实时计算机使用Agent的理想引擎——低成本、低延迟、强可用。
OpenAI明确将推进Codex进化:从编程助手升级为“控制计算机”的统一工具,支持跨终端、全场景任务调度,并深度整合个人数据与记忆体系。
子智能体范式:大模型决策,小模型执行
OpenAI提出新型AI架构:旗舰模型负责规划与最终决策,GPT-5.4 mini作为子智能体并行执行具体任务。
- 搜索代码库、审查长文档、处理客户支持文本等高频轻负载任务,全部交由mini;
- Codex已落地该架构:GPT-5.4制定方案,自动调度mini执行,且mini消耗配额仅为GPT-5.4的30%;
- 同等预算下,mini任务量可提升超3倍。
这种分层调度已成为行业共识:旗舰模型如总指挥,mini为执行团队,nano则专注分类、数据提取等琐碎高频任务。开发者需转变思路——从“选最强模型”转向“按任务复杂度动态路由”。
全面开放:API、Codex、ChatGPT三端同步上线
GPT-5.4 mini已向所有用户开放:
- API定价:输入0.75美元/百万Token,输出4.50美元/百万Token,上下文窗口400K;
- 能力支持:文本/图像输入、工具调用、函数调用、网络搜索、文件搜索、计算机使用;
- GPT-5.4 nano仅限API调用:输入0.20美元/百万Token,输出1.25美元/百万Token,约为mini输入价格的1/4、输出价格的1/3,适用于分类、排序、结构化提取等低复杂度高频任务;
- ChatGPT端:免费用户与Go用户可通过「Thinking」功能使用mini;付费用户在GPT-5.4额度耗尽后,mini将自动降级启用。
长上下文处理仍是mini短板
在超长文本精确检索与逻辑追踪任务中,mini与旗舰版差距明显:
- OpenAI MRCR v2(64K–128K):GPT-5.4 86.0%,mini仅47.7%;
- 128K–256K窗口下:GPT-5.4 79.3%,mini为33.6%;
- Graphwalks父节点追踪:GPT-5.4 89.8%,mini为71.5%。
这表明mini不适用于大规模文档分析、超长对话记忆维持等场景。但这也印证OpenAI的产品分层逻辑:不同任务,匹配不同模型。mini的核心价值在于其主攻方向——速度、编码、工具调用与计算机使用。
不是终点,而是AI工程化加速的起点
GPT-5.4 mini在SWE-Bench Pro达旗舰版94%、OSWorld达96%、GPQA Diamond达95%,速度为GPT-5 mini的2倍,输出成本仅为GPT-5.4的1/3。
- 对普通开发者:曾经仅头部企业可用的AI能力,现以mini成本即可集成;
- 对AI创业者:推理成本有望再降一个数量级;
- 对全行业:阻碍AI普及的成本与延迟双墙,正被小模型持续瓦解。
大模型定义智力天花板,小模型打通AI进入每个应用的毛细血管。这一架构,今日已可落地运行。

