大数跨境

GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯

GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯 新智元
2026-03-18
1
导读:「养虾费」砍到零头

新智元报道

编辑:好困 桃子
【新智元导读】OpenAI正式发布GPT-5.4 mini和GPT-5.4 nano,两款轻量级模型在编码、推理、工具调用与计算机使用等关键任务中逼近满血版GPT-5.4,同时实现速度翻倍、成本大幅降低,为AI工程化落地提供高性价比新选择。

OpenAI悄然上线GPT-5.4 mini与GPT-5.4 nano——无预热、无倒计时,直接面向开发者开放。

两款模型聚焦真实生产需求:更快、更准、更便宜。它们继承GPT-5.4核心能力,在保持高性能的同时显著优化响应速度与调用成本,代表当前轻量级大模型的最高水准。

代码能力:mini逼近旗舰,nano超越前代

SWE-Bench Pro是衡量模型真实编码能力的硬核基准,要求模型修复GitHub真实Bug。

  • GPT-5.4 mini达54.4%,仅比GPT-5.4(57.7%)低3.3个百分点;
  • GPT-5 mini上一代仅为45.7%,mini单代提升近9%;
  • 在Terminal-Bench 2.0中,mini达60.0%,较上一代(38.2%)提升超57%;
  • GPT-5.4 nano亦达52.4%,反超上一代GPT-5 mini。

对开发者而言,定向代码修改、前端生成、调试循环、代码库检索等常规任务,现可交由mini高效处理:速度提升2倍,成本降至GPT-5.4输出价格的1/3,效果几乎无损。

博士级推理与复杂工具调用能力

编码仅是切面;真正决定AI能否“干活”的,是深度推理与多步骤工具协同能力。

  • GPQA Diamond(博士级科学推理):GPT-5.4 mini达88%,与GPT-5.4(93%)差距仅5%;
  • Toolathlon(多工具链组合调用):mini得分42.9%,远超GPT-5 mini(26.9%);
  • τ2-bench(电信行业专用):mini达93.4%,逼近GPT-5.4(98.9%),大幅领先上一代(74.1%);
  • MCP Atlas(通用工具调用):mini 57.7%,GPT-5 mini为47.6%。

数据表明,GPT-5.4 mini并非“缩水版聪明”,而是具备独立完成复杂任务链能力的生产级执行者。

计算机使用能力:mini支持“看屏操作”

OSWorld-Verified测试模型解析UI截图、定位控件并执行操作的综合能力:

  • GPT-5.4 mini达72.1%,距GPT-5.4(75.0%)仅差2.9个百分点;
  • GPT-5 mini仅为42.0%,mini单代能力接近翻倍;
  • GPT-5.4 nano得分为39.0%,略低于上一代mini,显示视觉推理存在明显能力断层;
  • MMMUPro(含Python工具):mini 78.0%,GPT-5.4为81.5%。

该能力使mini成为构建实时计算机使用Agent的理想引擎——低成本、低延迟、强可用。

OpenAI明确将推进Codex进化:从编程助手升级为“控制计算机”的统一工具,支持跨终端、全场景任务调度,并深度整合个人数据与记忆体系。

子智能体范式:大模型决策,小模型执行

OpenAI提出新型AI架构:旗舰模型负责规划与最终决策,GPT-5.4 mini作为子智能体并行执行具体任务。

  • 搜索代码库、审查长文档、处理客户支持文本等高频轻负载任务,全部交由mini;
  • Codex已落地该架构:GPT-5.4制定方案,自动调度mini执行,且mini消耗配额仅为GPT-5.4的30%;
  • 同等预算下,mini任务量可提升超3倍。

这种分层调度已成为行业共识:旗舰模型如总指挥,mini为执行团队,nano则专注分类、数据提取等琐碎高频任务。开发者需转变思路——从“选最强模型”转向“按任务复杂度动态路由”。

全面开放:API、Codex、ChatGPT三端同步上线

GPT-5.4 mini已向所有用户开放:

  • API定价:输入0.75美元/百万Token,输出4.50美元/百万Token,上下文窗口400K;
  • 能力支持:文本/图像输入、工具调用、函数调用、网络搜索、文件搜索、计算机使用;
  • GPT-5.4 nano仅限API调用:输入0.20美元/百万Token,输出1.25美元/百万Token,约为mini输入价格的1/4、输出价格的1/3,适用于分类、排序、结构化提取等低复杂度高频任务;
  • ChatGPT端:免费用户与Go用户可通过「Thinking」功能使用mini;付费用户在GPT-5.4额度耗尽后,mini将自动降级启用。

长上下文处理仍是mini短板

在超长文本精确检索与逻辑追踪任务中,mini与旗舰版差距明显:

  • OpenAI MRCR v2(64K–128K):GPT-5.4 86.0%,mini仅47.7%;
  • 128K–256K窗口下:GPT-5.4 79.3%,mini为33.6%;
  • Graphwalks父节点追踪:GPT-5.4 89.8%,mini为71.5%。

这表明mini不适用于大规模文档分析、超长对话记忆维持等场景。但这也印证OpenAI的产品分层逻辑:不同任务,匹配不同模型。mini的核心价值在于其主攻方向——速度、编码、工具调用与计算机使用。

不是终点,而是AI工程化加速的起点

GPT-5.4 mini在SWE-Bench Pro达旗舰版94%、OSWorld达96%、GPQA Diamond达95%,速度为GPT-5 mini的2倍,输出成本仅为GPT-5.4的1/3。

  • 对普通开发者:曾经仅头部企业可用的AI能力,现以mini成本即可集成;
  • 对AI创业者:推理成本有望再降一个数量级;
  • 对全行业:阻碍AI普及的成本与延迟双墙,正被小模型持续瓦解。

大模型定义智力天花板,小模型打通AI进入每个应用的毛细血管。这一架构,今日已可落地运行。

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 15040
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读141.9k
粉丝0
内容15.0k