小米 MiMo-V2.5 系列 API 永久降价最高 99%，开发者能省多少钱？- 大数跨境

首页

小米 MiMo-V2.5 系列 API 永久降价最高 99%，开发者能省多少钱？

创见AI实验室

2026-05-27

导读：今天一早，雷军在微博宣布：小米 MiMo-V2.5 系列做了一次大幅度的价格调整，最高降幅达到 99%，不再区分上下文窗口。小米技术随后发布正式公告，北京时间 5 月 27 日 0:00 起全球同步生

今天一早，雷军在微博宣布：小米 MiMo-V2.5 系列做了一次大幅度的价格调整，最高降幅达到 99%，不再区分上下文窗口。小米技术随后发布正式公告，北京时间 5 月 27 日 0:00 起全球同步生效。

消息一出，技术群里马上有人在问："降了多少？实际多少钱？对做 AI 编程的有多大影响？"我翻了一圈报道，结合这个模型本身的实力数据，把关键信息整理出来了。

发生了什么

小米 MiMo-V2.5 系列 API 于昨天凌晨正式永久降价，全球同步。相比原始 API 定價，新定價最高降幅可达 99%，且不再区分上下文窗口长度。这也是继 DeepSeek 之后，又一家宣布 API 永久降价的大模型公司。

此前几天，DeepSeek 刚刚宣布 V4-Pro 模型 API 将于 5 月 31 日结束 2.5 折优惠后永久调整为原价的 1/4。小米此次降价直接把价格拉到同一水位线，而且生效时间比 DeepSeek 的 5 月 31 日更早——就是昨天。

具体价格

以下是两个主力模型的完整调价表格，数据来自小米官方公告（36氪、界面新闻报道）：

MiMo-V2.5-Pro（旗舰编程 Agent 模型）

计费项	原价	新价	降幅
输入（缓存命中）	1.40~2.80 元/百万 tokens	0.025 元	98%~99%
输入（缓存未命中）	7.00~14.00 元/百万 tokens	3.000 元	57%~79%
输出	21.00~42.00 元/百万 tokens	6.000 元	71%~86%

MiMo-V2.5（全模态通用 Agent 模型）

计费项	原价	新价	降幅
输入（缓存命中）	0.56~1.12 元/百万 tokens	0.020 元	96%~98%
输入（缓存未命中）	2.80~5.60 元/百万 tokens	1.000 元	64%~82%
输出	14.00~28.00 元/百万 tokens	2.000 元	86%~93%

缓存命中这个场景的价格降幅最猛——Pro 版从最高 2.80 元直接砍到 0.025 元，降幅 99%。这个数字是实打实的。

几个关键变化

除了价格数字本身，这次调价还有几个点值得展开：

取消上下文窗口分级。 以前大模型 API 定价通常按上下文长度分段——输入 token 越多，单价越高。这次小米把这个区分完全取消了，长上下文和短上下文走同一个价格标准。对经常处理长文档、长代码库的开发者来说，这个变化比单纯的折扣更实用。

Token Plan 套餐大幅扩容。 在保持原套餐价格不变的前提下，用户可使用的 Token 数量提升至原来的 5 到 8 倍。同时，所有已订阅 Token Plan 且当前仍在有效期内的用户（包括参与百万亿 Token 创造者激励计划的用户），Credits 额度已于昨天 0 点全量重置，并按新计费规则执行。

高阶旧款模型维持原价，引导迁移 V2.5。 本次调价主要聚焦 MiMo-V2.5 核心系列。MiMo-V2-Pro 和 MiMo-V2-Omni 两款高阶模型 API 价格维持原价不变，其 Token Plan 套餐也不再参与调整并即将下线，小米在引导开发者向高性价比的 V2.5 系列迁移。

这个模型本身能打吗？

先搞清楚 MiMo-V2.5 的能力定位，再判断值不值得切过去。

4 月 23 日开源的 MiMo-V2.5 系列包含两个主力模型：MiMo-V2.5-Pro 是 1.02 万亿总参数（42B 激活参数）的 MoE 旗舰，专攻复杂软件工程和长程 Agent 任务，支持 1M 上下文窗口；MiMo-V2.5 是 3100 亿总参数（15B 激活参数）的原生全模态模型，支持文本、图像、视频、音频输入，推理速度更快。

几个硬核数据值得关注：

编程能力。 在 SWE-bench Pro 软件工程基准上解决率达 57.2%。从零写一个完整 SysY 编译器，4.3 小时、672 次工具调用，以 233/233 满分通过。还曾仅凭简单指令，独立构建出一个包含多轨道时间线等功能的 Web 视频编辑器。

Token 效率。 在 Agent 任务中，MiMo-V2.5-Pro 每任务仅消耗约 7 万 Token，而 Claude Opus 4.6、GPT-5.4 等普遍需要 12-18 万 Token，同等效果下直接省 40%-60% 的 Token 消耗。也就是说它不单单价便宜，完成任务本身耗的 Token 也更少——双重节省。

Agent 能力。 Artificial Analysis 综合智能指数和 Agent 指数全球开源模型并列第一。ClawEval Agent 基准中，Pro 版以约 64% 成功率领先开源领域，直接对标 Claude Opus 4.6 和 GPT-5.4。

生态验证。 开源 Agent 平台 Hermes Agent 已登顶 OpenRouter 全球应用 Token 消耗榜首，日消耗 2910 亿 Token，周调用量超 1.75 万亿。支撑其运行的模型中，小米 MiMo 排名第一，近一个月累计贡献 1.45 万亿 Token 调用量。这是百万级开发者"用脚投票"的结果——真正经过规模化验证的模型。

为什么突然降价？技术底座做了什么？

大模型降价不是简单的"烧钱换市场"，背后离不开推理系统层面的持续优化。

根据官方公告，团队基于 SGLang HiCache 完整支持 SWA（Sliding Window Attention），将 KV Cache 在 GPU 显存、CPU 内存、SSD 等多级存储之间的数据搬运量降低至优化前的近 1/7，并将可缓存 Token 数量提升至优化前的近 5 倍。同时通过优化专家并行方案、输入长度分桶策略等，进一步提升集群输入吞吐能力。

简单理解：缓存命中率越高，实际服务成本越低——这是降价能够"永久化"的底气所在。

怎么接入？三种方式

方式一：小米 MiMo 开放平台。 访问官方平台注册账号、申请 API Key 即可使用，支持 OpenAI 兼容格式。适合直接调用、需要官方技术支持的场景。

方式二：OpenRouter。 已在 OpenRouter 上线，模型名称为 xiaomi/mimo-v2.5-pro 和 xiaomi/mimo-v2.5，提供标准化请求/响应格式，支持 reasoning 参数启用思维链推理。适合已在用 OpenRouter 管理多模型的开发者。

方式三：本地部署。 MiMo-V2.5 系列采用 MIT 许可证开源，可直接从 Hugging Face 下载模型文件部署到自有服务器，无商用限制。

注意： 本次调价仅针对 MiMo-V2.5 和 MiMo-V2.5-Pro。MiMo-V2-Pro 和 MiMo-V2-Omni 两款高阶模型 API 价格维持原价不变。如果你还在用 V2 系列，现在是最佳的切换窗口。

对 AI 编程场景意味着什么？

结合本号的定位，重点说下这对 AI 开发者的实际影响。

这个模型本身定位就是"专为 Agent 场景打造"。它在编程 Agent 场景下的 Token 消耗本就比竞品少 40%-60%，现在 API 价格又降到几乎可以忽略不计的水平——缓存命中场景每百万 Token 仅 0.025 元，输出 6 元。

打个比方：在 OpenCode 或 Hermes Agent 中跑一个标准的编码任务，消耗约 7-10 万 Token，其中大部分如果命中缓存，实际费用可能不到一分钱。对于高频使用 AI 编程的开发者来说，用这个模型几乎不会有成本顾虑。DeepSeek V4-Pro 降价后也到了同一水位（缓存命中 0.025 元），两家竞争最终受益的是开发者。

写在最后

几个要点总结：

降价真实且永久。
Pro 版缓存命中输入从最高 2.80 元降到 0.025 元，降幅 98% 以上，昨天 0 点起全球生效，不是限时促销。
取消上下文分级同样重要。
对长上下文使用场景来说，实际节省远超单纯的价格降幅。
降价不降质。
MiMo-V2.5-Pro 在 ClawEval Agent 评测开源第一、SWE-bench Pro 解决率 57.2%、千亿 Token 调用量验证的稳定性——这些数据在降价前就已存在。
Token Plan 扩容让个人开发者更受益。
同等价格下额度提升 5-8 倍，对于日均调用量不大的个人开发者和团队，实际成本进一步被摊薄。
生态已成熟。
OpenRouter 已上线，接入成本为零。现有订阅用户的 Credits 昨天已重置，现在接入或切换正是时候。

你目前在用哪个模型跑 Agent 任务？有没有考虑切到 MiMo V2.5？欢迎在评论区分享你的实测体验。

精选系列

【声明】内容源于网络

创见AI实验室

创见AI实验室，我们不只是介绍工具，我们共同创造工作方式的未来。

内容 147

粉丝 0

创见AI实验室创见AI实验室，我们不只是介绍工具，我们共同创造工作方式的未来。

总阅读20

粉丝0

内容147