首页

即DeepSeek之后，小米的全模态基座模型MiMo成为新秀！

AIGC新知

2026-03-19

导读：前不久在OpenRouter的那个神秘模型原来是小米的。

还记得前不久在OpenRouter悄咪咪上线的那个神秘模型吗？

它以 “Healer Alpha” 为代号，匿名登陆全球最大 API 聚合平台 OpenRouter，上线后调用量迅速攀升，用户好评不断。

根据匿名用户的反馈，新模型在openclaw里面表现相当出色。

新的Healer Alpha模型在Openclaw里使用起来真的非常棒。零样本秒出的网页设计，效果简直惊艳!

我今天一整天都在我的 Openclawagent 里使用 Healer Alpha，简直太棒了。它很有幽默感，感觉像 Grok十分期待后续。

以及在Claude code、opencode这类编程工具里面，也广受好评。

Healer Alpha 现在在 Opencode 上运行良好，到目前为止表现相当出色。它能对复杂的 Rust 代码库进行很好的分析和解决方案。我不知道它的提供商是谁，但就目前而言，它是一个很好的模型。

直到小米官方确认——这个横空出世的 Healer Alpha，正是小米的 MiMo 早期模型（pro版本），

并且它已在全球 AI 智能体评测平台 OpenClaw 的 PinchBench 榜单上，拿下均分第一。

那么，这个让众多开发者和用户“路转粉”的模型，究竟有何魅力？

让我们一同揭晓。

MiMo-V2-Omni：Agent 时代的全模态基座

Xiaomi MiMo-V2-Omni是Agent 时代的全模态基座模型。

解读：

它是一个融合了「文本、视觉、语音」的全模态基座，以统一架构将“感知”与“行动”深度绑定，也就是既能感知理解，也能强力的去执行任务。

模型原生具备多模态感知、工具调用、函数执行与 GUI 操作能力，真正让 AI 从“看得懂”迈向“做得到”。

全模态感知能力：看得清、听得懂、想得透

Xiaomi MiMo-V2-Omni模型的能力，建立在「精准感知」和「准确推理」（官方原话」基础之上。

这就包括从音频、视频和图像等多个维度进行感知理解，比如支持复杂情况下的音视频推理，面对多个说话人、超长音频也能游刃有余，尤其是针对长视频的混合音视频输入，也能准确理解其中的内容。

音频理解：听见细节，洞察语境

支持从环境声分类、多说话人分离、音频-视觉联合推理，到超过 10 小时连续长音频的深度理解。

在MMAU-Pro音频理解&推理、BigBench-Audio说话人推理等基准测试方面，综合表现超越 Gemini 3 Pro，是当前最强的音频理解基座模型之一。

实测：提供一段dankoe的52分钟长音频播客，让Xiaomi MiMo-V2-Omni模型理解提炼音频里面的内容。

指令：根据我上传的音频，请你帮我提炼总结音频里面讲了啥。

图像理解：看懂图表，推理跨学科问题

MiMo-V2-Omni 展现出强大的多学科视觉推理与复杂图表分析能力，

在MMMU-Pro多模态理解&推理、CharXiv RQ图表理解等基准测试方面，超越 Claude Opus 4.6（如图），逼近 Gemini 3 Pro 等顶尖闭源模型水平。

实测：让模型理解图表。

视频理解：音视频融合，情境感知

支持原生音视频联合输入，实现真正的多模态视频理解。

在VideoMME视频问答，FutureOmni未来时间预测等基准测试方面比肩Gemini3模型，模型具备强大的情境感知与未来推理能力。

接下来进行实测，以官网为准，视频上传限制20mb以内。

实测：在自动驾驶场景下，MiMo-V2-Omni模型能够预测危机，以一段视频为例。

指令：作为自动驾驶系统的视觉大脑，实时识别潜在的安全风险。

结果来看，1分27秒的视频，推理时间只用了13秒左右，每一帧结果都可以看到。

行动能力：感知之后，精准执行

MiMo-V2-Omni 能够「跨模态理解复杂环境、自主制定并执行计划、在遇到异常时实时修正策略」，最终端到端地交付完整结果。

这一步，离不开MiMo-V2-Omni 的全模态理解能力，将全模态输入获得的结果，作为下一步任务执行的输入，感知理解越强，模型执行任务能力更加优秀。

纯文本智能体任务：推理与交互并重

MiMo-V2-Omni 在纯文本智能体任务上，在需要推理判断和环境交互的智能体任务上表现突出，但在代码工程和商业任务上还有提升空间。

这张图展示了五个AI模型在编程与经济相关任务上的表现，与多模态能力形成互补。

与真实数字环境交互：稳定可靠，比肩顶尖

在与真实数字平台（如网页、应用）交互的任务中表现优异，比肩 Gemini 3 Pro，尤其在音频与推理结合的场景中具备独特优势。

虽然不是所有交互任务的第一名，但其全面的能力谱和突出的专项优势，使其成为构建多模态智能体的强有力候选。

实测1：接入小龙虾，做跨平台购物选型

指令：

我是一名喜欢旅行摄影的学生。我应该如何在三款小米17中选择？浏览小红书寻求建议，做出推荐，然后去 JD.com 下单——并尝试议价更好的价格。

实测2：接入小龙虾，制作tiktok视频

指令：制作一个15秒的MiMo-V2-Omni介绍视频，配合科技风格的音效，然后上传到TikTok。

其他系列模型

MiMo-V2-Pro 旗舰基础模型

值得注意的是，Hunter Alpha 是 MiMo-V2-Pro 的早期内部测试版本。

并且，在OpenClaw标准评估基准测试PinchBench和ClawEval中，MiMo-V2-Pro实现了全球领先的成绩。

在Hunter Alpha测试阶段，按调用量排名前列的应用均为以编码为重点的工具，这证实了MiMo-V2-Pro在实际开发工作流程中的高度可用性和可靠性。

在前端场景中，MiMo-V2-Pro 展现了强大的端到端完成度。

在 OpenClaw 中，它通过一次查询生成精致、功能齐全的网页，平衡了视觉质量与实用性。

MiMo-V2-Pro API 现已公开，支持 100 万令牌上下文，按使用量分层收费：

MiMo-V2-Flash

MiMo-V2-Flash是一个开源的基础语言模型，尤其擅长推理、编码和智能场景。

开源地址：https://huggingface.co/xiaomimimo/MiMo-V2-Flash

Xiaomi MiMo-V2-TTS

MiMo-V2-TTS是Agent时代的全模态交互模型，不仅仅能够说，而且还能表达情绪，适合不同语境，赋予智能体温暖、情感和灵魂的声音。

这不是一个被动的文本转语音引擎，而是agent沟通和连接方式的自然延伸：

情境情绪觉察——从文本中捕捉情绪线索，自动匹配最自然的语气和表达方式
普遍的风格适应性——从正式公告到随意聊天，输出自然且准确
实时、无缝的互动——紧跟客服的推理，使对话流畅自然

参考：https://mimo.xiaomi.com/mimo-v2-tts

体验方式

1、通过 Xiaomi MiMo Studio 直接调用

链接：https://aistudio.xiaomimimo.com/#/c

2、通过API调用

需要注意的是，通过官网调用，需要实名认证。

你也可以接入到cherry studio。

3、通过 OpenRouter 调用

访问地址：https://openrouter.ai/xiaomi/mimo-v2-omni

4、使用 Xiaomi MiMo Claw（小龙虾）

这个是小米官方推出的小龙虾。

https://aistudio.xiaomimimo.com/#/

写在最后

从 Healer Alpha 的匿名登场，到 MiMo-V2-Omni 的正式亮相，小米用实力完成了一次漂亮的"先让产品说话，再让品牌登场"。

在这个大模型百花齐放的时代，参数规模不再是唯一的衡量标准。

能不能真正理解复杂场景、能不能在真实任务中稳定执行、能不能让普通用户和开发者都感受到"好用"——这些才是检验一个模型价值的试金石。

MiMo 系列模型的全模态能力、开源策略、以及对 Agent 场景的深度优化，让我们看到模型也是能够感知世界、理解语境、主动执行的智能伙伴。

当然，技术的进步永无止境。

小米在 AI 领域的持续投入，会带来更多令人惊喜的产品与体验。

如果你还没有尝试过 MiMo，不妨从今天开始。

毕竟，最好的了解方式，永远是亲身体验。

【声明】内容源于网络

AIGC新知

拆解生成式AI的前沿动态、实用技巧与行业机遇，做你身边的AIGC干货充电站。

内容 284

粉丝 0

AIGC新知拆解生成式AI的前沿动态、实用技巧与行业机遇，做你身边的AIGC干货充电站。

总阅读3.8k

粉丝0

内容284