大数跨境

即DeepSeek之后,小米的全模态基座模型MiMo成为新秀!

即DeepSeek之后,小米的全模态基座模型MiMo成为新秀! AIGC新知
2026-03-19
7
导读:前不久在OpenRouter的那个神秘模型原来是小米的。

Image

还记得前不久在OpenRouter悄咪咪上线的那个神秘模型吗?

它以 “Healer Alpha” 为代号,匿名登陆全球最大 API 聚合平台 OpenRouter,上线后调用量迅速攀升,用户好评不断。

根据匿名用户的反馈,新模型在openclaw里面表现相当出色。

🍰

新的Healer Alpha模型在Openclaw里使用起来真的非常棒。零样本秒出的网页设计,效果简直惊艳!

🎨

我今天一整天都在我的 Openclawagent 里使用 Healer Alpha,简直太棒了。它很有幽默感,感觉像 Grok十分期待后续。

以及在Claude code、opencode这类编程工具里面,也广受好评。

🚅

Healer Alpha 现在在 Opencode 上运行良好,到目前为止表现相当出色。它能对复杂的 Rust 代码库进行很好的分析和解决方案。我不知道它的提供商是谁,但就目前而言,它是一个很好的模型。


直到小米官方确认——这个横空出世的 Healer Alpha,正是小米的 MiMo 早期模型(pro版本),

并且它已在全球 AI 智能体评测平台 OpenClaw 的 PinchBench 榜单上,拿下均分第一。

那么,这个让众多开发者和用户“路转粉”的模型,究竟有何魅力?

让我们一同揭晓。

MiMo-V2-Omni:Agent 时代的全模态基座

Xiaomi MiMo-V2-Omni是Agent 时代的全模态基座模型。

🏆

解读:

它是一个融合了「文本、视觉、语音」的全模态基座,以统一架构将“感知”与“行动”深度绑定,也就是既能感知理解,也能强力的去执行任务。

模型原生具备 多模态感知、工具调用、函数执行与 GUI 操作 能力,真正让 AI 从“看得懂”迈向“做得到”。


全模态感知能力:看得清、听得懂、想得透

Xiaomi MiMo-V2-Omni模型的能力,建立在「精准感知」和「准确推理」(官方原话」基础之上。

这就包括从音频、视频和图像等多个维度进行感知理解,比如支持复杂情况下的音视频推理,面对多个说话人、超长音频也能游刃有余,尤其是针对长视频的混合音视频输入,也能准确理解其中的内容。


音频理解:听见细节,洞察语境

支持从环境声分类、多说话人分离、音频-视觉联合推理,到超过 10 小时连续长音频的深度理解。

在MMAU-Pro音频理解&推理、BigBench-Audio说话人推理等基准测试方面,综合表现超越 Gemini 3 Pro,是当前最强的音频理解基座模型之一。


Image
❤️

实测:提供一段dankoe的52分钟长音频播客,让Xiaomi MiMo-V2-Omni模型理解提炼音频里面的内容。

指令:根据我上传的音频,请你帮我提炼总结音频里面讲了啥。


图像理解:看懂图表,推理跨学科问题

MiMo-V2-Omni 展现出强大的多学科视觉推理与复杂图表分析能力,

在MMMU-Pro多模态理解&推理、CharXiv RQ图表理解等基准测试方面,超越 Claude Opus 4.6(如图),逼近 Gemini 3 Pro 等顶尖闭源模型水平。

实测:让模型理解图表。


Image


视频理解:音视频融合,情境感知

支持原生音视频联合输入,实现真正的多模态视频理解。

在VideoMME视频问答,FutureOmni未来时间预测等基准测试方面比肩Gemini3模型,模型具备强大的情境感知与未来推理能力。

接下来进行实测,以官网为准,视频上传限制20mb以内。

❤️

实测:在自动驾驶场景下,MiMo-V2-Omni模型能够预测危机,以一段视频为例。

指令:作为自动驾驶系统的视觉大脑,实时识别潜在的安全风险。


结果来看,1分27秒的视频,推理时间只用了13秒左右,每一帧结果都可以看到。


行动能力:感知之后,精准执行

MiMo-V2-Omni 能够「跨模态理解复杂环境、自主制定并执行计划、在遇到异常时实时修正策略」,最终端到端地交付完整结果。

这一步,离不开MiMo-V2-Omni 的全模态理解能力,将全模态输入获得的结果,作为下一步任务执行的输入,感知理解越强,模型执行任务能力更加优秀。


纯文本智能体任务:推理与交互并重

MiMo-V2-Omni 在纯文本智能体任务上,在需要推理判断和环境交互的智能体任务上表现突出,但在代码工程和商业任务上还有提升空间。


Image

这张图展示了五个AI模型在编程与经济相关任务上的表现,与多模态能力形成互补。


与真实数字环境交互:稳定可靠,比肩顶尖

在与真实数字平台(如网页、应用)交互的任务中表现优异,比肩 Gemini 3 Pro,尤其在音频与推理结合的场景中具备独特优势。


Image

虽然不是所有交互任务的第一名,但其全面的能力谱和突出的专项优势,使其成为构建多模态智能体的强有力候选。

👍

实测1:接入小龙虾,做跨平台购物选型

指令:

我是一名喜欢旅行摄影的学生。我应该如何在三款小米17中选择?浏览小红书寻求建议,做出推荐,然后去 JD.com 下单——并尝试议价更好的价格。


Image

实测2:接入小龙虾,制作tiktok视频

指令:制作一个15秒的MiMo-V2-Omni介绍视频,配合科技风格的音效,然后上传到TikTok。


Image

其他系列模型

MiMo-V2-Pro 旗舰基础模型

值得注意的是,Hunter Alpha 是 MiMo-V2-Pro 的早期内部测试版本。


Image

并且,在OpenClaw标准评估基准测试PinchBench和ClawEval中,MiMo-V2-Pro实现了全球领先的成绩。


Image

在Hunter Alpha测试阶段,按调用量排名前列的应用均为以编码为重点的工具,这证实了MiMo-V2-Pro在实际开发工作流程中的高度可用性和可靠性。


Image

在前端场景中,MiMo-V2-Pro 展现了强大的端到端完成度。

在 OpenClaw 中,它通过一次查询生成精致、功能齐全的网页,平衡了视觉质量与实用性。


MiMo-V2-Pro API 现已公开,支持 100 万令牌上下文,按使用量分层收费:


Image

MiMo-V2-Flash

MiMo-V2-Flash是一个开源的基础语言模型,尤其擅长推理、编码和智能场景。

开源地址:https://huggingface.co/xiaomimimo/MiMo-V2-Flash


Image


Xiaomi MiMo-V2-TTS

MiMo-V2-TTS是Agent时代的全模态交互模型,不仅仅能够说,而且还能表达情绪,适合不同语境,赋予智能体温暖、情感和灵魂的声音。


这不是一个被动的文本转语音引擎,而是agent沟通和连接方式的自然延伸:

  • 情境情绪觉察——从文本中捕捉情绪线索,自动匹配最自然的语气和表达方式
  • 普遍的风格适应性——从正式公告到随意聊天,输出自然且准确
  • 实时、无缝的互动——紧跟客服的推理,使对话流畅自然

参考:https://mimo.xiaomi.com/mimo-v2-tts

体验方式

1、通过 Xiaomi MiMo Studio 直接调用

链接:https://aistudio.xiaomimimo.com/#/c


Image

2、通过API调用

需要注意的是,通过官网调用,需要实名认证。


Image

你也可以接入到cherry studio。


Image

3、通过 OpenRouter 调用

访问地址:https://openrouter.ai/xiaomi/mimo-v2-omni


Image

4、使用 Xiaomi MiMo Claw(小龙虾)

这个是小米官方推出的小龙虾。

https://aistudio.xiaomimimo.com/#/


Image

写在最后

从 Healer Alpha 的匿名登场,到 MiMo-V2-Omni 的正式亮相,小米用实力完成了一次漂亮的"先让产品说话,再让品牌登场"。

在这个大模型百花齐放的时代,参数规模不再是唯一的衡量标准。

能不能真正理解复杂场景、能不能在真实任务中稳定执行、能不能让普通用户和开发者都感受到"好用"——这些才是检验一个模型价值的试金石。

MiMo 系列模型的全模态能力、开源策略、以及对 Agent 场景的深度优化,让我们看到模型也是能够感知世界、理解语境、主动执行的智能伙伴。


当然,技术的进步永无止境。

小米在 AI 领域的持续投入,会带来更多令人惊喜的产品与体验。

如果你还没有尝试过 MiMo,不妨从今天开始。

毕竟,最好的了解方式,永远是亲身体验。

【声明】内容源于网络
0
0
AIGC新知
拆解生成式AI的前沿动态、实用技巧与行业机遇,做你身边的AIGC干货充电站。
内容 284
粉丝 0
AIGC新知 拆解生成式AI的前沿动态、实用技巧与行业机遇,做你身边的AIGC干货充电站。
总阅读3.8k
粉丝0
内容284