大反转！全网猜了一周 DeepSeek V4，结果是小米干的- 大数跨境

APPSO

2026-03-19

导读：人车家全生态。

小米发布 MiMo-V2 系列大模型：聚焦 Agent 能力的全栈 AI 基座

上周，两款匿名模型「Hunter Alpha」和「Healer Alpha」悄然上线 OpenRouter 平台，未作宣传却迅速登顶日榜，累计调用量突破 1T tokens，引发社区广泛猜测，主流观点一度指向 DeepSeek V4 内测版本。

3月19日，小米官方正式宣布：两款模型均为小米 MiMo-V2 系列大模型的早期内测版本。MiMo 大模型负责人罗福莉在 X 平台公开确认，揭晓谜底。

值得注意的是，罗福莉曾为 DeepSeek 前研究员。其主导研发的 MiMo-V2 系列，在架构设计与能力表现上高度对标国际一线模型，被误认为 DeepSeek 新作，侧面印证技术实力。

MiMo-V2 三款核心模型正式发布

MiMo-V2-Pro：面向高强度 Agent 场景的旗舰文本基座

MiMo-V2-Pro 是专为复杂推理、自主规划与工具调用设计的文本大模型，总参数量突破 1T，激活参数达 42B，较前代 MiMo-V2-Flash 提升约 3 倍。

依托创新的混合注意力架构（Hybrid Attention），其轻量 MTP（Multi Token Prediction）层比例提升至 7:1，兼顾高吞吐与低延迟；支持高达 1M 的超长上下文窗口，在长程 Agent 任务中具备结构性优势。

在全球权威大模型综合智能排行榜 Artificial Analysis 中，MiMo-V2-Pro 当前位列全球第八、国内第二。在 Coding Agent、通用 Agent 和 Tool Use 等实际任务维度，性能与 Claude Sonnet 4.6 处于同一梯队；内部评测显示，其代码工程能力已接近 Claude Opus 4.6，系统设计更优、代码风格更优雅。

Hunter Alpha 匿名内测期间，调用量最高的应用集中于编程工具类，印证其在开发者场景中的真实可用性。在 OpenClaw 框架下，MiMo-V2-Pro 可一键生成视觉精致、功能完备的网页，兼顾美观与可用性。

定价策略极具竞争力：256K 上下文内，输入 1 美元/百万 tokens，输出 3 美元；1M 上下文内，输入 2 美元，输出 6 美元——仅为同级别竞品的五分之一。

为加速生态渗透，小米联合 OpenClaw、OpenCode、KiloCode、Blackbox 与 Cline 五大 Agent 框架团队，提供为期一周的限时免费 API 接入支持。

目前，MiMo-V2-Pro 已正式开放 API 服务，开发者可访问 https://platform.xiaomimimo.com 接入体验；官方模型体验页 https://aistudio.xiaomimimo.com 同步上线 MiMo Claw 功能，支持免费体验 Agent 能力。

MiMo-V2-Omni：首个基座级统一感知与行动的全模态 Agent 模型

MiMo-V2-Omni 是小米首款从底层架构实现文本、视觉、音频深度融合的全模态模型，目标是构建具备“眼睛、耳朵与手”的智能体。

音频理解能力突出：支持超 10 小时连续长音频理解，覆盖环境声分类、多说话人分离等复杂场景，综合表现超越 Gemini 3 Pro。

图像理解方面，在多学科视觉推理与复杂图表分析任务中超越 Claude Opus 4.6，逼近 Gemini 3 Pro 等顶尖闭源模型。

视频理解支持原生音视频联合输入，避免传统分通道处理的信息割裂，真正实现架构级多模态融合。

在 OpenClaw 框架下，MiMo-V2-Omni 展现出端到端任务完成能力：可自主浏览社交媒体获取评测、整理购买建议、跨平台比价、联系客服议价并完成下单，全程应对多标签页切换与实时交互要求。

在纯文本智能体基准 PinchBench 中，Healer Alpha 内测期间拿下均分第一，社区反馈与测评结果高度一致。

办公场景方面，已与金山办公深度合作，接入 WPS 灵犀，支持自动生成高质量 Word、结构化 Excel、排版规范 PDF 与完整 PPT；MiMo Studio 的 Claw 模块亦全面打通金山 WebOffice 生态，原生兼容四大主流文档格式，覆盖超 95% 日常文档类型。

MiMo-V2-Omni 已开放 API，支持 256K 上下文，输入 0.4 美元/百万 tokens，输出 2 美元，同样可通过 https://platform.xiaomimimo.com 接入。

MiMo-V2-TTS：面向情感表达的语音合成大模型

MiMo-V2-TTS 补足 Agent 全栈能力的最后一环，专注自然、富有表现力的语音生成。

基于小米自研 Audio Tokenizer 与多码本语音文本联合建模架构，经上亿小时语音数据预训练，覆盖海量说话风格、方言与真实场景，奠定强泛化基础。

多维度强化学习后训练阶段，围绕韵律自然度、音质稳定性、音色克隆质量与场景语气适配持续优化；多层码本建模支持直接利用语音奖励信号进行端到端优化，显著提升控制精度。

模型支持多粒度语音控制——从整体基调设定，到句内情绪转折与递进，均可自然呈现；能自动识别标点、语气词与强调标记，并转化为对应语音表达，无需人工标注。

方言支持涵盖东北话、四川话、河南话、粤语、台湾腔等；同时具备角色扮演式风格演绎与高质量歌声合成能力，实现“能说、能演、也能唱”。

未来，MiMo-V2-TTS 将与 MiMo-V2-Omni 深度融合，使 Agent 不仅能感知与理解世界，更能以有温度的声音讲述世界。

AI 成为人车家全生态的智能中枢

三款模型同步发布，是小米长期技术积累与战略判断的集中体现。MiMo 团队早在数月前即启动 1T 基础模型训练，混合注意力架构、1M 上下文窗口、MTP 推理优化等关键技术，均属前置布局而非被动跟随。

团队转向 Agent 范式的决策，源于一次关键体验：罗福莉首次使用复杂 Agent 框架后即明确要求——“明日对话次数少于 100 次者可辞职”。这一看似极端的要求，快速激发团队想象力与研发效率。

小米持续推进“人车家全生态”战略，澎湃 OS 已实现手机、SU7 系列汽车与智能家居设备的物理互联。而 MiMo-V2 系列正是补齐智能中枢的关键拼图：

MiMo-V2-Pro 负责推理与规划
MiMo-V2-Omni 负责多模态感知与跨设备执行
MiMo-V2-TTS 负责拟人化语音表达

三者构成完整的 AI 能力栈。目前，miclaw（小米手机端 AI 智能体）已完成集成，具备系统级执行能力与“人车家全生态”深度联动；WPS 灵犀、小米浏览器等也相继接入，印证 MiMo 正从对话产品向基础设施层演进。

当行业仍在描绘“AI 打通一切”的蓝图时，搭载 Agent 基因的 MiMo-V2 系列，已依托扎实技术与成熟生态，迈出实质性落地的第一步。

【声明】内容源于网络

APPSO

AI第一新媒体，「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al

内容 14587

粉丝 0

APPSO AI第一新媒体，「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al

总阅读188.0k

粉丝0

内容14.6k