大数跨境

大反转!全网猜了一周 DeepSeek V4,结果是小米干的

大反转!全网猜了一周 DeepSeek V4,结果是小米干的 APPSO
2026-03-19
4
导读:人车家全生态。

小米发布 MiMo-V2 系列大模型:聚焦 Agent 能力的全栈 AI 基座

上周,两款匿名模型「Hunter Alpha」和「Healer Alpha」悄然上线 OpenRouter 平台,未作宣传却迅速登顶日榜,累计调用量突破 1T tokens,引发社区广泛猜测,主流观点一度指向 DeepSeek V4 内测版本。

3月19日,小米官方正式宣布:两款模型均为小米 MiMo-V2 系列大模型的早期内测版本。MiMo 大模型负责人罗福莉在 X 平台公开确认,揭晓谜底。

值得注意的是,罗福莉曾为 DeepSeek 前研究员。其主导研发的 MiMo-V2 系列,在架构设计与能力表现上高度对标国际一线模型,被误认为 DeepSeek 新作,侧面印证技术实力。

MiMo-V2 三款核心模型正式发布

MiMo-V2-Pro:面向高强度 Agent 场景的旗舰文本基座

MiMo-V2-Pro 是专为复杂推理、自主规划与工具调用设计的文本大模型,总参数量突破 1T,激活参数达 42B,较前代 MiMo-V2-Flash 提升约 3 倍。

依托创新的混合注意力架构(Hybrid Attention),其轻量 MTP(Multi Token Prediction)层比例提升至 7:1,兼顾高吞吐与低延迟;支持高达 1M 的超长上下文窗口,在长程 Agent 任务中具备结构性优势。

在全球权威大模型综合智能排行榜 Artificial Analysis 中,MiMo-V2-Pro 当前位列全球第八、国内第二。在 Coding Agent、通用 Agent 和 Tool Use 等实际任务维度,性能与 Claude Sonnet 4.6 处于同一梯队;内部评测显示,其代码工程能力已接近 Claude Opus 4.6,系统设计更优、代码风格更优雅。

Hunter Alpha 匿名内测期间,调用量最高的应用集中于编程工具类,印证其在开发者场景中的真实可用性。在 OpenClaw 框架下,MiMo-V2-Pro 可一键生成视觉精致、功能完备的网页,兼顾美观与可用性。

定价策略极具竞争力:256K 上下文内,输入 1 美元/百万 tokens,输出 3 美元;1M 上下文内,输入 2 美元,输出 6 美元——仅为同级别竞品的五分之一。

为加速生态渗透,小米联合 OpenClaw、OpenCode、KiloCode、Blackbox 与 Cline 五大 Agent 框架团队,提供为期一周的限时免费 API 接入支持。

目前,MiMo-V2-Pro 已正式开放 API 服务,开发者可访问 https://platform.xiaomimimo.com 接入体验;官方模型体验页 https://aistudio.xiaomimimo.com 同步上线 MiMo Claw 功能,支持免费体验 Agent 能力。

MiMo-V2-Omni:首个基座级统一感知与行动的全模态 Agent 模型

MiMo-V2-Omni 是小米首款从底层架构实现文本、视觉、音频深度融合的全模态模型,目标是构建具备“眼睛、耳朵与手”的智能体。

音频理解能力突出:支持超 10 小时连续长音频理解,覆盖环境声分类、多说话人分离等复杂场景,综合表现超越 Gemini 3 Pro。

图像理解方面,在多学科视觉推理与复杂图表分析任务中超越 Claude Opus 4.6,逼近 Gemini 3 Pro 等顶尖闭源模型。

视频理解支持原生音视频联合输入,避免传统分通道处理的信息割裂,真正实现架构级多模态融合。

在 OpenClaw 框架下,MiMo-V2-Omni 展现出端到端任务完成能力:可自主浏览社交媒体获取评测、整理购买建议、跨平台比价、联系客服议价并完成下单,全程应对多标签页切换与实时交互要求。

在纯文本智能体基准 PinchBench 中,Healer Alpha 内测期间拿下均分第一,社区反馈与测评结果高度一致。

办公场景方面,已与金山办公深度合作,接入 WPS 灵犀,支持自动生成高质量 Word、结构化 Excel、排版规范 PDF 与完整 PPT;MiMo Studio 的 Claw 模块亦全面打通金山 WebOffice 生态,原生兼容四大主流文档格式,覆盖超 95% 日常文档类型。

MiMo-V2-Omni 已开放 API,支持 256K 上下文,输入 0.4 美元/百万 tokens,输出 2 美元,同样可通过 https://platform.xiaomimimo.com 接入。

MiMo-V2-TTS:面向情感表达的语音合成大模型

MiMo-V2-TTS 补足 Agent 全栈能力的最后一环,专注自然、富有表现力的语音生成。

基于小米自研 Audio Tokenizer 与多码本语音文本联合建模架构,经上亿小时语音数据预训练,覆盖海量说话风格、方言与真实场景,奠定强泛化基础。

多维度强化学习后训练阶段,围绕韵律自然度、音质稳定性、音色克隆质量与场景语气适配持续优化;多层码本建模支持直接利用语音奖励信号进行端到端优化,显著提升控制精度。

模型支持多粒度语音控制——从整体基调设定,到句内情绪转折与递进,均可自然呈现;能自动识别标点、语气词与强调标记,并转化为对应语音表达,无需人工标注。

方言支持涵盖东北话、四川话、河南话、粤语、台湾腔等;同时具备角色扮演式风格演绎与高质量歌声合成能力,实现“能说、能演、也能唱”。

未来,MiMo-V2-TTS 将与 MiMo-V2-Omni 深度融合,使 Agent 不仅能感知与理解世界,更能以有温度的声音讲述世界。

AI 成为人车家全生态的智能中枢

三款模型同步发布,是小米长期技术积累与战略判断的集中体现。MiMo 团队早在数月前即启动 1T 基础模型训练,混合注意力架构、1M 上下文窗口、MTP 推理优化等关键技术,均属前置布局而非被动跟随。

团队转向 Agent 范式的决策,源于一次关键体验:罗福莉首次使用复杂 Agent 框架后即明确要求——“明日对话次数少于 100 次者可辞职”。这一看似极端的要求,快速激发团队想象力与研发效率。

小米持续推进“人车家全生态”战略,澎湃 OS 已实现手机、SU7 系列汽车与智能家居设备的物理互联。而 MiMo-V2 系列正是补齐智能中枢的关键拼图:

  • MiMo-V2-Pro 负责推理与规划
  • MiMo-V2-Omni 负责多模态感知与跨设备执行
  • MiMo-V2-TTS 负责拟人化语音表达

三者构成完整的 AI 能力栈。目前,miclaw(小米手机端 AI 智能体)已完成集成,具备系统级执行能力与“人车家全生态”深度联动;WPS 灵犀、小米浏览器等也相继接入,印证 MiMo 正从对话产品向基础设施层演进。

当行业仍在描绘“AI 打通一切”的蓝图时,搭载 Agent 基因的 MiMo-V2 系列,已依托扎实技术与成熟生态,迈出实质性落地的第一步。

【声明】内容源于网络
0
0
APPSO
AI第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al
内容 14587
粉丝 0
APPSO AI第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al
总阅读188.0k
粉丝0
内容14.6k