
小米推出了其首个开源人工智能大型语言模型MiMo,专为推理任务而设计。该模型由新成立的小米大模型核心团队开发,拥有70亿个参数,在数学推理和代码生成方面表现出色,性能堪比OpenAI的o1-mini和阿里巴巴的Qwen-32B-Preview等大型模型。
小米指出,在较小的模型中实现这样的功能具有挑战性,因为大多数成功的强化学习(RL)模型依赖于更大的架构,例如 320 亿参数模型。
该公司认为,MiMo 的推理效率源于基础模型的潜力,而这种潜力是通过有针对性的预训练和后训练策略实现的。其较小的规模可能使其更适合企业使用以及资源有限的边缘设备。
预训练过程
MiMo 的推理能力建立在优化的预训练流程之上。小米改进了数据预处理流程,增强了文本提取工具,并使用多层过滤来提高推理模式的密度。
该团队编制了一个包含 2000 亿个推理令牌的数据集,并应用了三阶段数据混合策略。该模型在三个渐进式训练阶段中使用了 25 万亿个令牌进行训练。小米还使用多令牌预测作为训练目标,以提高性能并缩短推理时间。
训练后流程
在训练后阶段,小米运用强化学习,解决了 13 万道数学和编程问题,并通过基于规则的系统验证了其准确性和难度。为了解决复杂任务中的稀疏奖励问题,团队实施了测试难度驱动的奖励系统,并使用简易数据重采样技术对较简单的问题进行稳定的强化学习训练。

为了提升训练和验证速度,小米引入了无缝部署引擎 (Seamless Rollout Engine),以减少 GPU 停机时间。该系统将训练速度提升了 2.29 倍,验证速度提升了 1.96 倍。它还支持 vLLM 中的多令牌预测,并增强了强化学习系统的推理稳定性。

MiMo AI 模型变体
MiMo-7B系列包含四个版本:
MiMo-7B-Base:具有强大推理潜力的基础模型
MiMo-7B-RL-Zero:从基础开始训练的 RL 模型
MiMo-7B-SFT:监督微调模型
MiMo-7B-RL:基于 SFT 训练的 RL 模型,提供与 OpenAI o1-mini 匹敌的顶级性能
基准性能
MiMo-7B-RL 在各种评估中都表现出色(温度 = 0.6):
数学:
MATH-500:95.8% 通过率@1(单次运行)
AIME 2024:通过率 68.2%@1(32 次运行的平均值)
AIME 2025:55.4% Pass@1(32 次运行的平均值)


代码:
LiveCodeBench v5:57.8% Pass@1(8 次运行的平均值)
LiveCodeBench v6:49.3% 通过@1(8 次运行的平均值)
一般的:
GPQA 钻石:54.4% 通过率@1(8 次运行的平均数)
SuperGPQA:40.5% Pass@1(单次运行)
落差(3发 F1):78.7
MMLU-Pro(精确匹配):58.6
IF-Eval(Prompt Strict):61.0(8 次运行的平均值)
可用性
MiMo-7B 模型系列是开源的,可在Hugging Face上访问。完整的技术报告和模型检查点也可在GitHub上找到。
免责声明:
关注我们,一起探索AWM!
近期热点
2025-04-25
2025-04-24
2025-04-24




