超长上下文 + 超强推理，MiniMax M1 深夜登场，掀起 AI 开源新风暴- 大数跨境

首页

超长上下文 + 超强推理，MiniMax M1 深夜登场，掀起 AI 开源新风暴

元龙数字智能科技

2025-06-17

超长上下文 + 超强推理

MiniMax M1

深夜登场

掀起 AI 开源新风暴

在 AI 行业的激烈竞争格局中，曾被寄予厚望的 “六小虎” 一度沉寂许久。然而，MiniMax 却在近日打破了这份宁静。6 月 16 日深夜将近 12 点，MiniMax 在 X 平台上出人意料地预告了一整周的发布计划，这一操作让不少业内人士感到意外，毕竟如此 “阴间” 的发布时间点并不常见。而在计划的首日，MiniMax 就推出了 MiniMax Week 的首个项目 —— 开源其首个推理模型 M1，这一开源举动着实令人眼前一亮。

MiniMax M1 的上下文能力堪称卓越，在全球范围内的开源模型中脱颖而出，足以与 Gemini 2.5 Pro 相媲美，被誉为新一代 “源神” 。在不同类型的测试任务中，M1 展现出了各异的性能表现。在 AIME 2024 逻辑数学题目这类偏奥数思维的测试以及 LiveCodeBench 编程题、SWE-bench Verified（真实世界代码补全 + 修改）测试中，M1 的表现处于中规中矩的水平，在部分任务上表现较弱，而在另一些任务上表现较强。例如，在 AIME 2024 数学竞赛题目中，一些复杂的逻辑推理和计算问题，M1 的解题准确率并未达到顶尖水平。在 TAU - bench 测试（该测试需要模型理解任务目标、推理动机的场景）中，M1 的准确率达到了 62.8%，这一成绩使其开始在开源模型中崭露头角，能够较好地应对需要深度理解和推理的场景任务。

最令人瞩目的是在 MRCR（4 - needle）测试中，M1 实现了惊人的突破。MRCR 即 Multi - Round Co - reference Resolution（多轮共指消解），主要考察模型在处理较长的、多轮对话时，能否准确理解和区分用户要求中具体所指的是哪一次对话、哪一个内容。此前 AI 圈有一个 “大海捞针” 测试，用于检测模型的上下文能力。当时为了测试 Claude2.1 的 200K Token 实际效果，有人调用 Claude 的 API 进行压力测试，从不同长度文本中捞出特定信息，花费不菲。而 Gemini 后来提出了更高级的 Michelangelo 测试方法，MRCR 就是其中一项评估任务。OpenAI 在发布 GPT - 4.1 时，也采用了魔改后的高难度 MRCR 评测集来评估模型上下文性能。“4 - needle” 意味着在同一段超长上下文里同时埋下 4 个 “针”（关键信息片段），然后在后续对话里以交错方式把这 4 根 “针” 全部找出。在这个极具挑战性的任务中，MiniMax - M1 的表现一骑绝尘，直接屠榜，与 Gemini 2.5 Pro 并肩，超越了众多竞争对手。

M1 在上下文性能上的出色表现，核心得益于其之前开源的基座模型 MiniMax - 01。MiniMax - 01 采用的 Lightning Attention 线性注意力机制发挥了关键作用，使得 M1 的时间和空间复杂度随序列长度增加近似线性增长，而非像传统 Transformer 那样呈平方级膨胀。在推理生成长度 64K token 时，M1 的 FLOPs（浮点运算次数）消耗不到 DeepSeek R1 的一半；当生成长度达到 100K token 时，M1 仅消耗其约 25% 的 FLOPs，这一优势在处理超长上下文时尤为明显。MiniMax - M1 与之前开源的基座模型 MiniMax - 01 一样，采用 456B 参数，MoE（混合专家模型）架构，实际激活 45.9B。其最长上下文长度为 100 万字，即 1M，是 DeepSeek - R1 的 8 倍。此次开源的推理模型分为 40K 和 80K 两个版本，80K 版本是在 40K 版本基础上进一步训练得到的增强版本，这里的 80K 和 40K 指的是 Extended Thinking 的上限，而非上下文长度。

作者在第一时间对 MiniMax M1 进行了实际测试，其表现令人惊叹。当作者将 MiniMax - M1 的技术报告输入模型，要求其逐字翻译时，M1 不仅准确地翻译了文字内容，甚至还将报告中的图、公式以及表格都完整地处理并翻译出来，尽管在图表呈现上还未达到 100% 的完整度，但文字部分无一遗漏，甚至还贴心地根据自己的判断省略了作者认为用处不大的 5 页参考文献。在另一个有趣的翻译测试中，作者输入一个文档，并要求 “翻译成中文，在括号里标注一些符合我英语水平的原文英文词汇或短语。我英语水平是大学六级”，M1 精准地完成了任务，再次展现了其强大的上下文理解和执行能力。

在信息检索方面，作者将微信群一周的聊天记录导出后扔给 MiniMax - M1，让其找出特定人员 “绛烨” 的聊天记录。M1 准确识别出绛烨的微信 ID，找到了其微信号，并成功扒出所有聊天记录，甚至还对链接进行了样式重构，这些链接均能正常点击，功能十分强大。得益于超长且精准的上下文能力，用户甚至可以与 M1 玩文字冒险游戏，因为它能够牢记用户之前提供的信息和设定。

在内容推荐任务中，作者将 34 个刘慈欣老师的小说合集交给 M1，希望它能为每个故事写一段故事总结 + 推荐语。这一任务对于 DeepSeek 来说难以完成，DeepSeek 仅阅读了 8% 的内容就出现问题，而 MiniMax - M1 却出色地完成了任务，充分体现了超长上下文的优势。不过，作者也进行了一个极为 “变态” 的测试，让 M1 数《本草纲目》里一共有多少药材，M1 经过 8 分钟的运算后给出错误答案（实际答案是 1892 种，M1 回答有 400 种），但考虑到该任务的极端复杂性，出现这样的结果也在情理之中。

在其他能力测试中，写作方面 M1 表现中规中矩；数学测试中，作者虽未完整测试高考题，但抽取的两道大题 M1 均回答正确；编程方面，M1 的前端审美则还有提升空间。例如，作者根据参加飞书多维表格闭门会的经历，希望制作一个可视化网页，对比 Gemini 和 M1 生成的结果，M1 生成的网页在美观度上存在一定差距，显得较为 “直男审美” 。

总体而言，MiniMax M1 模型带来了不少惊喜，其在推理模型和超长精准上下文扩充方面的创新，为开源领域的模型发展注入了新的活力，提升了整体模型水平。随着 MiniMax Week 的推进，未来 4 天 MiniMax 还将带来更多项目发布，令人充满期待。鉴于 MiniMax 此前在视频模型方面的表现，如 Video 01 - Director 数月前发布后取得了不错的成绩，此次极有可能推出新的视频模型。同时，Hailuo 02（0616）已参与打榜，MiniMax 在人物情绪表演、动作表演方面一直表现出色，Hailuo 02 有望在人物表演上带来更大的震撼。

由于一个月前 MiniMax 刚发布了 Speech - 02 声音模型，因此短期内再次更新声音模型的可能性较小。考虑到 MiniMax 在多媒体领域的布局，推出音乐模型也并非没有可能，这将进一步丰富 MiniMax 的产品矩阵，契合其发展气质。期待 MiniMax 在接下来的几天里继续发力，为 AI 行业带来更多创新成果，让 AI 之火燃烧得更加热烈，推动整个行业迈向新的高度。

END

【声明】内容源于网络

元龙数字智能科技

永做第一使命第一向善第一

内容 901

粉丝 0

元龙数字智能科技永做第一使命第一向善第一

总阅读1.3k

粉丝0

内容901