超长上下文 + 超强推理
MiniMax M1
深夜登场
掀起 AI 开源新风暴
在 AI 行业的激烈竞争格局中,曾被寄予厚望的 “六小虎” 一度沉寂许久。然而,MiniMax 却在近日打破了这份宁静。6 月 16 日深夜将近 12 点,MiniMax 在 X 平台上出人意料地预告了一整周的发布计划,这一操作让不少业内人士感到意外,毕竟如此 “阴间” 的发布时间点并不常见。而在计划的首日,MiniMax 就推出了 MiniMax Week 的首个项目 —— 开源其首个推理模型 M1,这一开源举动着实令人眼前一亮。
MiniMax M1 的上下文能力堪称卓越,在全球范围内的开源模型中脱颖而出,足以与 Gemini 2.5 Pro 相媲美,被誉为新一代 “源神” 。在不同类型的测试任务中,M1 展现出了各异的性能表现。在 AIME 2024 逻辑数学题目这类偏奥数思维的测试以及 LiveCodeBench 编程题、SWE-bench Verified(真实世界代码补全 + 修改)测试中,M1 的表现处于中规中矩的水平,在部分任务上表现较弱,而在另一些任务上表现较强。例如,在 AIME 2024 数学竞赛题目中,一些复杂的逻辑推理和计算问题,M1 的解题准确率并未达到顶尖水平。在 TAU - bench 测试(该测试需要模型理解任务目标、推理动机的场景)中,M1 的准确率达到了 62.8%,这一成绩使其开始在开源模型中崭露头角,能够较好地应对需要深度理解和推理的场景任务。
最令人瞩目的是在 MRCR(4 - needle)测试中,M1 实现了惊人的突破。MRCR 即 Multi - Round Co - reference Resolution(多轮共指消解),主要考察模型在处理较长的、多轮对话时,能否准确理解和区分用户要求中具体所指的是哪一次对话、哪一个内容。此前 AI 圈有一个 “大海捞针” 测试,用于检测模型的上下文能力。当时为了测试 Claude2.1 的 200K Token 实际效果,有人调用 Claude 的 API 进行压力测试,从不同长度文本中捞出特定信息,花费不菲。而 Gemini 后来提出了更高级的 Michelangelo 测试方法,MRCR 就是其中一项评估任务。OpenAI 在发布 GPT - 4.1 时,也采用了魔改后的高难度 MRCR 评测集来评估模型上下文性能。“4 - needle” 意味着在同一段超长上下文里同时埋下 4 个 “针”(关键信息片段),然后在后续对话里以交错方式把这 4 根 “针” 全部找出。在这个极具挑战性的任务中,MiniMax - M1 的表现一骑绝尘,直接屠榜,与 Gemini 2.5 Pro 并肩,超越了众多竞争对手。
M1 在上下文性能上的出色表现,核心得益于其之前开源的基座模型 MiniMax - 01。MiniMax - 01 采用的 Lightning Attention 线性注意力机制发挥了关键作用,使得 M1 的时间和空间复杂度随序列长度增加近似线性增长,而非像传统 Transformer 那样呈平方级膨胀。在推理生成长度 64K token 时,M1 的 FLOPs(浮点运算次数)消耗不到 DeepSeek R1 的一半;当生成长度达到 100K token 时,M1 仅消耗其约 25% 的 FLOPs,这一优势在处理超长上下文时尤为明显。MiniMax - M1 与之前开源的基座模型 MiniMax - 01 一样,采用 456B 参数,MoE(混合专家模型)架构,实际激活 45.9B。其最长上下文长度为 100 万字,即 1M,是 DeepSeek - R1 的 8 倍。此次开源的推理模型分为 40K 和 80K 两个版本,80K 版本是在 40K 版本基础上进一步训练得到的增强版本,这里的 80K 和 40K 指的是 Extended Thinking 的上限,而非上下文长度。
作者在第一时间对 MiniMax M1 进行了实际测试,其表现令人惊叹。当作者将 MiniMax - M1 的技术报告输入模型,要求其逐字翻译时,M1 不仅准确地翻译了文字内容,甚至还将报告中的图、公式以及表格都完整地处理并翻译出来,尽管在图表呈现上还未达到 100% 的完整度,但文字部分无一遗漏,甚至还贴心地根据自己的判断省略了作者认为用处不大的 5 页参考文献。在另一个有趣的翻译测试中,作者输入一个文档,并要求 “翻译成中文,在括号里标注一些符合我英语水平的原文英文词汇或短语。我英语水平是大学六级”,M1 精准地完成了任务,再次展现了其强大的上下文理解和执行能力。
在信息检索方面,作者将微信群一周的聊天记录导出后扔给 MiniMax - M1,让其找出特定人员 “绛烨” 的聊天记录。M1 准确识别出绛烨的微信 ID,找到了其微信号,并成功扒出所有聊天记录,甚至还对链接进行了样式重构,这些链接均能正常点击,功能十分强大。得益于超长且精准的上下文能力,用户甚至可以与 M1 玩文字冒险游戏,因为它能够牢记用户之前提供的信息和设定。
在内容推荐任务中,作者将 34 个刘慈欣老师的小说合集交给 M1,希望它能为每个故事写一段故事总结 + 推荐语。这一任务对于 DeepSeek 来说难以完成,DeepSeek 仅阅读了 8% 的内容就出现问题,而 MiniMax - M1 却出色地完成了任务,充分体现了超长上下文的优势。不过,作者也进行了一个极为 “变态” 的测试,让 M1 数《本草纲目》里一共有多少药材,M1 经过 8 分钟的运算后给出错误答案(实际答案是 1892 种,M1 回答有 400 种),但考虑到该任务的极端复杂性,出现这样的结果也在情理之中。
在其他能力测试中,写作方面 M1 表现中规中矩;数学测试中,作者虽未完整测试高考题,但抽取的两道大题 M1 均回答正确;编程方面,M1 的前端审美则还有提升空间。例如,作者根据参加飞书多维表格闭门会的经历,希望制作一个可视化网页,对比 Gemini 和 M1 生成的结果,M1 生成的网页在美观度上存在一定差距,显得较为 “直男审美” 。
总体而言,MiniMax M1 模型带来了不少惊喜,其在推理模型和超长精准上下文扩充方面的创新,为开源领域的模型发展注入了新的活力,提升了整体模型水平。随着 MiniMax Week 的推进,未来 4 天 MiniMax 还将带来更多项目发布,令人充满期待。鉴于 MiniMax 此前在视频模型方面的表现,如 Video 01 - Director 数月前发布后取得了不错的成绩,此次极有可能推出新的视频模型。同时,Hailuo 02(0616)已参与打榜,MiniMax 在人物情绪表演、动作表演方面一直表现出色,Hailuo 02 有望在人物表演上带来更大的震撼。
由于一个月前 MiniMax 刚发布了 Speech - 02 声音模型,因此短期内再次更新声音模型的可能性较小。考虑到 MiniMax 在多媒体领域的布局,推出音乐模型也并非没有可能,这将进一步丰富 MiniMax 的产品矩阵,契合其发展气质。期待 MiniMax 在接下来的几天里继续发力,为 AI 行业带来更多创新成果,让 AI 之火燃烧得更加热烈,推动整个行业迈向新的高度。
END

