

MiniMax AMA 精选：Agent标准、M2.x 与多模态

MiniMax开放平台

2025-11-27

上周，MiniMax M2 的模型 leader 和研发 leader 在 LocalLLaMA 参加了一场 AMA，回答了许多问题，一起来看 Highlights～

训练背后的故事

Q：开发 M2 期间最惊喜的事是什么？

A：当我们发现 M2 在 Terminal 使用和多语言编程上的表现超过了 Gemini 2.5 Pro 和 Sonnet 4 这些闭源模型的时候🎉。

Q：你们在 RL 训练或测试 Coding Benchmarks 时，有用 terminal-bench 或 harbor 这类 agent-in-a-loop 框架吗？有帮助吗？还是更依赖精选数据？有没有让模型联网"放飞自我"训练过？

A：有的，我们在 RL 训练中使用了一些自研的脚手架，帮助很大。但必须强调：数据往往比算法更重要。我们有一套很复杂的清洗 pipeline 来处理 RL 数据。

Q：你们提到放弃 Linear Attention 回归 Full Attention 架构，是因为担心在多跳推理任务上性能下降，尤其是参数规模扩大时。但！DeepSeek 和 Moonshot 的最新研究显示，稀疏注意力或混合注意力机制能保持甚至超越 Full attention 的性能～比如 DeepSeek V3.2 的 DSA 在 671B 规模下没有明显性能下降，Moonshot 的 Kimi linear 论文显示 1:3 混合注意力甚至泛化能力更强，你们怎么看？

A1：确实！最近混合 Transformer 的研究很多。但从我们的角度看，虽然早期实验显示能达到接近全注意力的表现，它们在 BBH/BBEH 等多跳推理上还是有差距。主要问题在于评估维度，虽然 Deepseek v3.2 在开源 benchmark 上表现不错，但在某些场景下还是有短板。所以目前我们更专注于在 Full attention 架构下提速，同时也在探索在全量注意力层中混入线性注意力头这类方法。混合注意力肯定是未来的重要方向，但还需要更全面的评估。

A2：我用 MiniMax 算法取得了许多成功。它帮我解决了一个 gpt-oss-120b 和 glm-air 都无法给出理想答案的编程问题。感谢你制作了这么棒的模型！

Q：各位能否简要解释一下 CISPO？

A：CISPO 是 PPO 的一种变体。我们构建该算法主要是为了解决 LLM 训练过程中的样本效率和稳定性问题。CISPO 与 PPO/GRPO 的主要区别在于，我们在强化学习训练中使用裁剪而非掩码，并且不进行低维裁剪。最近流行的 TIS 也是 CISPO（Low = 0）的一个变体。

多模态

Q：M2 在 Agent 任务上表现惊艳，加上你们的海螺视频和音乐能力，多模态基础很强。想问：有计划把这些整合成一个模型架构吗？感觉 Agent 必须掌握多模态感知才能影响物理世界，MiniMax 有从独立模态到完全整合的多模态 Agent的路线图吗？

A：这正是我们前进的方向！接下来是 Hailuo 3 和 M3，专注于更深度的多模态融合，类似 Sora 2 或 Gemini 3。更远的目标是在单一架构中从头开始端到端训练所有主要模态。

Q：你们的终极目标是什么？如果有无限时间和资源，梦想产品会是什么样？你们有音乐、语音、视频和 LLM，有没有想把这些整合到某个特定方向？

A：我们的使命一直是"Intelligence with Everyone"。我们希望先进的 AI，最终是 AGI，能让所有人用得起、用得上。这也是我们把 M2 设计成 230B-A10B 模型的原因。从内部实践中，我们发现真实复杂任务存在"不可能三角"：性能、速度、成本——通常你只能选两个，有时甚至只能选一个。M2 有接近 SOTA 的 agent 和 coding 性能，同时速度快 2-3 倍，成本只有 SOTA 闭源模型的约 8%。长期目标方面：我们做多模态模型，因为我们相信真正的 AGI 必须像人类一样理解和生成文本、视觉、音频和语音，只有这样才能以自然可靠的方式处理开放式的真实世界任务，这就是我们的方向。

关于使用模型

Q：我超爱用 M2 处理日常任务！你们有针对真实场景做优化吗？怎么衡量这些能力的？

A：你是不是黑进我们内部系统了哈哈😂！在 MiniMax 内部，我们到处都在用 Agent：工程、文档、代码 review，甚至财务和HR团队都把 Agent 当"实习生"用。这个“实习生”在我们系统里有账号，已经跟人类实习生工作方式一样了。所以我们自然收集了海量真实世界案例，包括外部（如 GitHub ）和内部的。我们建立了反映真实任务的内部benchmark，而不只是榜单风格的测试。

Q：我是一名程序员，但 M2 在财务和人力资源方面的应用真的很棒。人们常说 LLM 的功能远未得到充分发挥。如果 MiniMax 的一些非程序员员工也能分享一下他们如何使用 M2，那就太好了。

A：非常感谢您的反馈，以后会分享更多！

关于Agent框架

Q：您认为模型和代理框架之间的集成未来会如何发展？您是否预期会出现类似 W3C 那样的标准，W3C 提供了一些通用基准（尽管远非完美），以便 Web 开发人员可以相对轻松地构建可在多种浏览器上运行的 Web 应用程序？

目前看来，Claude Code 似乎已经成为行业标准，而且各种模型可能都在针对智能体应用场景进行微调。你认为这种情况在短期/中期内会持续下去吗？

我也担心会出现这样一种情况：每个开源人工智能实验室都不得不从零开始构建智能体框架。例如，Kimi CLI 就是从零开始构建的。

A：问得好，老实说，我认为我们仍然处于 Agent 标准的“混乱时代”。

1）对于标准

我确实认为我们应该制定一个标准。但就目前而言，整个生态系统看起来很像早期 HTML 出现之前的互联网：每个人都在做实验，协议五花八门，缺乏像 W3C 这样的中立第三方机构来定义一个通用基准。

在这种环境下，标准往往源于竞争，而非委员会。MCP 就是一个很好的例子，我认为它并非最终定义，但它被广泛采用的原因很简单：它在恰当的时机解决了实际问题。

我估计未来一两年内情况仍会比较混乱。但随着参与者数量的整合和代理基础设施（代理授权、代理支付、代理身份、代理代表用户行事）的成熟，我们最终会看到一个真正的标准逐渐形成。

2）关于第二个问题

我们认为 Claude Code 的设计确实非常出色，它为代理框架树立了很高的标杆。同时，我们也相信这个领域还有很大的发展空间。随着 GPT-5、Gemini 3、Codex、Gemini CLI 等技术的出现，市场正在变得更加多元化。

3）关于大家都在各自（构建）Agent Harness 这件事

这与第一点有关。没错，每个人都自己搭建线束既麻烦又对用户或开发者意义不大。这就是为什么我们不打算自己构建一个全新的框架，我们宁愿专注于打造一个优秀的模型。随着时间的推移，当标准逐渐形成时，这种碎片化现象自然会减少。但我认为最终我们不会只有一两个框架，而更像是一套被广泛接受的小型稳定框架。

M2.x和M3

Q：聊聊 M2.x 和 M3 吧，我们可以期待什么～

A：M2.x => 更适合生产和工作空间的模型，支持更多场景和更多编程语言；M3 => 敬请期待！

AMA活动中，MiniMax技术团队还回答了哪些其他问题？点击“阅读原文”，来Reddit 回顾精彩！

【声明】内容源于网络

MiniMax开放平台

MiniMax是全球领先的通用人工智能科技公司，以“与所有人共创智能”为使命，致力于推动人工智能科技前沿发展，实现通用人工智能。MiniMax开放平台为超过100个国家及地区的100,000余名企业客户以及开发者提供服务。

内容 5

粉丝 0

MiniMax开放平台 MiniMax是全球领先的通用人工智能科技公司，以“与所有人共创智能”为使命，致力于推动人工智能科技前沿发展，实现通用人工智能。MiniMax开放平台为超过100个国家及地区的100,000余名企业客户以及开发者提供服务。

总阅读9

粉丝0

内容5