大数跨境
0
0

MiniMax AMA 精选:Agent标准、M2.x 与多模态

MiniMax AMA 精选:Agent标准、M2.x 与多模态 MiniMax开放平台
2025-11-27
2

上周,MiniMax M2 的模型 leader 和研发 leader 在 LocalLLaMA 参加了一场 AMA,回答了许多问题,一起来看 Highlights~

01

训练背后的故事

Q:开发 M2 期间最惊喜的事是什么?

A:当我们发现 M2 在 Terminal 使用和多语言编程上的表现超过了 Gemini 2.5 Pro 和 Sonnet 4 这些闭源模型的时候🎉。

Q:你们在 RL 训练或测试 Coding Benchmarks 时,有用 terminal-bench 或 harbor 这类 agent-in-a-loop 框架吗?有帮助吗?还是更依赖精选数据?有没有让模型联网"放飞自我"训练过?

A:有的,我们在 RL 训练中使用了一些自研的脚手架,帮助很大。但必须强调:数据往往比算法更重要。我们有一套很复杂的清洗 pipeline 来处理 RL 数据。

Q:你们提到放弃 Linear Attention 回归 Full Attention 架构,是因为担心在多跳推理任务上性能下降,尤其是参数规模扩大时。但!DeepSeek 和 Moonshot 的最新研究显示,稀疏注意力或混合注意力机制能保持甚至超越 Full attention 的性能~比如 DeepSeek V3.2 的 DSA 在 671B 规模下没有明显性能下降,Moonshot 的 Kimi linear 论文显示 1:3 混合注意力甚至泛化能力更强,你们怎么看?

A1:确实!最近混合 Transformer 的研究很多。但从我们的角度看,虽然早期实验显示能达到接近全注意力的表现,它们在 BBH/BBEH 等多跳推理上还是有差距。主要问题在于评估维度,虽然 Deepseek v3.2 在开源 benchmark 上表现不错,但在某些场景下还是有短板。所以目前我们更专注于在 Full attention 架构下提速,同时也在探索在全量注意力层中混入线性注意力头这类方法。混合注意力肯定是未来的重要方向,但还需要更全面的评估。

A2:我用 MiniMax 算法取得了许多成功。它帮我解决了一个 gpt-oss-120b 和 glm-air 都无法给出理想答案的编程问题。感谢你制作了这么棒的模型!

Q:各位能否简要解释一下 CISPO?

A:CISPO 是 PPO 的一种变体。我们构建该算法主要是为了解决 LLM 训练过程中的样本效率和稳定性问题。CISPO 与 PPO/GRPO 的主要区别在于,我们在强化学习训练中使用裁剪而非掩码,并且不进行低维裁剪。最近流行的 TIS 也是 CISPO(Low = 0)的一个变体。

02

多模态

Q:M2 在 Agent 任务上表现惊艳,加上你们的海螺视频和音乐能力,多模态基础很强。想问:有计划把这些整合成一个模型架构吗?感觉 Agent 必须掌握多模态感知才能影响物理世界,MiniMax 有从独立模态到完全整合的多模态 Agent的路线图吗?

A:这正是我们前进的方向!接下来是 Hailuo 3 和 M3,专注于更深度的多模态融合,类似 Sora 2 或 Gemini 3。更远的目标是在单一架构中从头开始端到端训练所有主要模态。

Q:你们的终极目标是什么?如果有无限时间和资源,梦想产品会是什么样?你们有音乐、语音、视频和 LLM,有没有想把这些整合到某个特定方向?

A:我们的使命一直是"Intelligence with Everyone"。我们希望先进的 AI,最终是 AGI,能让所有人用得起、用得上。这也是我们把 M2 设计成 230B-A10B 模型的原因。从内部实践中,我们发现真实复杂任务存在"不可能三角":性能、速度、成本——通常你只能选两个,有时甚至只能选一个。M2 有接近 SOTA 的 agent 和 coding 性能,同时速度快 2-3 倍,成本只有 SOTA 闭源模型的约 8%。长期目标方面:我们做多模态模型,因为我们相信真正的 AGI 必须像人类一样理解和生成文本、视觉、音频和语音,只有这样才能以自然可靠的方式处理开放式的真实世界任务,这就是我们的方向。

03

关于使用模型

Q:我超爱用 M2 处理日常任务!你们有针对真实场景做优化吗?怎么衡量这些能力的?

A:你是不是黑进我们内部系统了哈哈😂!在 MiniMax 内部,我们到处都在用 Agent:工程、文档、代码 review,甚至财务和HR团队都把 Agent 当"实习生"用。这个“实习生”在我们系统里有账号,已经跟人类实习生工作方式一样了。所以我们自然收集了海量真实世界案例,包括外部(如 GitHub )和内部的。我们建立了反映真实任务的内部benchmark,而不只是榜单风格的测试。

Q:我是一名程序员,但 M2 在财务和人力资源方面的应用真的很棒。人们常说 LLM 的功能远未得到充分发挥。如果 MiniMax 的一些非程序员员工也能分享一下他们如何使用 M2,那就太好了。

A非常感谢您的反馈,以后会分享更多!

04

关于Agent框架

Q:您认为模型和代理框架之间的集成未来会如何发展?您是否预期会出现类似 W3C 那样的标准,W3C 提供了一些通用基准(尽管远非完美),以便 Web 开发人员可以相对轻松地构建可在多种浏览器上运行的 Web 应用程序?

目前看来,Claude Code 似乎已经成为行业标准,而且各种模型可能都在针对智能体应用场景进行微调。你认为这种情况在短期/中期内会持续下去吗?

我也担心会出现这样一种情况:每个开源人工智能实验室都不得不从零开始构建智能体框架。例如,Kimi CLI 就是从零开始构建的。

A:问得好,老实说,我认为我们仍然处于 Agent 标准的“混乱时代”。

1)对于标准

我确实认为我们应该制定一个标准。但就目前而言,整个生态系统看起来很像早期 HTML 出现之前的互联网:每个人都在做实验,协议五花八门,缺乏像 W3C 这样的中立第三方机构来定义一个通用基准。

在这种环境下,标准往往源于竞争,而非委员会。MCP 就是一个很好的例子,我认为它并非最终定义,但它被广泛采用的原因很简单:它在恰当的时机解决了实际问题。

我估计未来一两年内情况仍会比较混乱。但随着参与者数量的整合和代理基础设施(代理授权、代理支付、代理身份、代理代表用户行事)的成熟,我们最终会看到一个真正的标准逐渐形成。

2)关于第二个问题

我们认为 Claude Code 的设计确实非常出色,它为代理框架树立了很高的标杆。同时,我们也相信这个领域还有很大的发展空间。随着 GPT-5、Gemini 3、Codex、Gemini CLI 等技术的出现,市场正在变得更加多元化。

3)关于大家都在各自(构建)Agent Harness 这件事

这与第一点有关。没错,每个人都自己搭建线束既麻烦又对用户或开发者意义不大。这就是为什么我们不打算自己构建一个全新的框架,我们宁愿专注于打造一个优秀的模型。随着时间的推移,当标准逐渐形成时,这种碎片化现象自然会减少。但我认为最终我们不会只有一两个框架,而更像是一套被广泛接受的小型稳定框架。

05

M2.x和M3

Q:聊聊 M2.x 和 M3 吧,我们可以期待什么~

A:M2.x => 更适合生产和工作空间的模型,支持更多场景和更多编程语言;M3 => 敬请期待!

AMA活动中,MiniMax技术团队还回答了哪些其他问题?点击“阅读原文”,来Reddit 回顾精彩!

【声明】内容源于网络
0
0
MiniMax开放平台
MiniMax是全球领先的通用人工智能科技公司,以“与所有人共创智能”为使命,致力于推动人工智能科技前沿发展,实现通用人工智能。MiniMax开放平台为超过100个国家及地区的100,000余名企业客户以及开发者提供服务。
内容 5
粉丝 0
MiniMax开放平台 MiniMax是全球领先的通用人工智能科技公司,以“与所有人共创智能”为使命,致力于推动人工智能科技前沿发展,实现通用人工智能。MiniMax开放平台为超过100个国家及地区的100,000余名企业客户以及开发者提供服务。
总阅读9
粉丝0
内容5