首次集齐前沿Coding、超长上下文与原生多模态三项“硬核”能力,AI大模型的核心指标正在被这家低调的“技术派”厂商全面重写。
2026年6月1日,国产大模型公司MiniMax正式发布了新一代通用模型——MiniMax M3。这是继去年发布MiniMax-01后,上海AI赛道头部玩家的又一枚重磅炸弹。
过去一年,全球大模型竞争已从参数“军备竞赛”转向硬核能力对决:真正的智能体(Agent)要求模型既能读完一整部长篇小说不“失忆”,又要看得懂图文甚至能操作电脑,还要能写会算、直接交付可运行的专业级代码。这种集前沿编程、百万级上下文与原生多模态于一体的能力,长期只有海外闭源模型才得以实现。
如今,一家中国公司打破了这一格局。
集齐“三张王牌”,打破海外闭源垄断
MiniMax M3是国内首个同时具备前沿Coding能力、1M超长上下文、原生多模态三项核心能力的大模型,也是目前全球唯一具备完整能力组合的开源选项(承诺10天内开源)。
在衡量编程能力的SWE-Bench Pro上,M3得分59.0%,首次超过GPT-5.5和Gemini 3.1 Pro。在真实GitHub问题修复能力上,M3已迈入国际第一梯队。
但这只是冰山一角。为展现M3的智能体能力,MiniMax团队抛出两份极限考题:
论文复现:要求M3独立复现ICLR 2025杰出论文《Learning Dynamics of LLM Finetuning》。M3连续运行近12小时,全程自主产出18次commit与23张实验图表,成功跑通核心实验,观测到DPO实验中的squeezing效应,并验证了原论文提出的缓解方法。
“训练AI”项目:给M3四个仅完成预训练的基础模型,要求其在12小时内自主完成数据合成、训练、评测、迭代全流程,让它们在数学推理、代码生成等任务上获得能力提升。全程无人干预,M3最终得分37.1,排名第三,仅次于Opus 4.7(42.4)和GPT-5.5(39.3),明显领先其余参赛模型。这意味着M3不仅能写代码、懂多模态,还能当AI的“导师”——自己去训练别的AI,极具象征意义。
自研MSA架构,革命100万上下文计算效率
Agent任务的复杂性急速攀升,“更长上下文、更稳定记忆、更低成本推理”成为产品可用性的核心门槛。
MiniMax从底层动刀,推出自研的MiniMax Sparse Attention(MSA)稀疏注意力架构。MSA以稀疏注意力机制替代传统全量注意力计算,大幅减少计算量。在百万Token规模下,M3的每Token计算量仅约为上一代模型的二十分之一。
效率提升惊艳:
Prefilling阶段加速9.4倍
Decoding阶段加速15.4倍
算子速度比开源Flash-Sparse-Attention方案快4倍以上
此外,M3从训练起点便采用文本、图片、视频等多模态混合训练,系统重构数据管线,预训练数据规模扩充至100万亿Token量级,真正实现了“原生”多模态。
“原生”多模态:从文本到视觉的深度融合
M3是一个从Step 0就开始多模态混合训练的模型,文本与视觉语义空间在训练之初便高度对齐。它不仅能识别论文图表与实验日志,还能在复杂跨应用环境中执行Computer Use任务——操作电脑桌面。
用户甚至可以在手机上说“帮我打开本地ERP客户端,按这份Excel批量录入发票信息”,M3即可自动在电脑端完成跨应用、跨文件、跨系统的操作。这正将AI的能力边界从“听懂人话”扩展至“动手干活”。
在多模态测试集OmniDocBench上,M3得分超过Gemini 3.1 Pro;在BrowseComp智能体评测中,M3以83.5分超越Opus 4.7(79.3),展现出强大的自主浏览与信息检索能力。
【由高校平台AI联盟整理发布】
【2026第二十二届深圳文博会高校校友文化产业发展峰会高峰论坛预告】AI × 文博:重塑文化遗产的数字化生命力
心脑新纪元·智联向未来——高校校友联合平台AI前沿论坛(二)暨人工智能心脑专委会发布会在深圳圆满举行

