新智元报道
编辑:好困 桃子
【新智元导读】
Transformer架构面临新挑战。CMU与普林斯顿团队发布全新开源架构Mamba-3,以15亿参数实现较Transformer高4%的平均准确率,端到端延迟仅为后者的七分之一。
Mamba-3正式发布:性能与效率双重突破
今日,Mamba系列“原班人马”正式推出新一代开源状态空间模型(SSM)架构——Mamba-3。该模型在保持高效推理的同时,显著提升建模能力与硬件利用率。
论文地址:https://arxiv.org/pdf/2603.15569
相比Mamba-2,Mamba-3对核心SSM模块进行三项关键升级:
- 采用指数梯形离散化方法,隐式引入宽度为2的数据依赖卷积,替代传统短因果卷积模块;
- 将状态转移拓展至复数域,增强逻辑推理能力,等效于在B/C投影中嵌入数据依赖的旋转位置编码(RoPE);
- 引入多输入多输出(MIMO)机制,在不增加解码延迟前提下显著提升算术强度,充分激活GPU张量核心。
实测表明:仅需Mamba-2一半的内部状态大小,Mamba-3即可达到同等语言建模性能;在15亿参数规模下,Mamba-3 MIMO版本平均准确率达57.6%,领先Transformer 4个百分点;长序列任务端到端延迟降低至Transformer的约1/7。
剑指Transformer瓶颈:推理优先的新范式
自2017年诞生以来,Transformer已成为大语言模型(LLM)基石,但其计算复杂度随序列长度呈平方增长,内存占用线性上升,严重制约大规模推理部署成本。
2023年,Mamba首次提出基于SSM的高效替代方案;2024年Mamba-2进一步打通SSM与注意力机制的数学等价性,训练速度提升2–8倍。
此次发布的Mamba-3,则标志着设计重心从“训练加速”全面转向“推理优化”。团队核心目标是解决现代AI推理中的“冷GPU”问题——即GPU大量时间等待内存传输而非执行计算。
SSM本质:高效的“摘要机器”
不同于Transformer需回顾全部历史token构建上下文,Mamba-3将历史信息压缩为固定尺寸的“内部状态”,如同动态更新的数据快照。新token仅需更新快照,无需重读全文,从而实现线性计算复杂度与恒定内存占用。
状态大小是性能-效率权衡的关键变量:增大可提升建模能力,但拖慢推理;缩小则加速解码却削弱表达力。Mamba-3的关键突破在于——以Mamba-2一半的状态尺寸,实现同等建模性能,整体性能-效率曲线显著下移。
三大核心技术解析
指数梯形离散化:精度跃升至二阶
Mamba-3摒弃Mamba-1/2所用的一阶离散近似,改用指数梯形法则,通过两端点加权平均提升数值精度。该改进使模型在SSM输入层自然引入短因果卷积效果,消融实验表明其可完全替代传统外部短卷积模块,大幅简化架构。
复数值SSM:补全逻辑推理短板
Mamba-2受限于实数状态转移矩阵,难以建模如奇偶校验、模运算等需“旋转”动态的任务。Mamba-3引入复数域状态,其离散化形式等价于在B/C投影中嵌入数据依赖RoPE。结果:奇偶校验准确率从Mamba-2的0.9%跃升至100%;模算术任务达98.51%(Mamba-2为47.81%)。
MIMO机制:榨干GPU闲置算力
当前主流模型解码阶段算术强度普遍不足3 ops/byte,远低于H100 bf16张量核心理论峰值295 ops/byte,超99%计算单元处于空转。Mamba-3通过MIMO公式将状态更新由外积转为矩阵乘法。测试显示:在bf16、状态维度128配置下,SISO版延迟0.156ms(优于Mamba-2的0.203ms),MIMO秩为4时延迟仅0.179ms,仍快于Mamba-2,且算力利用率大幅提升。
全面性能对比:覆盖180M–1.5B全参数尺度
研究团队在180M、440M、880M、1.5B四档参数规模上,对比Transformer、Mamba-2与Gated DeltaNet(GDN)。所有模型采用相同训练流程、FineWeb-Edu 100B数据集及Llama-3.1分词器。
结果显示:1.5B规模下,Mamba-3 MIMO以57.6%平均准确率居首,领先Transformer 4%、Mamba-2 3.4%、GDN 3.2%;非MIMO版Mamba-3 SISO亦达56.4%,超越所有非Mamba-3基线。
在16384 token的prefill+decode端到端场景中,Mamba-3 SISO耗时140.61秒,vLLM运行Llama-3.2-1B需976.50秒,速度快近7倍。且随着序列增长,线性模型优势持续扩大。
在上下文外推能力方面,所有模型仅在2K长度训练,直接测试至32K。Mamba-3语言建模性能稳步提升,而Mamba-2在超出训练长度后迅速衰减,凸显其更强泛化性与鲁棒性。
混合架构:Mamba与注意力协同演进
团队指出,纯SSM模型在精确检索类任务上仍弱于Transformer——因其固定大小状态容量有限,而Transformer KV缓存具备无限扩展潜力。
解决方案是混合架构:按5:1比例交替堆叠Mamba-3层与无位置编码的自注意力层。实验证明,该混合模型在检索任务上反超纯Transformer基线,同时保留SSM的高效推理优势。这一路线已获Nemotron-H、Kimi Linear、HunyuanTurboS等主流模型验证,成为兼具性能与效率的务实选择。
华人学者主导:SSM革命的核心力量
Mamba-3是首个由学生主导完成的Mamba架构迭代。CMU助理教授Albert Gu与普林斯顿助理教授Tri Dao联合指导,四位核心研究员均为在读博士生或本科生。
Kevin Li
卡内基梅隆大学机器学习系博士三年级学生,本科毕业于佐治亚理工学院计算机科学与生物医学工程专业。研究聚焦高效深度学习架构与推理端算力扩展。
Berlin Chen
普林斯顿大学计算机科学博士生,Together AI实习生;本科就读于斯沃斯莫尔学院(数学与计算机科学双学位),硕士毕业于剑桥大学数学系。
Caitlin Wang
普林斯顿大学计算机科学本科生。
Tri Dao为FlashAttention算法发明者,现为Together AI联合创始人兼首席科学家,2025年获Schmidt Sciences AI2050 Fellowship;Albert Gu为CMU机器学习系助理教授、语音AI公司Cartesia联合创始人兼首席科学家,2024年入选《TIME》“AI领域100位最具影响力人物”,长期引领SSM理论发展与工程实践。

