华人学生立大功！新王Mamba-3直击Transformer死穴，推理效率碾压7倍- 大数跨境

首页

华人学生立大功！新王Mamba-3直击Transformer死穴，推理效率碾压7倍

新智元

2026-03-19

新智元报道

编辑：好困桃子

【新智元导读】

Transformer架构面临新挑战。CMU与普林斯顿团队发布全新开源架构Mamba-3，以15亿参数实现较Transformer高4%的平均准确率，端到端延迟仅为后者的七分之一。

Mamba-3正式发布：性能与效率双重突破

今日，Mamba系列“原班人马”正式推出新一代开源状态空间模型（SSM）架构——Mamba-3。该模型在保持高效推理的同时，显著提升建模能力与硬件利用率。

论文地址：https://arxiv.org/pdf/2603.15569

相比Mamba-2，Mamba-3对核心SSM模块进行三项关键升级：

采用指数梯形离散化方法，隐式引入宽度为2的数据依赖卷积，替代传统短因果卷积模块；
将状态转移拓展至复数域，增强逻辑推理能力，等效于在B/C投影中嵌入数据依赖的旋转位置编码（RoPE）；
引入多输入多输出（MIMO）机制，在不增加解码延迟前提下显著提升算术强度，充分激活GPU张量核心。

实测表明：仅需Mamba-2一半的内部状态大小，Mamba-3即可达到同等语言建模性能；在15亿参数规模下，Mamba-3 MIMO版本平均准确率达57.6%，领先Transformer 4个百分点；长序列任务端到端延迟降低至Transformer的约1/7。

剑指Transformer瓶颈：推理优先的新范式

自2017年诞生以来，Transformer已成为大语言模型（LLM）基石，但其计算复杂度随序列长度呈平方增长，内存占用线性上升，严重制约大规模推理部署成本。

2023年，Mamba首次提出基于SSM的高效替代方案；2024年Mamba-2进一步打通SSM与注意力机制的数学等价性，训练速度提升2–8倍。

此次发布的Mamba-3，则标志着设计重心从“训练加速”全面转向“推理优化”。团队核心目标是解决现代AI推理中的“冷GPU”问题——即GPU大量时间等待内存传输而非执行计算。

SSM本质：高效的“摘要机器”

不同于Transformer需回顾全部历史token构建上下文，Mamba-3将历史信息压缩为固定尺寸的“内部状态”，如同动态更新的数据快照。新token仅需更新快照，无需重读全文，从而实现线性计算复杂度与恒定内存占用。

状态大小是性能-效率权衡的关键变量：增大可提升建模能力，但拖慢推理；缩小则加速解码却削弱表达力。Mamba-3的关键突破在于——以Mamba-2一半的状态尺寸，实现同等建模性能，整体性能-效率曲线显著下移。

三大核心技术解析

指数梯形离散化：精度跃升至二阶

Mamba-3摒弃Mamba-1/2所用的一阶离散近似，改用指数梯形法则，通过两端点加权平均提升数值精度。该改进使模型在SSM输入层自然引入短因果卷积效果，消融实验表明其可完全替代传统外部短卷积模块，大幅简化架构。

复数值SSM：补全逻辑推理短板

Mamba-2受限于实数状态转移矩阵，难以建模如奇偶校验、模运算等需“旋转”动态的任务。Mamba-3引入复数域状态，其离散化形式等价于在B/C投影中嵌入数据依赖RoPE。结果：奇偶校验准确率从Mamba-2的0.9%跃升至100%；模算术任务达98.51%（Mamba-2为47.81%）。

MIMO机制：榨干GPU闲置算力

当前主流模型解码阶段算术强度普遍不足3 ops/byte，远低于H100 bf16张量核心理论峰值295 ops/byte，超99%计算单元处于空转。Mamba-3通过MIMO公式将状态更新由外积转为矩阵乘法。测试显示：在bf16、状态维度128配置下，SISO版延迟0.156ms（优于Mamba-2的0.203ms），MIMO秩为4时延迟仅0.179ms，仍快于Mamba-2，且算力利用率大幅提升。

全面性能对比：覆盖180M–1.5B全参数尺度

研究团队在180M、440M、880M、1.5B四档参数规模上，对比Transformer、Mamba-2与Gated DeltaNet（GDN）。所有模型采用相同训练流程、FineWeb-Edu 100B数据集及Llama-3.1分词器。

结果显示：1.5B规模下，Mamba-3 MIMO以57.6%平均准确率居首，领先Transformer 4%、Mamba-2 3.4%、GDN 3.2%；非MIMO版Mamba-3 SISO亦达56.4%，超越所有非Mamba-3基线。

在16384 token的prefill+decode端到端场景中，Mamba-3 SISO耗时140.61秒，vLLM运行Llama-3.2-1B需976.50秒，速度快近7倍。且随着序列增长，线性模型优势持续扩大。

在上下文外推能力方面，所有模型仅在2K长度训练，直接测试至32K。Mamba-3语言建模性能稳步提升，而Mamba-2在超出训练长度后迅速衰减，凸显其更强泛化性与鲁棒性。

混合架构：Mamba与注意力协同演进

团队指出，纯SSM模型在精确检索类任务上仍弱于Transformer——因其固定大小状态容量有限，而Transformer KV缓存具备无限扩展潜力。

解决方案是混合架构：按5:1比例交替堆叠Mamba-3层与无位置编码的自注意力层。实验证明，该混合模型在检索任务上反超纯Transformer基线，同时保留SSM的高效推理优势。这一路线已获Nemotron-H、Kimi Linear、HunyuanTurboS等主流模型验证，成为兼具性能与效率的务实选择。

华人学者主导：SSM革命的核心力量

Mamba-3是首个由学生主导完成的Mamba架构迭代。CMU助理教授Albert Gu与普林斯顿助理教授Tri Dao联合指导，四位核心研究员均为在读博士生或本科生。

Kevin Li

卡内基梅隆大学机器学习系博士三年级学生，本科毕业于佐治亚理工学院计算机科学与生物医学工程专业。研究聚焦高效深度学习架构与推理端算力扩展。

Berlin Chen

普林斯顿大学计算机科学博士生，Together AI实习生；本科就读于斯沃斯莫尔学院（数学与计算机科学双学位），硕士毕业于剑桥大学数学系。

Caitlin Wang

普林斯顿大学计算机科学本科生。

Tri Dao为FlashAttention算法发明者，现为Together AI联合创始人兼首席科学家，2025年获Schmidt Sciences AI2050 Fellowship；Albert Gu为CMU机器学习系助理教授、语音AI公司Cartesia联合创始人兼首席科学家，2024年入选《TIME》“AI领域100位最具影响力人物”，长期引领SSM理论发展与工程实践。

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 15045

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读143.2k

粉丝0

内容15.0k