Transformer长序列瓶颈怎么破？线性+稀疏注意力，这个方向顶会论文拿到手软

AI前沿速递

2026-04-10

导读：Transformer长序列瓶颈怎么破？线性+稀疏注意力，这个方向顶会论文拿到手软

标准自注意力机制的 (O(N^2)) 复杂度，是Transformer处理长序列的核心瓶颈。为突破这一限制，学术界形成两条关键路径：线性注意力通过数学变换将复杂度降至 (O(N))，追求极致效率，但可能伴随性能损失；稀疏注意力借助预设稀疏模式，在性能与效率间取得绝佳平衡。两者共同构成了高效Transformer长上下文能力的基石，缺一不可。

我们已为你备好 8篇线性注意力+稀疏注意力前沿论文，全部附代码，可直接用于寻找方向、模仿文章结构或复现实验，助你快速跟上长文本赛道的最新突破！

扫码添加小助手回复“C981”

免费获取全部论文+开源代码

InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models

关键词: 多模态长上下文, 混合架构, 门控Delta网络, 稀疏注意力

研究方法

针对多模态大模型处理超长序列时二次复杂度极高，且常规线性模型易丢失视觉细节的痛点，本文提出了 InfiniteVL 架构。该模型将高能效的 Gated DeltaNet 与少量全自注意力层混合，并在长序列处理阶段，将密集注意力动态转化为针对性的稀疏机制（离线检索与在线流式），在保证硬件算力开销恒定的同时，精准且无损地保留了高频视觉感知信息。

论文创新点

• 构建混合基础模型，实现了对标主流Transformer的视觉性能。
• 创新地设计长序列微调策略，解决了超长序列推理的显存爆炸难题。
• 通过动态块级检索方法，将离线预填充复杂度从降低至线性。
• 首次将滑动窗口与注意力下沉结合，验证了恒定显存下的流感知。

论文链接: https://arxiv.org/abs/2512.08829v2

MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

关键词: 大语言模型, 稀疏注意力, 线性注意力, 持续训练

研究方法

针对大模型长上下文建模中，稀疏计算与线性压缩难以同时兼顾内存效率与高精度性能的问题，本文提出了 MiniCPM-SALA。该模型以 1:3 的比例巧妙融合了 InfLLM-V2 稀疏注意力与 Lightning 线性注意力，并采用极具性价比的持续训练架构转换框架，将预训练模型平滑演进为混合架构，完美平衡了推理吞吐量与长距语义感知精度。

论文创新点

• 构建稀疏线性混合架构，实现了局部保真与全局能效的完美统一。
• 创新地引入架构转换范式，解决了从头训练混合模型的高成本难题。
• 通过应用混合位置编码，将长短文本处理能力的内在冲突降至最低。
• 首次结合这两种机制，验证了单显卡百万Token的高效推理能力。

论文链接: https://arxiv.org/abs/2602.11761v2

【声明】内容源于网络

AI前沿速递

AI前沿速递聚焦人工智能最新科研成果与技术动态，专注前沿论文解读、行业资讯分享与高校招生信息推送，助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容，让全球优秀研究被更多人看见。关注我们，探索AI无限可能！

内容 1913

粉丝 0

AI前沿速递 AI前沿速递聚焦人工智能最新科研成果与技术动态，专注前沿论文解读、行业资讯分享与高校招生信息推送，助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容，让全球优秀研究被更多人看见。关注我们，探索AI无限可能！

总阅读4.6k

粉丝0

内容1.9k