标准自注意力机制的 (O(N^2)) 复杂度,是Transformer处理长序列的核心瓶颈。为突破这一限制,学术界形成两条关键路径:线性注意力通过数学变换将复杂度降至 (O(N)),追求极致效率,但可能伴随性能损失;稀疏注意力借助预设稀疏模式,在性能与效率间取得绝佳平衡。两者共同构成了高效Transformer长上下文能力的基石,缺一不可。
我们已为你备好 8篇线性注意力+稀疏注意力前沿论文,全部附代码,可直接用于寻找方向、模仿文章结构或复现实验,助你快速跟上长文本赛道的最新突破!
InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models
关键词: 多模态长上下文, 混合架构, 门控Delta网络, 稀疏注意力
研究方法
针对多模态大模型处理超长序列时二次复杂度极高,且常规线性模型易丢失视觉细节的痛点,本文提出了 InfiniteVL 架构。该模型将高能效的 Gated DeltaNet 与少量全自注意力层混合,并在长序列处理阶段,将密集注意力动态转化为针对性的稀疏机制(离线检索与在线流式),在保证硬件算力开销恒定的同时,精准且无损地保留了高频视觉感知信息。
论文创新点
-
• 构建混合基础模型,实现了对标主流Transformer的视觉性能。 -
• 创新地设计长序列微调策略,解决了超长序列推理的显存爆炸难题。 -
• 通过动态块级检索方法,将离线预填充复杂度从 降低至线性。 -
• 首次将滑动窗口与注意力下沉结合,验证了恒定显存下的流感知。
论文链接: https://arxiv.org/abs/2512.08829v2
MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling
关键词: 大语言模型, 稀疏注意力, 线性注意力, 持续训练
研究方法
针对大模型长上下文建模中,稀疏计算与线性压缩难以同时兼顾内存效率与高精度性能的问题,本文提出了 MiniCPM-SALA。该模型以 1:3 的比例巧妙融合了 InfLLM-V2 稀疏注意力与 Lightning 线性注意力,并采用极具性价比的持续训练架构转换框架,将预训练模型平滑演进为混合架构,完美平衡了推理吞吐量与长距语义感知精度。
论文创新点
-
• 构建稀疏线性混合架构,实现了局部保真与全局能效的完美统一。 -
• 创新地引入架构转换范式,解决了从头训练混合模型的高成本难题。 -
• 通过应用混合位置编码,将长短文本处理能力的内在冲突降至最低。 -
• 首次结合这两种机制,验证了单显卡百万Token的高效推理能力。
论文链接: https://arxiv.org/abs/2602.11761v2

