大数跨境

Transformer长序列瓶颈怎么破?线性+稀疏注意力,这个方向顶会论文拿到手软

Transformer长序列瓶颈怎么破?线性+稀疏注意力,这个方向顶会论文拿到手软 AI前沿速递
2026-04-10
2
导读:Transformer长序列瓶颈怎么破?线性+稀疏注意力,这个方向顶会论文拿到手软

 

标准自注意力机制的 (O(N^2)) 复杂度,是Transformer处理长序列的核心瓶颈。为突破这一限制,学术界形成两条关键路径:线性注意力通过数学变换将复杂度降至 (O(N)),追求极致效率,但可能伴随性能损失;稀疏注意力借助预设稀疏模式,在性能与效率间取得绝佳平衡。两者共同构成了高效Transformer长上下文能力的基石,缺一不可。

我们已为你备好 8篇线性注意力+稀疏注意力前沿论文,全部附代码,可直接用于寻找方向、模仿文章结构或复现实验,助你快速跟上长文本赛道的最新突破!


扫码添加小助手回复“C981
免费获取全部论文+开源代码
图片




InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models

关键词: 多模态长上下文, 混合架构, 门控Delta网络, 稀疏注意力

研究方法

针对多模态大模型处理超长序列时二次复杂度极高,且常规线性模型易丢失视觉细节的痛点,本文提出了 InfiniteVL 架构。该模型将高能效的 Gated DeltaNet 与少量全自注意力层混合,并在长序列处理阶段,将密集注意力动态转化为针对性的稀疏机制(离线检索与在线流式),在保证硬件算力开销恒定的同时,精准且无损地保留了高频视觉感知信息。


论文创新点

  • • 构建混合基础模型,实现了对标主流Transformer的视觉性能。
  • • 创新地设计长序列微调策略,解决了超长序列推理的显存爆炸难题。
  • • 通过动态块级检索方法,将离线预填充复杂度从   降低至线性。
  • • 首次将滑动窗口与注意力下沉结合,验证了恒定显存下的流感知。

论文链接: https://arxiv.org/abs/2512.08829v2


MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

关键词: 大语言模型, 稀疏注意力, 线性注意力, 持续训练

研究方法

针对大模型长上下文建模中,稀疏计算与线性压缩难以同时兼顾内存效率与高精度性能的问题,本文提出了 MiniCPM-SALA。该模型以 1:3 的比例巧妙融合了 InfLLM-V2 稀疏注意力与 Lightning 线性注意力,并采用极具性价比的持续训练架构转换框架,将预训练模型平滑演进为混合架构,完美平衡了推理吞吐量与长距语义感知精度。


论文创新点

  • • 构建稀疏线性混合架构,实现了局部保真与全局能效的完美统一。
  • • 创新地引入架构转换范式,解决了从头训练混合模型的高成本难题。
  • • 通过应用混合位置编码,将长短文本处理能力的内在冲突降至最低。
  • • 首次结合这两种机制,验证了单显卡百万Token的高效推理能力。

论文链接: https://arxiv.org/abs/2602.11761v2

 


【声明】内容源于网络
0
0
AI前沿速递
AI前沿速递 聚焦人工智能最新科研成果与技术动态,专注前沿论文解读、行业资讯分享与高校招生信息推送,助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容,让全球优秀研究被更多人看见。关注我们,探索AI无限可能!
内容 1913
粉丝 0
AI前沿速递 AI前沿速递 聚焦人工智能最新科研成果与技术动态,专注前沿论文解读、行业资讯分享与高校招生信息推送,助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容,让全球优秀研究被更多人看见。关注我们,探索AI无限可能!
总阅读4.6k
粉丝0
内容1.9k