北大团队改造DeepSeek注意力，速度快四倍还不丢精度- 大数跨境

量子位

2026-04-06

导读：即插即用无需重新训练

随着DeepSeek-V4发布临近，一篇提出HISA（分层索引稀疏注意力）机制的新论文引发关注。该技术突破64K上下文索引瓶颈，较DSA提速2-4倍。

HISA显著提升处理速度，几乎不损失精度，且支持即插即用，无需重新训练模型。

研究团队在DeepSeek-V3.2和GLM-5模型中直接替换索引器，无需微调。

在关键信息检索与长文本理解任务中，性能与原方法基本持平。

两步消除上下文索引瓶颈

现有稀疏注意力机制（如DSA）依赖索引器筛选关键token，但其计算复杂度随文本长度呈平方级增长，导致长文本处理效率低下。

HISA通过分层架构优化索引过程，在保持结果不变的前提下降低计算成本。

仅在选中的m个块内执行精细评分，筛选最终所需k个字符。首尾块强制保留，确保上下文边界信息完整。

HISA将原索引器O(L²)复杂度降至O(L²/B + L×m×B)（B为块大小），实现速度飞跃。该机制无缝替换现有模块，无需修改下游计算逻辑或调整KV缓存结构，短文本自动退化至原方案。

在64K长度测试中，HISA最高提速3.75倍，常规设置提速超2倍。上下文越长加速越显著，精准适配128K/1M级应用场景。

“大海捞针”测试中，HISA与DSA的检索精度几乎一致。LongBench长文本理解基准显示分数高度匹配，合成检索及少样本任务甚至实现小幅超越。

超参数测试证实其强鲁棒性：不同块大小与选块数量下性能稳定，无需精细调参。当前改进方向包括自适应块划分及联合训练优化。

论文由北京大学张牧涵团队完成。张牧涵任人工智能研究院助理教授，曾任Meta AI研究员，Google Scholar引用超13000次，多次入选全球前2%顶尖科学家。

共同第一作者为徐宇飞（Yufei Xu）与孟繁续（Fanxu Meng）。

参考链接：https://arxiv.org/abs/2603.28458

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 14971

粉丝 0

量子位各类跨境出海行业相关资讯

总阅读170.2k

粉丝0

内容15.0k