听雨 | 量子位
随着DeepSeek-V4发布临近,一篇提出HISA(分层索引稀疏注意力)机制的新论文引发关注。该技术突破64K上下文索引瓶颈,较DSA提速2-4倍。
HISA显著提升处理速度,几乎不损失精度,且支持即插即用,无需重新训练模型。
研究团队在DeepSeek-V3.2和GLM-5模型中直接替换索引器,无需微调。
在关键信息检索与长文本理解任务中,性能与原方法基本持平。
两步消除上下文索引瓶颈
现有稀疏注意力机制(如DSA)依赖索引器筛选关键token,但其计算复杂度随文本长度呈平方级增长,导致长文本处理效率低下。
HISA通过分层架构优化索引过程,在保持结果不变的前提下降低计算成本。
块级粗过滤
- 将长文本切分为固定块(如128字符/块),生成块级特征向量;
- 对块标签进行评分,仅保留最高分的m个块(如64个);
- 丢弃其余块,大幅减少后续计算量。
块内精挑字符
仅在选中的m个块内执行精细评分,筛选最终所需k个字符。首尾块强制保留,确保上下文边界信息完整。
HISA将原索引器O(L²)复杂度降至O(L²/B + L×m×B)(B为块大小),实现速度飞跃。该机制无缝替换现有模块,无需修改下游计算逻辑或调整KV缓存结构,短文本自动退化至原方案。
实测提速超猛,精度几乎没丢
速度表现
在64K长度测试中,HISA最高提速3.75倍,常规设置提速超2倍。上下文越长加速越显著,精准适配128K/1M级应用场景。
精度表现
“大海捞针”测试中,HISA与DSA的检索精度几乎一致。LongBench长文本理解基准显示分数高度匹配,合成检索及少样本任务甚至实现小幅超越。
超参数测试证实其强鲁棒性:不同块大小与选块数量下性能稳定,无需精细调参。当前改进方向包括自适应块划分及联合训练优化。
团队背景
论文由北京大学张牧涵团队完成。张牧涵任人工智能研究院助理教授,曾任Meta AI研究员,Google Scholar引用超13000次,多次入选全球前2%顶尖科学家。
共同第一作者为徐宇飞(Yufei Xu)与孟繁续(Fanxu Meng)。
参考链接:https://arxiv.org/abs/2603.28458

