大数跨境

DeepSeek发布NSA技术!与传统注意力机制有何区别?

DeepSeek发布NSA技术!与传统注意力机制有何区别? 价值前沿VF
2025-02-19
3
导读:2月18日,DeepSeek发布了最新技术论文。


最新科技资讯

价值前沿VF公众号





DeepSeek发布NSA技术!

与传统注意力机制有何区别?





NSA通过动态层次化的稀疏策略,结合粗粒度的token压缩和细粒度的token选择,既保持了全局上下文感知,又保留了局部精度。

NSA的设计包括两个关键创新:

  • 硬件对齐的算法设计:通过平衡算术强度的算法设计实现显著加速,并针对现代硬件进行了实现优化。

  • 端到端训练:减少预训练计算,同时不牺牲模型性能。

具体实现:

  • Token压缩:通过将连续的token块聚合为块级表示,减少计算负担。

  • Token选择:选择性地保留最重要的token块,以保留关键信息。

  • 滑动窗口:处理局部上下文,允许模型专注于局部模式,而不被全局模式干扰。


稀疏注意力机制与传统注意力机制的差别


在实验中,NSA在多个基准测试中表现优异。在一般基准测试中,NSA在多个任务上超越了全注意力模型,特别是在推理相关任务上表现突出。在长文本基准测试中,NSA在64k长度的序列上实现了完美的检索准确率,显示出其在长文本处理上的显著优势。

(一)一般基准测试

NSA在多个基准测试中表现优于或接近全注意力模型,特别是在推理相关任务上表现突出。例如,在DROP任务上,NSA的得分比全注意力模型高出0.042,在GSM8K任务上高出0.034。

(二)长文本基准测试

在64k长度的序列上,NSA实现了完美的检索准确率。这得益于其层次化的稀疏注意力设计,能够在高效扫描全局上下文的同时,精确检索局部信息。

(三)链式推理评估

在数学推理任务中,NSA表现优于全注意力模型,特别是在长序列长度下。例如,在AIME基准测试中,NSA在8k序列长度下比全注意力模型高出0.075,在16k序列长度下高出0.054。

与传统的全注意力机制相比,NSA在多个方面展现出了显著的优势。在推理速度方面,NSA通过减少不必要的计算和存储需求,在现代硬件上实现了超快速的推理。例如,在处理长文本生成任务时,传统模型可能需要数秒甚至数十秒才能生成一段连贯的文本,而NSA可以在不到一秒的时间内完成相同任务。在预训练成本方面,NSA通过动态分层稀疏策略和token压缩技术,显著降低了预训练过程中的计算量和存储需求。这意味着开发者可以在更短的时间内训练更大规模的模型,同时减少了硬件资源的消耗。





长文本建模对于语言模型的重要性不言而喻,它在深度推理、代码生成、多轮对话系统等众多应用中发挥着关键作用。但随着序列长度的增加,传统注意力机制的计算复杂度呈指数级增长,导致模型训练和推理时间大幅增加,严重制约了模型的性能和应用范围。

NSA在训练和解码速度上均实现了显著的加速效果:

(一)训练速度

在64k序列长度上,NSA实现了高达9.0倍的前向加速和6.0倍的反向加速。这种加速效果随着序列长度的增加而更加显著。

(二)解码速度

在64k序列长度上,NSA实现了高达11.6倍的加速。这主要得益于其在解码阶段减少了KV缓存的加载量,从而显著降低了内存访问瓶颈。

NSA作为一种新型的稀疏注意力机制,通过硬件对齐的算法设计和端到端训练支持,显著提高了长文本处理的效率和模型性能。它在多个基准测试中表现出色,特别是在长文本任务和推理能力上具有显著优势。未来,NSA有望在更多应用场景中发挥重要作用,推动语言模型技术的进一步发展。



如果你觉得这篇文章有价值,

别忘了点赞、转发,关注我,

获取更多深度行业分析!

来源:价值前沿VF公众号

声明:文章部分图片源自网络和AI生图,仅供参考,如有侵权问题请联系作者删除。文章部分预测来自AI分析,本文内容不构成投资建议,仅作为研究参考,据此操作,风险自担!


【声明】内容源于网络
0
0
价值前沿VF
及时有效,深度全面研判产业发展方向
内容 195
粉丝 0
价值前沿VF 及时有效,深度全面研判产业发展方向
总阅读21
粉丝0
内容195