DeepSeek发布NSA技术！与传统注意力机制有何区别？- 大数跨境

首页

DeepSeek发布NSA技术！与传统注意力机制有何区别？

价值前沿VF

2025-02-19

导读：2月18日，DeepSeek发布了最新技术论文。

最新科技资讯

价值前沿VF公众号

DeepSeek发布NSA技术！

与传统注意力机制有何区别？

NSA通过动态层次化的稀疏策略，结合粗粒度的token压缩和细粒度的token选择，既保持了全局上下文感知，又保留了局部精度。

NSA的设计包括两个关键创新：

硬件对齐的算法设计：通过平衡算术强度的算法设计实现显著加速，并针对现代硬件进行了实现优化。
端到端训练：减少预训练计算，同时不牺牲模型性能。

具体实现：

Token压缩：通过将连续的token块聚合为块级表示，减少计算负担。
Token选择：选择性地保留最重要的token块，以保留关键信息。
滑动窗口：处理局部上下文，允许模型专注于局部模式，而不被全局模式干扰。

稀疏注意力机制与传统注意力机制的差别

在实验中，NSA在多个基准测试中表现优异。在一般基准测试中，NSA在多个任务上超越了全注意力模型，特别是在推理相关任务上表现突出。在长文本基准测试中，NSA在64k长度的序列上实现了完美的检索准确率，显示出其在长文本处理上的显著优势。

（一）一般基准测试

NSA在多个基准测试中表现优于或接近全注意力模型，特别是在推理相关任务上表现突出。例如，在DROP任务上，NSA的得分比全注意力模型高出0.042，在GSM8K任务上高出0.034。

（二）长文本基准测试

在64k长度的序列上，NSA实现了完美的检索准确率。这得益于其层次化的稀疏注意力设计，能够在高效扫描全局上下文的同时，精确检索局部信息。

（三）链式推理评估

在数学推理任务中，NSA表现优于全注意力模型，特别是在长序列长度下。例如，在AIME基准测试中，NSA在8k序列长度下比全注意力模型高出0.075，在16k序列长度下高出0.054。

与传统的全注意力机制相比，NSA在多个方面展现出了显著的优势。在推理速度方面，NSA通过减少不必要的计算和存储需求，在现代硬件上实现了超快速的推理。例如，在处理长文本生成任务时，传统模型可能需要数秒甚至数十秒才能生成一段连贯的文本，而NSA可以在不到一秒的时间内完成相同任务。在预训练成本方面，NSA通过动态分层稀疏策略和token压缩技术，显著降低了预训练过程中的计算量和存储需求。这意味着开发者可以在更短的时间内训练更大规模的模型，同时减少了硬件资源的消耗。