梁文锋亲自上阵、亲自提交！DeepSeek发布新技术论文（附论文）- 大数跨境

领导者管理笔记

2025-02-19

领导者管理笔记

重要消息：微信公众号又改版了，即便我每天都按时发文，你也可能收不到信息，甚至可能永久失联。唯一的办法就是把“领导者管理笔记”公号设置星标☆，这样才能每天照常收到文章。加（微信：New-leaders）进管理交流群。

加（微信：FireFuryFree）进《领导者管理笔记》管理群

DeepSeek刚刚宣布提交了新的技术论文，是关于NSA（Natively Sparse Attention，原生稀疏注意力），官方介绍这是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。

值得注意的是，DeepSeek创始人梁文锋是作者之一。可见他确实是热衷于技术研究的人。

梁文锋还亲自提交了这篇论文。

论文标题为“Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention”（原生稀疏注意力：硬件对齐和原生可训练的稀疏注意力）。

论文链接：https://arxiv.org/abs/2502.11089

摘要如下：

长上下文建模对下一代大语言模型至关重要，但标准注意力机制的高计算成本带来了重大的计算挑战。

稀疏注意力为提高效率提供了一个有希望的方向，同时保持模型能力。我们介绍NSA，一种原生可训练的稀疏注意力机制，它将算法创新与硬件对齐优化相结合，以实现高效的长上下文建模。NSA采用动态分层稀疏策略，将粗粒token压缩与细粒token选择相结合，以保持上下文意识和本地精度。

我们的方法通过两项关键创新来推进稀疏的注意力设计：

（1）我们通过算术强度平衡算法设计，以及对现代硬件实现优化，实现了大幅度的加速。

（2）我们启用端到端训练，在不牺牲模型性能的情况下减少训练前计算。

实验显示，使用NSA预训练的模型在一般基准、长上下文任务和基于指令的推理中保持或超过全注意力模型。与此同时，NSA在解碼、向前传播和向后传播的64k长度序列上实现了比Full Attention的大幅加速，验证了其在整个模型生命周期中的效率。

从时间上看，梁文锋是在周日16号提交的论文，然后在第二天，也就是昨天出席了企业座谈会。

@THE END

分割线

应广大粉丝要求，我们建立了一个【领导者管理交流群】，小伙伴们热情踊跃，目前人数已经上万人了，不能直接进群啦，想要进群的添加小编微信，拉你进群。两个添加其一即可！

欢迎加入10W+领导者社群

文章来源 ：领导者养成笔记「ID：GoToLead 」，转载请公众号回复“转载”

版权说明 ：我们尊重原创者版权，除我们确实无法确认作者外，我们都会注明作者和来源。在此向原创者表示感谢。本文所用视频、图片、文字如涉及作品版权问题，请第一时间告知，我们将根据您提供的证明材料确认版权立即删除内容；本文内容为原作者观点，并不代表本公众号赞同其观点和对其真实性负责。

【声明】内容源于网络

领导者管理笔记

关注我，与100万领导者一起学组织和管理。张三峯，15年500强高层管理经验，“人人都是领导者“理念推动者，“商业新知”管理十佳创作者，多家公司管理咨询顾问。

内容 7624

粉丝 0

领导者管理笔记关注我，与100万领导者一起学组织和管理。张三峯，15年500强高层管理经验，“人人都是领导者“理念推动者，“商业新知”管理十佳创作者，多家公司管理咨询顾问。

总阅读210

粉丝0

内容7.6k