大数跨境

梁文锋亲自上阵、亲自提交!DeepSeek发布新技术论文(附论文)

梁文锋亲自上阵、亲自提交!DeepSeek发布新技术论文(附论文) 领导者管理笔记
2025-02-19
2

领导者管理笔记

消息微信公众号又改版了即便我每天都按时发文,你也可能收不到信,甚至可能永久失联。唯一的办法就是把“领导者管理笔记”公号设置星标☆,这样才能每天照常收到文章加(微信:New-leaders)进管理交流群

加(微信:FireFuryFree)进《领导者管理笔记》管理群



DeepSeek刚刚宣布提交了新的技术论文,是关于NSA(Natively Sparse Attention,原生稀疏注意力),官方介绍这是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。



值得注意的是,DeepSeek创始人梁文锋是作者之一。可见他确实是热衷于技术研究的人。
图片

梁文锋还亲自提交了这篇论文。



论文标题为“Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention”(原生稀疏注意力:硬件对齐和原生可训练的稀疏注意力)。


论文链接:https://arxiv.org/abs/2502.11089


摘要如下:


长上下文建模对下一代大语言模型至关重要,但标准注意力机制的高计算成本带来了重大的计算挑战。


稀疏注意力为提高效率提供了一个有希望的方向,同时保持模型能力。我们介绍NSA,一种原生可训练的稀疏注意力机制,它将算法创新与硬件对齐优化相结合,以实现高效的长上下文建模。NSA采用动态分层稀疏策略,将粗粒token压缩与细粒token选择相结合,以保持上下文意识和本地精度。


我们的方法通过两项关键创新来推进稀疏的注意力设计:


(1)我们通过算术强度平衡算法设计,以及对现代硬件实现优化,实现了大幅度的加速。 

(2)我们启用端到端训练,在不牺牲模型性能的情况下减少训练前计算。 


实验显示,使用NSA预训练的模型在一般基准、长上下文任务和基于指令的推理中保持或超过全注意力模型。与此同时,NSA在解碼、向前传播和向后传播的64k长度序列上实现了比Full Attention的大幅加速,验证了其在整个模型生命周期中的效率。


时间上看,梁文锋是在周日16号提交的论文,然后在第二天,也就是昨天出席了企业座谈会。



@THE END


应广大粉丝要求,我们建立了一个【领导者管理交流群】,小伙伴们热情踊跃,目前人数已经上万人了,不能直接进群啦,想要进群的添加小编微信,拉你进群。两个添加其一即可!

欢迎加入10W+领导者社群

文章来源 领导者养成笔记「ID:GoToLead 」,转载请公众号回复“转载

版权说明 们尊重原创者版权,除我们确实无法确认作者外,我们都会注明作者和来源。在此向原创者表示感谢。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,我们将根据您提供的证明材料确认版权立即删除内容;本文内容为原作者观点,并不代表本公众号赞同其观点和对其真实性负责。

【声明】内容源于网络
0
0
领导者管理笔记
关注我,与100万领导者一起学组织和管理。张三峯,15年500强高层管理经验,“人人都是领导者“理念推动者,“商业新知”管理十佳创作者,多家公司管理咨询顾问。
内容 7624
粉丝 0
领导者管理笔记 关注我,与100万领导者一起学组织和管理。张三峯,15年500强高层管理经验,“人人都是领导者“理念推动者,“商业新知”管理十佳创作者,多家公司管理咨询顾问。
总阅读210
粉丝0
内容7.6k