DeepSeek-V3.2-Exp模型的新特性与技术亮点:
1.模型版本与特性DeepSeek发布了实验性版本DeepSeek-V3.2-Exp,它基于V3.1-Terminus,引入了稀疏注意力机制(DeepSeek Sparse Attention,DSA),在几乎不影响模型输出效果的前提下,实现长文本训练和推理效率的大幅提升。
2.该模型的API同步降价,官方App、网页端、小程序也已同步更新。
3.技术原理:其核心技术源于自NSA(原生稀疏注意力机制),论文名为《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。
4.NSA通过三个计算分支(滑动窗口分支、令牌压缩分支、令牌选择分支)模拟人类阅读时局部理解与整体把握相结合的认知模式,同时针对硬件进行优化,提升计算效率。
这种技术在不显著增加计算和显存开销的情况下,更好地支持长文本的训练和推理。
5.性能与生态:
从基准测试数据看,在部分任务上性能有一定变化,同时在长文本处理场景中,训练效率提升约50%,API成本降低50%以上。
6.该模型发布后,寒武纪、华为昇腾等国产芯片巨头迅速完成适配,体现了其在硬件适配和生态建设上的优势,也侧面说明该技术在发布前可能已进行了充分的适配准备。
稀疏注意力机制:
1、通过三个角度的算法来保证加速和精度
2、实现硬件加速的性能释放
3、核心就是尽量减少没有意义的计算和存储。
核心目标:尽量减少没有意义的计算和存储,以此实现加速和保证精度,同时释放硬件加速的性能。
实现路径:通过三个角度的算法来达成加速和精度的平衡。

