

DeepSeek-V3.2-Exp模型的新特性与技术亮点

全球宏观对冲策略

2025-09-30

DeepSeek-V3.2-Exp模型的新特性与技术亮点：

1.模型版本与特性DeepSeek发布了实验性版本DeepSeek-V3.2-Exp，它基于V3.1-Terminus，引入了稀疏注意力机制（DeepSeek Sparse Attention，DSA），在几乎不影响模型输出效果的前提下，实现长文本训练和推理效率的大幅提升。

2.该模型的API同步降价，官方App、网页端、小程序也已同步更新。

3.技术原理：其核心技术源于自NSA（原生稀疏注意力机制），论文名为《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。

4.NSA通过三个计算分支（滑动窗口分支、令牌压缩分支、令牌选择分支）模拟人类阅读时局部理解与整体把握相结合的认知模式，同时针对硬件进行优化，提升计算效率。

这种技术在不显著增加计算和显存开销的情况下，更好地支持长文本的训练和推理。

5.性能与生态：

从基准测试数据看，在部分任务上性能有一定变化，同时在长文本处理场景中，训练效率提升约50%，API成本降低50%以上。

6.该模型发布后，寒武纪、华为昇腾等国产芯片巨头迅速完成适配，体现了其在硬件适配和生态建设上的优势，也侧面说明该技术在发布前可能已进行了充分的适配准备。

稀疏注意力机制：
1、通过三个角度的算法来保证加速和精度
2、实现硬件加速的性能释放
3、核心就是尽量减少没有意义的计算和存储。

核心目标：尽量减少没有意义的计算和存储，以此实现加速和保证精度，同时释放硬件加速的性能。

实现路径：通过三个角度的算法来达成加速和精度的平衡。

【声明】内容源于网络

全球宏观对冲策略

各类跨境出海行业相关资讯

内容 467

粉丝 0

全球宏观对冲策略各类跨境出海行业相关资讯

总阅读3.1k

粉丝0

内容467