大数跨境
0
0

DeepSeek-V3.2-Exp模型的新特性与技术亮点

DeepSeek-V3.2-Exp模型的新特性与技术亮点 全球宏观对冲策略
2025-09-30
4

DeepSeek-V3.2-Exp模型的新特性与技术亮点:

1.模型版本与特性DeepSeek发布了实验性版本DeepSeek-V3.2-Exp,它基于V3.1-Terminus,引入了稀疏注意力机制(DeepSeek Sparse Attention,DSA),在几乎不影响模型输出效果的前提下,实现长文本训练和推理效率的大幅提升。

2.该模型的API同步降价,官方App、网页端、小程序也已同步更新。

3.技术原理:其核心技术源于自NSA(原生稀疏注意力机制),论文名为《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。

4.NSA通过三个计算分支(滑动窗口分支、令牌压缩分支、令牌选择分支)模拟人类阅读时局部理解与整体把握相结合的认知模式,同时针对硬件进行优化,提升计算效率。

这种技术在不显著增加计算和显存开销的情况下,更好地支持长文本的训练和推理。

5.性能与生态:

从基准测试数据看,在部分任务上性能有一定变化,同时在长文本处理场景中,训练效率提升约50%,API成本降低50%以上。

6.该模型发布后,寒武纪、华为昇腾等国产芯片巨头迅速完成适配,体现了其在硬件适配和生态建设上的优势,也侧面说明该技术在发布前可能已进行了充分的适配准备。


稀疏注意力机制:
1、通过三个角度的算法来保证加速和精度
2、实现硬件加速的性能释放
3、核心就是尽量减少没有意义的计算和存储。

核心目标:尽量减少没有意义的计算和存储,以此实现加速和保证精度,同时释放硬件加速的性能。

实现路径:通过三个角度的算法来达成加速和精度的平衡。


【声明】内容源于网络
0
0
全球宏观对冲策略
各类跨境出海行业相关资讯
内容 467
粉丝 0
全球宏观对冲策略 各类跨境出海行业相关资讯
总阅读3.1k
粉丝0
内容467