领导者管理笔记
重要消息:微信公众号又改版了,即便我每天都按时发文,你也可能收不到信息,甚至可能永久失联。唯一的办法就是把“领导者管理笔记”公号设置星标☆,这样才能每天照常收到文章。加(微信:New-leaders)进管理交流群。

细粒度专家划分:DeepSeekMoE对专家进行更细致的分割,使每个专家在特定领域或任务上更专精,从而提高知识获取的准确性和效率。
共享专家隔离:同时设计了一部分共享专家,用于捕捉通用知识,避免各个路由专家之间的重复计算(知识冗余),实现更合理的专家职责分配。
专家并行与负载均衡机制:在训练时采用专家并行策略,并引入辅助损失(包括专家级、设备级和通信级平衡损失)以及token-dropping策略,确保每个专家的负载相对均衡,控制跨设备通信开销,从而降低训练成本并提升整体训练效率。
auxiliary-loss-free strategy for load balancing:对于每个专家,在路由时为其加上一个偏置项(仅用于路由选择),在训练过程中根据当前专家是否过载进行动态调整(增加或减少偏置),这一策略保持专家负载均衡而不引入额外损失,从而不会对模型性能造成明显干扰,同时节点限制路由确保在专家并行时跨设备通信最小化,使得大规模MoE模型训练更稳定、高效。
Multi-Token Prediction (MTP) :引入了MTP模块和相应训练目标,既能提升模型预测精度,也可用于推理时的speculative decoding,从而加速生成过程。

首创FP8 Mixed Precision Training Framework:首次在极大规模模型上引入并验证了FP8混合精度训练框架。通过支持FP8运算和存储实现了训练加速和减少内存占用。
训练框架优化:DualPipe算法实现流水线并行,减少流水线空泡实现了计算与通信重叠;开发了专门的跨节点All-to-All通信内核,以充分利用InfiniBand (IB) 和NVLink的带宽,从而确保各节点之间的数据交换高效且低延迟。
DeepSeek-V3在RewardBench上的表现与最优版本的GPT-4o-0806和Claude-3.5-Sonnet-1022相当,甚至超过了其他版本的表现,这表明其判断能力非常出色。
DeepSeek-V3探讨了self-rewarding策略,通过模型自身的投票评估结果来生成奖励信号,实现自我优化。这种方法不仅提高了模型的对齐效果,还为未来在更广泛任务中的奖励机制设计提供了新的思路。
强化学习使用DeepSeekMath中提出的GRPO策略。
Reward Modeling:1) Accuracy Reward:usually rule based model,2)Format reward:强制模型生成CoT过程。Aha Moment of R1-Zero:在RL训练过程中会出现Aha moment,模型突然“恍然大悟”,并分配更多的思考时间重新考虑初始条件策略,这说明了通过提供正确的激励,模型可以自主发展出先进的解决问题的策略。“Aha Moment”是通过强化学习,解锁下一层LLM智能的可能路径。
@THE END





欢迎加入10W+领导者社群
文章来源 :领导者养成笔记「ID:GoToLead 」,转载请公众号回复“转载”
版权说明 :我们尊重原创者版权,除我们确实无法确认作者外,我们都会注明作者和来源。在此向原创者表示感谢。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,我们将根据您提供的证明材料确认版权立即删除内容;本文内容为原作者观点,并不代表本公众号赞同其观点和对其真实性负责。

