大数跨境
0
0

百川智能的大模型基础设施!

百川智能的大模型基础设施! 云深知网络
2024-12-10
1
导读:身体是诚实的

百模大战中的网络系列:

阿里:面向大模型时代的网络基础设施研究的挑战、阶段成果与展望

百度:彻底解决网络哈希冲突,百舸的高性能网络 HPN 落地实践

腾讯:星脉高性能计算网络为AI大模型构筑网络底座

幻方 AI DeepSeek 模型背后的网络集群建设!

零一万物:面向万卡集群的 AI 基础设施建设

360智算中心:万卡GPU集群落地实践

科大讯飞:万卡级智算集群


作为大模型六下龙之一
百川大模型团队始终在聚光灯下
有人离开有人加入都是正常的职场现象
Baichuan2发布时曾经公布过基础设施情况

基础设施


在当今大语言模型的训练与开发中,高效利用现有 GPU 资源起着至关重要的作用。为此,我们为弹性训练框架和智能集群调度策略开发了一种协同设计方法。


由于我们的 GPU 由多个用户和任务共享,每个任务的具体行为不可预测,这常常导致集群内的 GPU 节点闲置。考虑到一台配备 8 个 A800 GPU 的单机足以满足我们百川 7B 和百川 13B 模型的内存需求,我们训练框架的主要设计标准是机器级弹性,它支持根据集群状态动态调整任务资源,进而为我们的智能调度算法奠定基础。


为满足机器级弹性的要求,我们的训练框架集成了张量并行和基于零冗余优化器(ZeRO)的数据并行,我们在每台机器内部设置张量并行,并采用零冗余共享数据并行来实现跨机器的弹性扩展。


此外,我们运用了张量拆分技术,通过拆分某些计算来降低峰值内存消耗,例如针对大词汇量的交叉熵计算。这种方法使我们能够在无需额外计算和通信的情况下满足内存需求,让系统更高效。


为了在不影响模型精度的前提下进一步加快训练速度,我们实施了混合精度训练,在前向和反向计算中使用 BFloat16 格式,而在优化器更新时使用 Float32 格式。


此外,为了将我们的训练集群高效扩展到数千个 GPU,我们整合了以下技术来避免通信效率的降低:


拓扑感知分布式训练。在大规模集群中,网络连接常常跨越多层交换机。我们策略性地安排分布式训练的进程顺序,尽量减少跨不同交换机的频繁访问,以此降低延迟,进而提高整体训练效率。


零冗余优化器的混合分层分区。通过在 GPU 之间对参数进行分区,ZeRO3以增加额外的all-gather通信为代价降低了内存消耗。当扩展到数千个 GPU 时,这种方法会导致严重的通信瓶颈。为解决这一问题,我们提出了一种混合分层分区方案。具体而言,我们的框架首先在所有 GPU 之间对优化器状态进行分区,然后自适应地决定哪些层需要激活ZeRO3,以及是否对参数进行分层分区。


通过整合这些策略,我们的系统能够在 1024 个英伟达 A800 GPU 上高效训练百川 2 - 7B 和百川 2 - 13B 模型,实现了超过 180 TFLOPS的计算效率。

今年推出的Baidchuan4
仅需2卡4090极大降低推理成本


百川还不能自建
反观美帝网站LessWrong
对巨头等效的H100数量进行的估计
按照算能数据我朝智算能力还有待加强


所以要立案调查啊
英伟达最新财报数据显示

中国区虽低于管制前水平但环比增长

不过主要问题是即便逃离虎口又会入狼窝



相关阅读:

P4可编程SDN交换机

P4教程 P4应用 P4论文

Tofino1 | Tifino 2 |Tofino 3

基于可编程交换机的网络仿真平台

【声明】内容源于网络
0
0
云深知网络
“可能是中国最好的OPEN网络公众号” “嗯,必须是的”
内容 1315
粉丝 0
云深知网络 “可能是中国最好的OPEN网络公众号” “嗯,必须是的”
总阅读1.1k
粉丝0
内容1.3k