大数跨境
0
0

一万困难户,十万刚起步,百万才算富,Meta 超越 xAI 计划打造全球最大 GPU 集群!

一万困难户,十万刚起步,百万才算富,Meta 超越 xAI 计划打造全球最大 GPU 集群! 云深知网络
2024-11-05
2
导读:军备竞赛刚刚开始
马斯克
不得不说是营销高手
数量未知的十万卡超级集群
从建设到运营始终是行业关注的焦点

122 天组装完成号称建造最快的AI数据中心


只是重要供应商

这位华裔 CEO 的日子有点难过

公司股价一夜暴跌33%蒸发近95亿美元



一万困难户
十万刚起步
百万才算富
Meta 在财报会议上表示
该公司的 Llama 4 模型正在一个
比十万 H100 AI GPU 更大的集群上训练

The Llama 3 models have been something of an inflection point in the industry. But I'm even more excited about Llama 4, which is now well into its development. We're training the Llama 4 models on a cluster that is bigger than 100,000 H100s or bigger than anything that I've seen reported for what others are doing. I expect that the smaller Llama 4 models will be ready first, and they'll be ready, we expect, sometime early next year.

Llama3 405B 
采用 RoCE 技术组网
相关技术已经有非常详尽介绍

Meta 基于 RoCE 技术的 24 K GPU 集群


Meta 表示 Llama4
将继续走在 Open 的路上
相关成果已经通过 OCP 组织共享


不过 Meta 并没有
采用 OCP 热门的 SONiC
很早就自研了 FBOSS 操作系统
Facebook讲解这些年踩过的交换机研发坑


当时的Meta还叫Fabebook
当时竞选的破床还有伊万卡的陪伴


这些年 FBOSS
也在不断更新演进中
最大的一个变化就是吸收了SAI

针对大模型训练场景
用于 DSF 的 FBOSS进一步
对 CELL 等私有场景做了定制化
和谷歌上光一样有钱任性玩的就是心跳

这么看来
Meta 对硬件开源贡献最大
微软对网络操作系统的贡献最大

相关阅读:

P4可编程SDN交换机

P4教程 P4应用 P4论文

Tofino1 | Tifino 2 |Tofino 3

基于可编程交换机的网络仿真平台

【声明】内容源于网络
0
0
云深知网络
“可能是中国最好的OPEN网络公众号” “嗯,必须是的”
内容 1315
粉丝 0
云深知网络 “可能是中国最好的OPEN网络公众号” “嗯,必须是的”
总阅读1.1k
粉丝0
内容1.3k