大数跨境
0
0

什么档次,RoCEv2还满足不了你的 AI 训练需求?

什么档次,RoCEv2还满足不了你的 AI 训练需求? 云深知网络
2023-05-23
2
导读:AI 网络系列:ChatGPT 火爆背后的网络故事(7)

AI 网络系列:

ChatGPT 火爆背后的网络故事(1)- 胖树架构
ChatGPT 火爆背后的网络故事(2)- 网络芯片
ChatGPT 火爆背后的网络故事(3)- 谷歌案例
ChatGPT 火爆背后的网络故事(4)- 光交换机

ChatGPT 火爆背后的网络故事(5)- 中国思路

ChatGPT 火爆背后的网络故事(6)- 演化路径

ChatGPT 火爆背后的网络故事(7)- 线性直驱

ChatGPT 火爆背后的网络故事(8)- Meta案例


在全球最大
八家互联网公司中
Meta是唯一一家不做云的公司
取得如此规模并扶植起A家实属不易

没有云业务的羁绊
这就意味着基础设施不受限制
软硬件都可以完全自主创新放飞自我

也正是如此

全球行业享受到了

OCP/TIP等开源项目的红利

OCP全球峰会“网络专场”小报告


大产出需要大投入

Meta挖起人来毫不吝啬

前有博通/英特尔背景的女高管

Alexis担任基础设施部门的副总裁

后有英特尔IPU产品线负责人跳槽Meta


就是在上周召开的
AI Infra @ Scale大会上
Meta宣布了自研的AI推理芯片
作为开源的拥趸毫无意外Meta公司
选择在芯片中内置双核 RISC-V 做主控

虽然目前只是一颗推理芯片
将来进入训练甚至网络芯片领域
对于这种酷炫的团队来讲也不足为奇

那当前Meta
的AI训练网络什么样?
平淡无奇的 RoCEV2 而已

用到的交换机
也是普普通通的白盒
而且是OCP开放架构模式
网络拓扑为2层的CLOS Fabric

ChatGPT训练网络的非著名架构


世上没有
既要还要又要
挑战是必须要面对的

有问题不可怕
办法总是比困难多
RoCEV2 目前已经Meta部署
经验证明: commodity ethernet 
RDMA  deployments  can  scale

对 Meta将RoCEV2用于AI训练视频感兴趣的同学点赞和在看,在公众号后台回复“tooyum68”可以获取观看地址。

对 Meta网络方案及交换机设备 感兴趣的同学点赞和在看,在公众号后台回复“tooyum67”可以获取下载地址。

相关阅读:

P4教程 P4应用

P4可编程网络论文集

P4可编程SDN交换机

Tofino1 | Tifino 2 |Tofino 3

基于可编程交换机的网络仿真平台

【声明】内容源于网络
0
0
云深知网络
“可能是中国最好的OPEN网络公众号” “嗯,必须是的”
内容 1315
粉丝 0
云深知网络 “可能是中国最好的OPEN网络公众号” “嗯,必须是的”
总阅读830
粉丝0
内容1.3k