大数跨境
0
0

基于PCIe 6的下一代推理服务器扩展技术

基于PCIe 6的下一代推理服务器扩展技术 智能计算芯世界
2025-11-06
0
导读:该文聚焦 PCIe Gen6(第 6 代 PCI Express)在下一代 AI 推理服务器扩展中的应用,核心内容涵盖技术背景、核心方案、性能优势及实践建议。

该文聚焦 PCIe Gen6(第 6 代 PCI Express)在下一代 AI 推理服务器扩展中的应用,核心内容涵盖技术背景、核心方案、性能优势及实践建议。详细内容可参阅“2025 OCP APAC Summit(Server合集上)”,“2025 OCP APAC Summit(Server合集下)”。

一、技术背景

AI 基础设施扩展面临三大关键问题 —— 推理计算需求激增、AI 基础设施快速增长带来的信号传输限制、对高速内存的迫切需求;同时,PCIe 带宽限制(如前代技术难以满足 200G 网卡 1.6 Tbps 带宽需求)、信号传输距离与插入损耗矛盾,以及 CPU 本地 DRAM 无法支撑大型推理模型等,成为制约 AI 推理服务器规模化的瓶颈。

二、PCIe Gen6 与 CXL 3.x:下一代推理架构的核心支撑

1. 为何选择 PCIe Gen6?

  • 高带宽保障:单通道速率达 64 GT/s,x16 通道总带宽 1.024 Tbps,可满足 200G 网卡等高速设备的带宽需求,支撑高带宽数据传输。
  • 低延迟特性:为对延迟敏感的推理应用提供实时响应能力,保障 AI 推理任务的高效执行。
  • 灵活扩展拓扑:通过 PCIe 交换机(Switch)构建可扩展架构,实现 GPU、NIC(网卡)等设备的高效互联,支持 “横向扩展(Scale Out)” 与 “纵向扩展(Scale Up)”,适配不同规模的推理集群。


2. 为何搭配 CXL 3.x?

  • 解决内存瓶颈:推理模型规模与复杂度提升导致 CPU 本地 DRAM 不足,CXL 3.x 支持跨主机内存池化与共享,实现内存动态扩展,避免静态内存配置导致的利用率低、TCO(总拥有成本)高问题。
  • 优化资源利用:通过内存分层(Memory Tiering)技术,动态匹配推理任务的内存需求,减少资源浪费,提升整体系统效率。


三、关键技术组件:突破扩展限制

1. 重定时器(Retimer)

  • 延长信号传输距离:在服务器尺寸增大、板卡 trace 变长的场景下,维持 PCIe Gen6 的性能稳定性,解决信号衰减问题。
  • 链路预算优化:根据 PCIe Gen6 链路损耗预算(总损耗 32dB),单个 Retimer 可将信号扩展能力提升至 32-64dB(远超 Redriver 的 12dB 扩展上限),支持更长距离的板间或机架内互联。

2. Gearbox

  • 跨代兼容桥梁:实现 PCIe Gen5 设备与 Gen6 架构的无缝衔接,允许不同代际组件共存,简化从 Gen5 到 Gen6 的升级路径,降低迁移成本。
  • 优化 I/O 资源:例如,将 CPU 的 16 lanes Gen5 信号转换为 8 lanes Gen6,在减少通道占用的同时保障高带宽,或支持单交换机连接 2 倍数量的 GPU,实现 GPU 规模翻倍。

3. PCIe 交换机(Switch)

  • 设备高效互联:提供 GPU 间、GPU 与 NIC 间的高带宽、低延迟端到端(Peer-to-Peer)连接,避免 CPU 成为数据传输瓶颈。
  • 灵活拓扑配置:支持根据不同 AI 推理 workload 优化架构,例如为大规模分布式推理集群构建多层级交换网络,平衡加速器与网络 I/O 的利用率。


四、性能验证与技术优势

1. 信号传输与扩展能力

通过 PCIe Gen5 与 Gen6 的链路预算对比可见(如下表),尽管 Gen6 总损耗预算略低(32dB vs Gen5 的 36dB),但结合 Retimer 等组件后,可有效延长信号传输距离,满足大型服务器或机架级互联需求。

2. CXL 内存优化效果

对比无 CXL 内存与有 CXL 内存的推理服务器性能:

  • 无 CXL:依赖 NVMe 缓存, Insights 获取速度慢、CPU 利用率高、单服务器支持的并发 LLM(大语言模型)实例有限。
  • 有 CXL:搭配 DDR5 5600 内存,实现 XX% Insights 速度提升、YY% CPU 利用率降低,同时支持 ZZ 个并发 LLM 实例,显著提升系统效率与承载能力。

五、机架级 AI 互联设计

Astera Labs 提出 “目的导向型机架级 AI 互联” 方案,通过 “前端模块(Front End,含 Ethernet Gearbox/Retimer)- 计算托盘(Compute Tray,含 CPU、XPU、PCIe Switch)- 交换托盘(Switch Tray,含 Scale Up Backplane 与 PCIe Switch)” 的分层架构,实现 XPUs(CPU/GPU/ 加速器)的灵活组网,适配不同规模的推理集群。

下载链接:
《2025 OCP/FMS全球峰会合集》
(1000+份打包链接)
1、2025 OCP Southeast Asia Tech Day(15份) 
2、2025 OCP Global Summit(37专题 400+份) 
3、2025 OCP APAC Summit(11专题 200+份) 
4、2025 OCP AI_ML IT Systems Workshop(7份) 
5、2025 FMS峰会(63专题 500+份)
OCP2025大会资料合集(4)
OCP2025大会资料合集(3)
OCP2025大会资料合集(2)
OCP2025大会资料合集(1)
... ...
本文所有资料都已上传至智能计算芯知识”星球AI峰会合集技术专栏
AI/GPU/CPU芯片专题资料都已上传至“智能计算芯知识”星球。更多芯片资料请参阅“《105+份GPU芯片技术及白皮书合集》”,“《100+份AI芯片技术修炼合集》”,“《42+份半导体芯片图谱》”,“《70+份半导体研究框架》”等。

下载链接:
重磅合集
1、70+篇半导体行业“研究框架”合集
2、56+份智能网卡和DPU合集
3、14份半导体“AI的iPhone时刻”系列合集
4、21份走进“芯”时代系列深度报告合集
5、800+份重磅ChatGPT专业报告
6、105份GPU技术及白皮书汇总
7、11+份AI的裂变时刻系列报告

8、3+份技术系列基础知识详解(星球版)

9、12+份Manus技术报告合集

10、100+份AI芯片修炼合集

11、100+份AI Agent技术报告合集

… …


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。



免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索AI_Architect”或“扫码关注公众号实时掌握深度技术分享,点击阅读原文获取更多原创技术干货


【声明】内容源于网络
0
0
智能计算芯世界
聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享。
内容 557
粉丝 0
智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享。
总阅读42
粉丝0
内容557