

基于PCIe 6的下一代推理服务器扩展技术

智能计算芯世界

2025-11-06

导读：该文聚焦 PCIe Gen6（第 6 代 PCI Express）在下一代 AI 推理服务器扩展中的应用，核心内容涵盖技术背景、核心方案、性能优势及实践建议。

该文聚焦 PCIe Gen6（第 6 代 PCI Express）在下一代 AI 推理服务器扩展中的应用，核心内容涵盖技术背景、核心方案、性能优势及实践建议。详细内容可参阅“2025 OCP APAC Summit（Server合集上）”，“2025 OCP APAC Summit（Server合集下）”。

一、技术背景

AI 基础设施扩展面临三大关键问题 —— 推理计算需求激增、AI 基础设施快速增长带来的信号传输限制、对高速内存的迫切需求；同时，PCIe 带宽限制（如前代技术难以满足 200G 网卡 1.6 Tbps 带宽需求）、信号传输距离与插入损耗矛盾，以及 CPU 本地 DRAM 无法支撑大型推理模型等，成为制约 AI 推理服务器规模化的瓶颈。

二、PCIe Gen6 与 CXL 3.x：下一代推理架构的核心支撑

1. 为何选择 PCIe Gen6？

高带宽保障：单通道速率达 64 GT/s，x16 通道总带宽 1.024 Tbps，可满足 200G 网卡等高速设备的带宽需求，支撑高带宽数据传输。
低延迟特性：为对延迟敏感的推理应用提供实时响应能力，保障 AI 推理任务的高效执行。
灵活扩展拓扑：通过 PCIe 交换机（Switch）构建可扩展架构，实现 GPU、NIC（网卡）等设备的高效互联，支持 “横向扩展（Scale Out）” 与 “纵向扩展（Scale Up）”，适配不同规模的推理集群。

2. 为何搭配 CXL 3.x？

解决内存瓶颈：推理模型规模与复杂度提升导致 CPU 本地 DRAM 不足，CXL 3.x 支持跨主机内存池化与共享，实现内存动态扩展，避免静态内存配置导致的利用率低、TCO（总拥有成本）高问题。
优化资源利用：通过内存分层（Memory Tiering）技术，动态匹配推理任务的内存需求，减少资源浪费，提升整体系统效率。

三、关键技术组件：突破扩展限制

1. 重定时器（Retimer）

延长信号传输距离：在服务器尺寸增大、板卡 trace 变长的场景下，维持 PCIe Gen6 的性能稳定性，解决信号衰减问题。
链路预算优化：根据 PCIe Gen6 链路损耗预算（总损耗 32dB），单个 Retimer 可将信号扩展能力提升至 32-64dB（远超 Redriver 的 12dB 扩展上限），支持更长距离的板间或机架内互联。

2. Gearbox

跨代兼容桥梁：实现 PCIe Gen5 设备与 Gen6 架构的无缝衔接，允许不同代际组件共存，简化从 Gen5 到 Gen6 的升级路径，降低迁移成本。
优化 I/O 资源：例如，将 CPU 的 16 lanes Gen5 信号转换为 8 lanes Gen6，在减少通道占用的同时保障高带宽，或支持单交换机连接 2 倍数量的 GPU，实现 GPU 规模翻倍。

3. PCIe 交换机（Switch）

设备高效互联：提供 GPU 间、GPU 与 NIC 间的高带宽、低延迟端到端（Peer-to-Peer）连接，避免 CPU 成为数据传输瓶颈。
灵活拓扑配置：支持根据不同 AI 推理 workload 优化架构，例如为大规模分布式推理集群构建多层级交换网络，平衡加速器与网络 I/O 的利用率。

四、性能验证与技术优势

1. 信号传输与扩展能力

通过 PCIe Gen5 与 Gen6 的链路预算对比可见（如下表），尽管 Gen6 总损耗预算略低（32dB vs Gen5 的 36dB），但结合 Retimer 等组件后，可有效延长信号传输距离，满足大型服务器或机架级互联需求。

2. CXL 内存优化效果

对比无 CXL 内存与有 CXL 内存的推理服务器性能：

无 CXL：依赖 NVMe 缓存， Insights 获取速度慢、CPU 利用率高、单服务器支持的并发 LLM（大语言模型）实例有限。
有 CXL：搭配 DDR5 5600 内存，实现 XX% Insights 速度提升、YY% CPU 利用率降低，同时支持 ZZ 个并发 LLM 实例，显著提升系统效率与承载能力。

五、机架级 AI 互联设计

Astera Labs 提出 “目的导向型机架级 AI 互联” 方案，通过 “前端模块（Front End，含 Ethernet Gearbox/Retimer）- 计算托盘（Compute Tray，含 CPU、XPU、PCIe Switch）- 交换托盘（Switch Tray，含 Scale Up Backplane 与 PCIe Switch）” 的分层架构，实现 XPUs（CPU/GPU/ 加速器）的灵活组网，适配不同规模的推理集群。

下载链接：

《2025 OCP/FMS全球峰会合集》

（1000+份打包链接）

1、2025 OCP Southeast Asia Tech Day（15份）

2、2025 OCP Global Summit（37专题 400+份）

3、2025 OCP APAC Summit（11专题 200+份）

4、2025 OCP AI_ML IT Systems Workshop（7份）

5、2025 FMS峰会（63专题 500+份）