该文聚焦 PCIe Gen6(第 6 代 PCI Express)在下一代 AI 推理服务器扩展中的应用,核心内容涵盖技术背景、核心方案、性能优势及实践建议。详细内容可参阅“2025 OCP APAC Summit(Server合集上)”,“2025 OCP APAC Summit(Server合集下)”。
一、技术背景
二、PCIe Gen6 与 CXL 3.x:下一代推理架构的核心支撑
1. 为何选择 PCIe Gen6?
- 高带宽保障:单通道速率达 64 GT/s,x16 通道总带宽 1.024 Tbps,可满足 200G 网卡等高速设备的带宽需求,支撑高带宽数据传输。
- 低延迟特性:为对延迟敏感的推理应用提供实时响应能力,保障 AI 推理任务的高效执行。
- 灵活扩展拓扑:通过 PCIe 交换机(Switch)构建可扩展架构,实现 GPU、NIC(网卡)等设备的高效互联,支持 “横向扩展(Scale Out)” 与 “纵向扩展(Scale Up)”,适配不同规模的推理集群。
2. 为何搭配 CXL 3.x?
- 解决内存瓶颈:推理模型规模与复杂度提升导致 CPU 本地 DRAM 不足,CXL 3.x 支持跨主机内存池化与共享,实现内存动态扩展,避免静态内存配置导致的利用率低、TCO(总拥有成本)高问题。
- 优化资源利用:通过内存分层(Memory Tiering)技术,动态匹配推理任务的内存需求,减少资源浪费,提升整体系统效率。
三、关键技术组件:突破扩展限制
1. 重定时器(Retimer)
- 延长信号传输距离:在服务器尺寸增大、板卡 trace 变长的场景下,维持 PCIe Gen6 的性能稳定性,解决信号衰减问题。
- 链路预算优化:根据 PCIe Gen6 链路损耗预算(总损耗 32dB),单个 Retimer 可将信号扩展能力提升至 32-64dB(远超 Redriver 的 12dB 扩展上限),支持更长距离的板间或机架内互联。
2. Gearbox
- 跨代兼容桥梁:实现 PCIe Gen5 设备与 Gen6 架构的无缝衔接,允许不同代际组件共存,简化从 Gen5 到 Gen6 的升级路径,降低迁移成本。
- 优化 I/O 资源:例如,将 CPU 的 16 lanes Gen5 信号转换为 8 lanes Gen6,在减少通道占用的同时保障高带宽,或支持单交换机连接 2 倍数量的 GPU,实现 GPU 规模翻倍。
3. PCIe 交换机(Switch)
- 设备高效互联:提供 GPU 间、GPU 与 NIC 间的高带宽、低延迟端到端(Peer-to-Peer)连接,避免 CPU 成为数据传输瓶颈。
- 灵活拓扑配置:支持根据不同 AI 推理 workload 优化架构,例如为大规模分布式推理集群构建多层级交换网络,平衡加速器与网络 I/O 的利用率。
四、性能验证与技术优势
1. 信号传输与扩展能力
通过 PCIe Gen5 与 Gen6 的链路预算对比可见(如下表),尽管 Gen6 总损耗预算略低(32dB vs Gen5 的 36dB),但结合 Retimer 等组件后,可有效延长信号传输距离,满足大型服务器或机架级互联需求。
2. CXL 内存优化效果
对比无 CXL 内存与有 CXL 内存的推理服务器性能:
-
无 CXL:依赖 NVMe 缓存, Insights 获取速度慢、CPU 利用率高、单服务器支持的并发 LLM(大语言模型)实例有限。 -
有 CXL:搭配 DDR5 5600 内存,实现 XX% Insights 速度提升、YY% CPU 利用率降低,同时支持 ZZ 个并发 LLM 实例,显著提升系统效率与承载能力。
五、机架级 AI 互联设计
Astera Labs 提出 “目的导向型机架级 AI 互联” 方案,通过 “前端模块(Front End,含 Ethernet Gearbox/Retimer)- 计算托盘(Compute Tray,含 CPU、XPU、PCIe Switch)- 交换托盘(Switch Tray,含 Scale Up Backplane 与 PCIe Switch)” 的分层架构,实现 XPUs(CPU/GPU/ 加速器)的灵活组网,适配不同规模的推理集群。
8、3+份技术系列基础知识详解(星球版)
9、12+份Manus技术报告合集
10、100+份AI芯片修炼合集
11、100+份AI Agent技术报告合集
… …
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。

免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。

