大数跨境
0
0

【半导体】英伟达GB10,深度解读

【半导体】英伟达GB10,深度解读 人工智能产业链union
2026-01-04
5
导读:GB10是英伟达和联发科合作推出的产品,它将英伟达的Blackwell架构集成到GPU中。GB10的GPU拥有48个BlackwellSM单元,核心数量与RTX5070相同。

GB10 是英伟达与联发科联合推出的产品,采用英伟达 Blackwell 架构 GPU,集成 48 个 SM 单元,核心规模与 RTX 5070 相当。CPU 部分搭载 10 个 Cortex X925 和 10 个 Cortex A725 核心,整体计算能力强劲。为支撑高性能运算,其内存子系统设计尤为关键。

本文聚焦 GB10 的 CPU 内存子系统架构,深入分析其缓存结构、带宽表现与延迟特性。

片上系统布局

GB10 的 CPU 核心划分为两个集群,每个集群包含 5 个 A725 和 5 个 X925 核心。A725 核心运行频率为 2.8 GHz;X925 核心在集群 0 最高可达 3.9 GHz,在集群 1 最高可达 4.0 GHz,体现出一定的性能差异化设计。

缓存和内存访问

GB10 的 A725 与 X925 核心均配置 64 KB L1 指令与数据缓存。A725 配备 512 KB L2 缓存(8 路组相联),延迟约 3.2 纳秒,表现良好;但其 L3 缓存延迟高达 21 纳秒以上(超 60 时钟周期),性能较弱。

测试显示,集群 0 拥有 8 MB L3 缓存,集群 1 则为 16 MB。尽管容量不同,A725 在两集群中的 L3 延迟一致。较小的 L2 缓存有助于节省芯片面积,从而容纳更多核心,符合 A725 注重能效与密度的设计定位。

X925 核心配备 2 MB L2 缓存(8 路组相联),延迟为 12 时钟周期。其共享 L3 缓存延迟显著低于 A725,约为 14 纳秒(56 时钟周期),与英特尔 Arrow Lake 处于同一水平,缓存结构更为均衡,有利于高性能任务处理。

系统级缓存(SLC)容量为 16 MB,位于 L3 之后,延迟约为 42–47 纳秒。SLC 不仅作为 CPU 的 L4 缓存,更关键的是实现 CPU 与 GPU 之间的高效数据共享,减少对 DRAM 的频繁访问。

与 AMD Zen 5 相比,GB10 的缓存周期延迟表现尚可,但受限于较低时钟频率,实际速度不及 Zen 5。此外,AMD 的 L3 缓存在容量翻倍的同时仍保持更低延迟,设计更具优势。

DRAM 延迟方面,GB10 表现亮眼,仅为 113 纳秒,优于华硕 Strix Halo 与英特尔 Meteor Lake(均超 140 纳秒)。这得益于 LPDDR5X 高速内存支持(实测 8533 MT/s,理论最高 9400 MT/s)以及 CPU 与内存控制器同封装的设计优化。

带宽

单核带宽方面,A725 可从 L1 缓存读取 48 字节/周期,L2 数据通路为 32 字节/周期,L3 读取带宽约 55 GB/s,DRAM 带宽为 26 GB/s。X925 性能更强,L1D 达 64 字节/周期,L2 推测同样为 64 字节/周期,L3 带宽接近 90 GB/s,DRAM 带宽达 38 GB/s。

多线程场景下,GB10 每集群 L2 缓存共 15 MB,L3 容量分别为 8 MB 和 16 MB。测试采用独立数组方式避免访问合并,结果显示其 L3 带宽超过 200 GB/s,虽低于 Strix Halo,但仍具备实用性。

共享数组测试进一步验证 L3 带宽表现,结合私有数组结果,表明 GB10 的 L3 带宽虽不及 Strix Halo,但仍在合理范围。两个 CPU 集群外部带宽不对称:集群 0 类似传统 CCX 设计,集群 1 外部读取带宽超 100 GB/s,类似 AMD GMI-Wide 架构。该设计基于 Arm DSU-120,支持多个 256 位 CHI 接口。

总体来看,GB10 的 CPU 带宽高于典型客户端平台,但仍未充分利用 256 位 LPDDR5X 总线。由于 CPU 工作负载通常更依赖低延迟而非高带宽,因此其设计重点仍在于缓存优化以提升响应效率。

异构集群配置?

集群 1 明显偏向性能优化(更大 L3 缓存、更高外部带宽),而集群 0 更注重核心密度。L3 缓存减半至 8 MB 及可能更窄的外部接口,均为节省芯片面积的考量。

然而,当前每个集群均包含 5 个 X925 与 5 个 A725 核心,未实现完全专用化。若将全部 A725 集中于集群 0 以提升密度,X925 集中于集群 1 以最大化性能,或可简化调度并提升能效。这种同构集群方案有望改善操作系统资源管理效率。

带宽负载下的延迟

高带宽负载会加剧内存请求排队,推高平均延迟。测试显示,当所有 A725 核心满载时达到最大带宽,加入 X925 后总带宽反而下降且延迟上升,表明 X925 核心存在资源争用问题。

四个 X925 核心同时请求带宽时延迟达到峰值。有趣的是,当 A725 加入后,系统反而能更好平衡负载,带宽回升且延迟降低,暗示其具备一定动态调节机制。

尽管集群 1 带宽更高,其延迟控制却不如预期,与 AMD GMI-Wide 表现相反。但在整体带宽负载范围内,GB10 的延迟仍低于 Strix Halo,得益于其更低的基线延迟和集群 1 的高外部带宽。

iGPU 的带宽需求会影响 CPU 延迟。GB10 在 GPU 负载适中时能维持较低 CPU 延迟,优于 Strix Halo。但当 GPU 带宽达到 231 GB/s 时,CPU 延迟飙升至 351 纳秒以上。

当高性能 X925 核心与 GPU 同时高负载时,延迟逼近 400 纳秒,GPU 在带宽竞争中占据主导地位。

核心间延迟

GB10 使用 Arm DSU-120 架构,通过 Snoop 控制单元维护缓存一致性。HPCF 架构负责跨集群一致性管理。

测试显示,集群边界清晰可见。X925 核心间集群内延迟最优,最低约 50–60 纳秒;最差情况为跨集群 A725 核心间通信,延迟高达 240 纳秒。

相较之下,Strix Halo 跨集群延迟约 100 纳秒,集群内普遍低于 50 纳秒,整体表现优于 GB10。

结语

GB10 通过高度异构的核心配置(20 核)实现了更高的核心密度,相比 Strix Halo(16 核)更具优势。其缓存设计侧重面积优化,牺牲部分延迟性能换取更多核心集成。

尽管 L3 与 SLC 分层结构不如统一高速大缓存理想,但 GB10 在 LPDDR5X 内存延迟控制上表现出色,并为单一集群提供超 100 GB/s 外部带宽,突破了现有客户端平台限制。

两款芯片的 CPU 均无法完全利用 256 位 LPDDR5X 总线带宽,说明内存系统主要服务于 iGPU。高 GPU 带宽需求会对 CPU 性能造成挤压,未来设计需更好平衡双端资源分配。

GB10 和 Strix Halo 代表了大型集成显卡芯片的新方向,具备小型化、规避显存瓶颈等潜力。期待英伟达、AMD 等厂商持续优化架构,推动产品普及与成本下降。

【声明】内容源于网络
0
0
人工智能产业链union
人工智能产业链联盟,旨在汇聚全球人工智能领域的创新力量,共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心,打造了一个完整、高效、协同的人工智能生态链。
内容 589
粉丝 0
人工智能产业链union 人工智能产业链联盟,旨在汇聚全球人工智能领域的创新力量,共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心,打造了一个完整、高效、协同的人工智能生态链。
总阅读15.2k
粉丝0
内容589