引言
人工智能计算领域迎来了新的技术里程碑,NVIDIA Blackwell Ultra GPU凭借其先进的架构设计和卓越的性能表现,正在重新定义AI工厂的计算能力标准。本文将探讨Blackwell Ultra如何通过创新的技术方案,为大规模人工智能应用提供强大的计算支撑[1]。
双Reticle架构设计的技术创新
Blackwell Ultra的核心设计采用了双reticle架构,这种设计方案代表了GPU架构发展的重要进步。与传统的单芯片处理器不同,Blackwell Ultra将两个reticle尺寸的芯片通过NVIDIA高带宽接口(NV-HBI)连接,形成统一的计算平台,同时保持作为单一CUDA编程加速器的功能特性。
图1:NVIDIA Blackwell Ultra GPU的完整芯片架构,包括通过10 TB/s NV-HBI接口连接的双reticle芯片,配备640个第五代Tensor Core以及PCIe Gen 6、NVLink v5和NVLink-C2C等全面的连接选项。
这种架构创新带来了显著的性能优势。统一的计算域跨越两个芯片的160个流式多处理器(SM),提供640个第五代Tensor Core,实现15 PetaFLOPS的密集NVFP4计算性能。共享的L2缓存确保完全一致的内存访问,同时最大化硅片利用率,达到每平方毫米的峰值性能表现。
采用台积电先进的4NP制程工艺制造,Blackwell Ultra集成了2080亿个晶体管,相比上一代NVIDIA Hopper GPU增加了2.6倍。这种大规模的晶体管集成能力使处理器能够处理日益复杂的AI工作负载,同时保持开发者近二十年来所依赖的熟悉CUDA编程模型。
流式多处理器的精密设计
Blackwell Ultra的计算基础建立在其精密的流式多处理器架构之上。每个SM作为独立的计算引擎,集成了多个专门为AI性能优化的组件。
图2:Blackwell Ultra流式多处理器的内部结构,包括CUDA核心、Tensor Core、TMEM、共享内存以及专用功能单元在单个SM内的集成布局。
每个流式多处理器包含128个CUDA核心,能够处理FP32和INT32运算,同时支持FP16/BF16和其他精度格式。每个SM中的四个第五代Tensor Core集成了NVIDIA第二代Transformer引擎,专门针对FP8、FP6和创新的NVFP4精度格式进行了优化。此外,每个SM还包含256 KB的Tensor内存(TMEM),用于中间结果的warp同步存储,实现更高的数据重用率并显著减少片外内存传输。
SM内的专用功能单元负责处理超越函数数学运算和AI核心中常用的专门操作。这种全面的设计确保Blackwell Ultra能够高效处理现代人工智能应用的多样化计算需求。
NVFP4精度格式的性能突破
NVIDIA NVFP4精度格式的引入代表了AI计算效率的重大进步。这种创新的4位浮点格式采用了复杂的两级缩放方法,将应用于16值块的FP8(E4M3)微块缩放与张量级FP32缩放相结合。
图3:从Hopper GPU(2 petaFLOPS)到Blackwell Ultra(15 petaFLOPS)的显著性能提升,显示了从Hopper到Blackwell Ultra的7.5倍增长以及从标准Blackwell到Blackwell Ultra的1.5倍改进。
这种硬件加速量化技术相比标准FP4实现方案显著降低了错误率,同时提供接近FP8等效的精度,通常差异不到1%。内存效率收益同样显著,相比FP8减少约1.8倍的内存占用,相比FP16精度减少高达3.5倍。
注意力处理机制的优化增强
现代AI工作负载高度依赖注意力机制,特别是在处理长输入上下文和生成扩展输出序列的transformer架构中。针对这一关键需求,Blackwell Ultra集成了专门的注意力层处理增强功能。
图4:Blackwell Ultra中注意力计算管道的改进,突出显示了指数运算的双倍SFU吞吐量和批量矩阵乘法期间50%更快的NVFP4处理,从而降低了整体Softmax延迟。
专用功能单元在注意力处理中使用的关键指令吞吐量提高了一倍,相比标准Blackwell GPU提供高达2倍的注意力层计算速度。这种改进对于具有大上下文窗口的推理模型特别有效,因为在这些模型中,softmax阶段往往成为显著的延迟瓶颈。
大容量内存与带宽扩展
Blackwell Ultra通过容量和带宽的大幅增加来满足万亿参数AI模型不断增长的内存需求。处理器每GPU集成288 GB HBM3e内存,相比H100增加3.6倍,比标准Blackwell实现多50%。
图5:从Hopper H100(80 GB)到H200(141 GB)、Blackwell(192 GB)再到Blackwell Ultra(288 GB)的内存容量渐进增长,突出显示了从Hopper到Blackwell Ultra的3.6倍改进。
这种大规模内存容量使得3000多亿参数模型能够完全驻留而无需内存卸载,通过更大的KV缓存容量支持扩展的上下文长度,并通过为多样化工作负载提供更高的计算内存比来提高整体计算效率。
系统集成与互连技术
Blackwell Ultra的架构创新延伸到完整的系统集成层面。处理器支持第五代NVLink用于GPU间通信,NVLink-C2C用于与NVIDIA Grace CPU的一致性互连,以及用于主机连接的PCIe Gen 6接口。
图6:从Hopper到Blackwell再到Blackwell Ultra的AI工厂输出演进的帕累托边界图,显示了用户体验指标和运营效率的渐进改进。
NVLink 5规格提供每GPU 1.8 TB/s的双向带宽,通过18个链路实现每个100 GB/s的传输速率。相比NVLink 4(Hopper GPU)性能提升2倍,最大拓扑结构支持576个GPU的无阻塞计算fabric。机架级集成支持72-GPU NVL72配置,聚合带宽达130 TB/s。
主机连接方面,PCIe接口支持Gen6 × 16通道(256 GB/s双向),NVLink-C2C提供Grace CPU-GPU通信的内存一致性(900 GB/s)。这些全面的增强功能使Blackwell Ultra成为下一代AI工厂的基础,在人工智能部署中实现卓越的规模和效率。
Grace Blackwell Ultra超级芯片集成
NVIDIA Grace Blackwell Ultra超级芯片将一个Grace CPU与两个Blackwell Ultra GPU通过NVLink-C2C耦合,提供高达30 PFLOPS密集和40 PFLOPS稀疏NVFP4 AI计算能力,拥有1 TB的统一内存,结合HBM3E和LPDDR5X实现节点级容量。ConnectX-8 SuperNIC提供800 GB/s高速网络连接。
图7:完整的NVIDIA Grace Blackwell Ultra超级芯片板卡,包括配备LPDDR5X内存的Grace CPU和两个配备HBM3E内存堆栈的Blackwell Ultra GPU,集成了用于高速网络连接的ConnectX-8 SuperNIC。
GB300 NVL72机架级系统采用液冷设计,集成36个Grace Blackwell超级芯片,通过NVLink 5和NVLink交换互连,实现1.1 exaFLOPS密集FP4计算能力。GB300 NVL72还实现了50倍更高的AI工厂输出,相比Hopper平台结合了10倍更好的延迟(每用户TPS)和5倍更高的每兆瓦吞吐量。
企业级特性与兼容性
Blackwell Ultra不仅专注于原始性能,还设计了简化操作、增强安全性并在大规模部署中提供可靠性能的企业级特性。增强的GigaThread引擎提供改进的上下文切换性能和跨所有160个SM的优化工作负载分配。多实例GPU(MIG)功能允许将Blackwell Ultra GPU分区为不同大小的MIG实例。
安全性和可靠性方面,机密计算和安全AI为敏感AI模型和数据提供安全高性能保护,将基于硬件的可信执行环境(TEE)扩展到GPU,在Blackwell架构中提供业界首创的TEE-I/O功能,以及用于接近相同吞吐量的内联NVLink保护。先进的NVIDIA远程认证服务(RAS)引擎采用AI驱动的可靠性系统,监控数千个参数以预测故障、优化维护计划并最大化大规模部署中的系统正常运行时间。
Blackwell Ultra维持与整个CUDA生态系统的完全向后兼容性,同时为下一代AI框架引入优化。框架集成包括SGLang、TensorRT-LLM和vLLM中的原生支持,具有针对NVFP4精度和双芯片架构优化的内核。NVIDIA Dynamo分布式推理和调度框架智能地跨数千个GPU协调工作负载,为大规模部署提供高达30倍的吞吐量提升。
通过双芯片集成、NVFP4加速、大容量内存和先进互连技术的综合创新,Blackwell Ultra为AI应用提供了强大的计算基础,使原本在计算上不可行的AI应用变为现实。随着行业从实验性AI实现向生产规模AI工厂转型,Blackwell Ultra提供了将AI愿景转化为实际应用所需的计算基础。
参考来源
[1] K. Aubrey and N. Stam, "Inside NVIDIA Blackwell Ultra: The Chip Powering the AI Factory Era," NVIDIA Developer Blog, Aug. 22, 2025. [Online]. Available: https://developer.nvidia.com/blog/inside-nvidia-blackwell-ultra-the-chip-powering-the-ai-factory-era/?ncid=so-link-929079&linkId=100000379792615. [Accessed: Aug. 28, 2025].
END
点击左下角"阅读原文"马上申请
欢迎转载
转载请注明出处,请勿修改内容和删除作者信息!
关注我们
![]() |
![]() |
![]() |
关于我们:
天府逍遥(成都)科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
http://www.latitudeda.com/
(点击上方名片关注我们,发现更多精彩内容)




