人工智能和机器学习的发展对高性能硬件的需求达到了前所未有的高度,这使得关于 GPU 和 TPU 的讨论比以往任何时候都更加重要。
GPU(图形处理器)最初是为图形渲染而生,现已发展成为处理数据分析、科学计算和现代 AI 工作负载的灵活处理器。
TPU(张量处理器)则是由谷歌专为深度学习设计的一系列专用集成电路(ASIC),专注于高吞吐量的张量运算,甚至为像 Gemini 3 Pro 这样的大型模型训练提供了算力支持。
在这两者之间做出选择,取决于你的特定工作负载在架构、性能、可扩展性、能源效率和成本方面的需求。在本文中,我们将深入分析这些差异,帮助你为自己的 AI 需求选择合适的硬件。
什么是 GPU?
图形处理器(GPU)是一种专为同时执行多项任务而优化的计算机处理器。由于大多数 GPU 包含数千个可以同步工作的处理核心,它们被设计用于并行渲染游戏中的图形。然而,GPU 也非常适合执行可以并行计算的任务。
因此,AMD 和 NVIDIA 的 GPU 如今被许多科学研究人员、视频编辑以及使用机器学习(ML)和深度学习(DL)模型的人广泛采用。例如,像 TensorFlow 和 PyTorch 这样的深度学习框架就利用了 GPU 的并行处理能力,通过海量数据来训练神经网络。
架构概览
GPU 利用大量处理核心(计算单元)来实现并行处理。例如,高端 NVIDIA GPU 拥有数千个 CUDA 核心,这些核心被分组到流式多处理器(SMs)中。这些核心可以彼此并行地运行相似的操作,例如乘加运算。
大量的高带宽内存(GDDR 或 HBM)使这些核心能够接收数据进行计算。这种架构允许 GPU 同时处理多条信息——这对于可以分解为更小块并并行执行的过程至关重要。
例如,NVIDIA 引入了 Tensor Cores(在几种架构中),专门设计用于加速深度学习应用中的矩阵乘法。
现代 NVIDIA GPU 支持混合精度;通过同时利用半精度(FP16)和全精度(INT8)进行计算,它们在保持准确性的同时提高了吞吐量。
结合众多并行处理核心和高速内存,NVIDIA GPU 能够每秒执行令人难以置信的计算操作;例如,NVIDIA A100 在混合精度模式下目前的运行速度约为 312 万亿次浮点运算(TFLOPS)。
实际上,这意味着 GPU 处理器非常适合执行那些可以有效进行向量化或并行化的任务。因此,它们擅长执行矩阵和向量运算,并因此在神经网络的运行中表现出色。但需要注意的是,现代 GPU 可以执行许多类型的并行化算法/工作流,其设计初衷并不只是为了 AI,也包括图形渲染。

GPU 的应用
虽然游戏无疑是 GPU 的一个主要用途,但它远非唯一的应用。GPU 的其他应用包括:
-
实时图形: 在 2D 和 3D 游戏/VR 环境中以高帧率渲染 3D 模型和图像,以及科学可视化。 -
视频编辑与制作: 加速视频编码/解码、应用效果和执行编辑任务。 -
AI/ML 加速: 加速 ML 模型的训练(或运行)过程。大多数现代 ML 模型都是在非常大的矩阵(矩阵大小等于图像中的像素数量)上进行训练的,并在训练时涉及称为卷积的过程。 -
深度学习训练: 由于现代 GPU 中拥有数千个核心及其并行工作能力,它们最适合在大型数据集上训练卷积神经网络(CNN)。 -
高性能计算(HPC): 使用并行处理运行最密集的科学模拟或大规模数据分析。 -
加密货币挖矿: 并行执行工作量证明(Proof of Work)加密货币所需的大量哈希计算。
所有这些应用都依赖于定义现代 GPU 的并行架构。单个 GPU 可以在实时渲染复杂的 3D 场景的同时,通过一次处理多张图像来训练 CNN。
什么是 TPU?
谷歌于 2016 年推出了一种专为机器学习(ML)设计的专用芯片,称为张量处理器(TPUs)。TPU 专注于构成神经网络基础的张量运算,以提供卓越的性能。即将在 2025 年推出的 Ironwood(第七代)TPU 将优化与推理任务相关的速度(比前代快 4 倍)。
TPU 主要通过 Google Cloud 提供,并与 TensorFlow 和 JAX 兼容。TPU 在设计时就高度关注能源效率,这使得它们能够大规模部署,处理数千个芯片运行的巨型 AI 工作负载。谷歌将其描述为专为 AI 计算而设计,这也解释了为什么它们比 CPU 或 GPU 更适合深度学习。
架构概览
TPU 架构通过采用脉动阵列(Systolic Array)配置,为矩阵乘法提供了高效的通信,从而最大限度地减少了张量计算的内存延迟。TPU 架构专为深度学习而设计,因此,相较于其他架构,TPU 具有以下优势:
-
脉动阵列(Systolic Array): 每个 TPU 芯片都包含几个大型矩阵乘法单元,它们协同工作,以极快的速度同时执行大量的乘法和加法运算。例如,TPU v5 在每个芯片上使用 bfloat16 精度时,每秒可执行约 5500 亿次以上的浮点运算。 -
高带宽内存(HBM)和片上暂存器: 每个 TPU 都拥有大量的超高速内存,这些内存紧邻计算单元,最大限度地减少了张量运算访问权重和数据所需的时间。数据经常从 TPU 的暂存器(VMEM)移动到矩阵乘法单元,以实现最优且连续的处理。 -
低精度优化: TPU 利用 bfloat16 或 INT8 等低精度数字格式来创造更高的吞吐量,同时与高精度数字格式相比,对准确性的影响极小。此外,TPU 每瓦功率执行的操作次数也高于其他架构。
在充分利用 TPU 高密度线性代数能力并以最小开销处理大型张量的工作负载中,TPU 在许多情况下可以超越 GPU。

TPU 的应用
TPU 被用于处理大多数专注于推理的 AI 工作负载,并利用大规模生产的优势来应对 Google 搜索、推荐系统等任务。开发者也可以将多个工作负载放在一个 TPU 上(这是一种在云环境中进行经济高效扩展的方式)。
-
大型 TensorFlow 训练: TPU 专为训练庞大的 TensorFlow 模型而构建,这也是谷歌处理其大部分自身工作负载的方式。 -
训练谷歌规模的模型: 它们为像 Gemini 和 PaLM 这样需要巨大计算能力的大型系统提供动力。 -
更快的批处理作业: 对于大数据集和固定模型设计,TPU 处理批处理作业的速度比通用硬件快得多。 -
高效的大规模推理: TPU 高效地处理重复的张量运算,使其成为在生产环境中服务超大型模型的理想选择。 -
TPU Pods 用于巨型模型: 学术界和工业界使用 TPU Pods 将训练分散到许多单元上,从而缩短了训练巨型研究模型所需的时间。
总而言之,TPU 在 AI 工作负载中表现出色,尤其是在跨多个服务器训练或部署大型深度学习模型时。它们不适合 3D 图形渲染或传统的 HPC 等任务,而是专注于高吞吐量的深度神经网络工作负载。
GPU vs TPU
在为 AI/ML 基础设施选择 GPU 或 TPU 时,需要权衡利弊。GPU 可以服务于广泛的应用范围,而 TPU 则是专门为以高效率运行深度学习工作负载而设计的。
在 2025 年,这种能力的差异将通过基准测试变得更加明显,这些测试确立了 GPU 和 TPU 的重要特性。
1. 性能对比
GPU 与 TPU 的主要区别主要体现在性能方面。例如:
-
GPU 在许多模型的大规模训练中表现出色,但在实施深度学习推理时同样表现优异。 -
TPU 系统在基于张量的工作负载上具有显著更快的速度和更高的吞吐量。 -
根据 2025 年 MLPerf 基准测试,在不同类型的工作负载下,GPU 和 TPU 之间存在巨大差异。
2. 定价与成本效益
部署位置和规模是确定每个平台的初始成本和持续运营费用的额外标准。
-
在小型团队规模下,基于 GPU 的部署初始成本低于 TPU 单元。 -
然而,在大型企业级别,TPU 单元很快就会比 GPU 解决方案更具成本效益。云部署反映了这种差异。
3. 灵活性与生态系统
GPU 的一个关键优势在于其极高的灵活性。
-
GPU 在灵活性方面脱颖而出,与 PyTorch 和 TensorFlow 等主流深度学习库无缝协作,并允许开发者使用 CUDA 进行自定义实验。 -
TPU 则与谷歌的生态系统紧密集成,与 TensorFlow 表现最佳,但与其他框架配合使用时通常需要额外的编程工作。
4. 可扩展性
快速构建超大规模 AI 系统并有效维护,是使用 GPU 和 TPU 的单节点和多节点 AI 网络成功的关键。
-
GPU 可通过 NVLink 轻松扩展,允许数百个系统组合成一个基于 GPU 的基础设施,并根据需要进一步扩展。 -
TPU 也可以扩展到极其庞大的系统,在一个位置连接数千个 TPU 芯片。Ironwood 系统为客户提供了无缝部署其 E 级推理或超大规模、万亿参数模型的能力。
|
|
|
|
|---|---|---|
| 设计用途 |
|
|
| 计算单元/架构 |
|
|
| 最佳任务 |
|
超大规模神经网络训练和推理 |
| 框架支持 |
|
|
| 可用性 |
|
仅限 Google Cloud 和 Colab |
| 能源效率 |
|
|
| 可扩展性 |
|
|
| 生态系统与工具 |
|
|
| 何时使用 |
|
超大型模型
|
| 优缺点 | 优点:
|
优点:
|
GPU 和 TPU 都可以作为 AI 系统的强大引擎,但这两类硬件的应用和使用方式存在本质区别。
GPU 的灵活性使其在图形模拟、高性能计算(HPC)、科研等众多应用中能发挥出最大的性能。
TPU 则恰恰相反,它们是为特定类型的人工智能(主要是深度学习)而设计的。它们提供高速度和效率,主要服务于谷歌的 TensorFlow 深度学习框架。

