CPU、GPU、TPU 有什么区别
一、CPU 架构深入解析(复杂控制 + 少数强核心)
CPU 的设计目标是:
➡️ 低延迟、高灵活性、处理复杂逻辑
1、核心特征:少数强大核心(4–64)
每个核心包含:
-
• 复杂的指令调度单元(乱序执行 OoO) -
• 大而多级的缓存(L1/L2/L3) -
• 分支预测器 -
• 超标量流水线(wide pipelines) -
• 高频时钟(3–5 GHz)
2️、 CPU 架构重点:实现“聪明的核心”
CPU 重硬件智能:
-
• 分支预测:预测下一条指令位置 -
• 指令重排:乱序执行优化流水线利用率 -
• 大缓存:更靠近数据,减少内存访问延迟 -
• 复杂控制逻辑:可以快速切换任务、处理中断
本质:
CPU 用大量晶体管打造强大的控制逻辑,让少数核心超级聪明。
因此它适合:
-
• 操作系统、编译器 -
• 数据库 -
• 串行、条件判断重的任务
二、GPU 架构深入解析(简单控制 + 大量轻量核心)
GPU 的设计目标:
➡️ 最大化吞吐量,用海量并行计算堆叠性能
1、 核心特征:成千上万的 ALU(算术逻辑单元)
GPU 架构核心是:
-
• SM(Streaming Multiprocessor)流式多处理器 -
• 每个 SM 里包含许多: -
• CUDA core / ALU -
• Tensor core(新版) -
• Warp 执行单元
2、 GPU 如何做到极高并行?Warp 架构
-
• GPU 将 32 个线程组成一个 Warp -
• 所有线程执行同一条指令(SIMT / SIMD 原理)
➤ GPU 通俗理解:
一群工人同时干同一件事 → 超高吞吐量
但若每个工人都要干不一样的活(分支多),效率立刻下降。
3、 GPU 架构 vs CPU 架构的本质不同
本质:
GPU 用大量晶体管堆积“计算单元”,不靠复杂控制逻辑,靠数量取胜。
适合:
-
• 矩阵运算 -
• 图形渲染 -
• 深度学习训练
三、TPU 架构深入解释(专为矩阵乘法而生)
TPU = Google 为深度学习定制的 ASIC(专用芯片)
设计目标:
➡️ 把矩阵乘法做到极致
1、 核心:Systolic Array(脉动阵列)
这是 TPU 的灵魂。
✔ 什么是 Systolic Array?
一种专门为 矩阵乘法 设计的固定硬件阵列:
数据流 →
┌──┬──┬──┬──┬──┐
│PE│PE│PE│PE│PE│ ↓
├──┼──┼──┼──┼──┤ 数据流
│PE│PE│PE│PE│PE│ →
├──┼──┼──┼──┼──┤
│PE│PE│PE│PE│PE│
└──┴──┴──┴──┴──┘
-
• PE(Processing Element)是“处理单元” -
• 数据像心跳一样(systolic = 心脏收缩)在阵列中流动 -
• 每个 PE 执行:乘法 + 累加
✔ 这种结构的优势
-
• 完全为矩阵乘法定制 -
• 尽可能减少内存访问,数据在阵列内流动 -
• 功耗低,效率极高
2、 TPU vs GPU:为什么 TPU 更快?
本质:
TPU 是“为了神经网络专门造的计算器”,不做别的。
适合:
-
• 大规模训练(特别是 TensorFlow) -
• 推理集群(Google Cloud) -
• 超大模型(如 Gemini、PaLM)
三者核心区别总结表

