AI算力冷知识 | No.77：大模型的“记忆”，是显存，不是硬盘？- 大数跨境

首页

AI算力冷知识 | No.77：大模型的“记忆”，是显存，不是硬盘？

AI算力那些事儿

2026-01-01

📌 阅读时间：3分钟
📌 适合人群：AI小白、模型开发者、算力运维人员、投资人

大模型运行时核心权重并不是“保存在硬盘里”用的时候去调，而是要一次性加载进GPU的“显存”里。

所以你硬盘再大也没用，显存不够，模型就启动不了！

💡01｜“模型记忆”装在哪？

很多人搞混了：

“我有 2TB SSD，模型才 100GB，为什么还说我算力不够？”

关键在于：硬盘是存模型的仓库，显存才是模型“运行时”的大脑。

举个例子：

你买了一本厚书，放在书架上（SSD）
但你要看书学习时，必须把它拿到书桌上（GPU显存）
如果书太厚、书桌太小，你根本“摊不开”，自然没法看！

🔍02｜什么是“权重加载”？

当你运行一个模型时，它要经历如下步骤：

模型权重保存在硬盘或云对象存储

↓

加载权重 → 拷贝进主内存

↓

拷贝进GPU显存（tensor格式）

↓

启动模型推理或训练

如果模型权重是 100GB，而你只有 40GB 显存？很遗憾，直接报错：Out of Memory（OOM）。

🚀03｜显存不只是“内存”，它是AI“油箱”

类型	功能	大小	位置
硬盘（SSD）	存档	大	慢、远
内存（RAM）	过渡	中	快
显存（GPU RAM）	运算现场	小	超快、超贵

显存是为 GPU 专门配置的“近场缓存”，带宽高达 TB/s，才支撑起大模型每秒亿级的参数乘法。

🤯04｜那模型大了怎么办？

如果模型比显存大，有这些常见做法：

✅ 方法一：多张GPU并行跑

典型场景：GPT-3、GPT-4 训练
将模型分片，放进多张 GPU 显存中

✅ 方法二：张量并行 + 数据并行

动态切分 tensor，让多个显存协作计算

✅ 方法三：模型压缩 / 蒸馏 / 量化

把模型参数从 FP32 转换为 INT8/FP16 等，显存占用减小

✅ 方法四：ZeRO-offload / CPU-offload

一部分权重只在用到时从 CPU RAM/硬盘“调入”，牺牲速度

📌05｜实用建议（利他区）：

🌟 想跑模型，第一问不是“模型多大”，而是“我有多少显存？”

🌟 想租卡训练？不要只看 GPU 型号，还要看“单卡显存是否够用”

🌟 跑不动模型？试试 LoRA、量化、分布式加载等策略

🌟 云平台上的“弹性显存实例”，记得确认是否支持“权重切片”

🔍冷知识时间：

一张 H100 有 80GB 显存，可原生跑 70亿参数模型
训练 GPT-3（175B）需显存近 1.2TB+，需数百张卡并行
Hugging Face 的 Transformers 框架里 from_pretrained() 就是在“加载权重进显存”

🧠 总结：

大模型训练和推理时的“记忆力”，看的是显存，不是硬盘！

硬盘能“存”，但显存才能“算”。

所以，显存大小决定了你能跑多大的模型，带宽决定了你能跑多快的模型。

作者声明：本微信公众号（以下简称“本号”）发布的所有内容，包括但不限于文字、图片、视频、音频等，仅供参考和交流之用，不构成任何投资、法律、医疗或其他专业建议。用户在依据本号内容作出任何决定或采取任何行动前，应自行判断并咨询相关专业人士。

1、本号部分内容来源于网络或其他公开渠道，我们尽力确保信息的准确性和可靠性，但不对其真实性、完整性或及时性作出任何明示或暗示的保证。

2、对于转载和参考内容，我们会在合理范围内注明出处。如有版权问题，请相关权利人及时联系我们，我们将尽快处理。

3、用户因使用本号内容而导致的任何直接或间接损失，本号及其运营团队不承担任何责任。

-END-

加VIP交流群、资源分享、业务咨询、商务合作等相关事宜，

请加主理人微信联系！

【声明】内容源于网络

AI算力那些事儿

数字经济服务者、AI算力产业资讯个人IP，聚焦人工智能、算力、低空领域的前沿趋势、政策布局、深度科普、行业洞察和干货实践，用故事化的语言、深度的解析，带你看透技术背后的商业逻辑与未来趋势。

内容 725

粉丝 0

AI算力那些事儿数字经济服务者、AI算力产业资讯个人IP，聚焦人工智能、算力、低空领域的前沿趋势、政策布局、深度科普、行业洞察和干货实践，用故事化的语言、深度的解析，带你看透技术背后的商业逻辑与未来趋势。

总阅读1.1k

粉丝0

内容725