大数跨境
0
0

AI算力冷知识 | No.77:大模型的“记忆”,是显存,不是硬盘?

AI算力冷知识 | No.77:大模型的“记忆”,是显存,不是硬盘? AI算力那些事儿
2026-01-01
7

📌 阅读时间:3分钟
📌 适合人群:AI小白、模型开发者、算力运维人员、投资人

大模型运行时核心权重并不是“保存在硬盘里”用的时候去调,而是要一次性加载进GPU的“显存”里

所以你硬盘再大也没用,显存不够,模型就启动不了!


💡01|“模型记忆”装在哪?

很多人搞混了:

“我有 2TB SSD,模型才 100GB,为什么还说我算力不够?”

关键在于:硬盘是存模型的仓库,显存才是模型“运行时”的大脑。

举个例子:

你买了一本厚书,放在书架上(SSD)
但你要看书学习时,必须把它拿到书桌上(GPU显存)
如果书太厚、书桌太小,你根本“摊不开”,自然没法看!


🔍02|什么是“权重加载”?

当你运行一个模型时,它要经历如下步骤:

模型权重保存在硬盘或云对象存储

     ↓

加载权重 → 拷贝进主内存

     ↓

拷贝进GPU显存(tensor格式)

     ↓

启动模型推理或训练

如果模型权重是 100GB,而你只有 40GB 显存?很遗憾,直接报错:Out of Memory(OOM)


🚀03|显存不只是“内存”,它是AI“油箱”

类型
功能
大小
位置
硬盘(SSD)
存档
慢、远
内存(RAM)
过渡
显存(GPU RAM)
运算现场
超快、超贵

显存是为 GPU 专门配置的“近场缓存”,带宽高达 TB/s,才支撑起大模型每秒亿级的参数乘法。


🤯04|那模型大了怎么办?

如果模型比显存大,有这些常见做法:

✅ 方法一:多张GPU并行跑

  • 典型场景:GPT-3、GPT-4 训练

  • 将模型分片,放进多张 GPU 显存中

✅ 方法二:张量并行 + 数据并行

  • 动态切分 tensor,让多个显存协作计算

✅ 方法三:模型压缩 / 蒸馏 / 量化

  • 把模型参数从 FP32 转换为 INT8/FP16 等,显存占用减小

✅ 方法四:ZeRO-offload / CPU-offload

  • 一部分权重只在用到时从 CPU RAM/硬盘“调入”,牺牲速度


📌05|实用建议(利他区):

🌟 想跑模型,第一问不是“模型多大”,而是“我有多少显存?”

🌟 想租卡训练?不要只看 GPU 型号,还要看“单卡显存是否够用”

🌟 跑不动模型?试试 LoRA、量化、分布式加载等策略

🌟 云平台上的“弹性显存实例”,记得确认是否支持“权重切片”


🔍冷知识时间:

  • 一张 H100 有 80GB 显存,可原生跑 70亿参数模型

  • 训练 GPT-3(175B)需显存近 1.2TB+,需数百张卡并行

  • Hugging Face 的 Transformers 框架里 from_pretrained() 就是在“加载权重进显存”


🧠 总结:

大模型训练和推理时的“记忆力”,看的是显存,不是硬盘

硬盘能“存”,但显存才能“算”。

所以,显存大小决定了你能跑多大的模型,带宽决定了你能跑多快的模型

作者声明:本微信公众号(以下简称“本号”)发布的所有内容,包括但不限于文字、图片、视频、音频等,仅供参考和交流之用,不构成任何投资、法律、医疗或其他专业建议。用户在依据本号内容作出任何决定或采取任何行动前,应自行判断并咨询相关专业人士。

1、本号部分内容来源于网络或其他公开渠道,我们尽力确保信息的准确性和可靠性,但不对其真实性、完整性或及时性作出任何明示或暗示的保证。

2、对于转载和参考内容,我们会在合理范围内注明出处。如有版权问题,请相关权利人及时联系我们,我们将尽快处理。

3、用户因使用本号内容而导致的任何直接或间接损失,本号及其运营团队不承担任何责任。

-END-

加VIP交流群、资源分享、业务咨询、商务合作等相关事宜,
请加主理人微信联系!


【声明】内容源于网络
0
0
AI算力那些事儿
数字经济服务者、AI算力产业资讯个人IP,聚焦人工智能、算力、低空领域的前沿趋势、政策布局、深度科普、行业洞察和干货实践,用故事化的语言、深度的解析,带你看透技术背后的商业逻辑与未来趋势。
内容 725
粉丝 0
AI算力那些事儿 数字经济服务者、AI算力产业资讯个人IP,聚焦人工智能、算力、低空领域的前沿趋势、政策布局、深度科普、行业洞察和干货实践,用故事化的语言、深度的解析,带你看透技术背后的商业逻辑与未来趋势。
总阅读1.1k
粉丝0
内容725