大数跨境

DeepSeek-V4 本地部署实战指南:4套方案从入门到企业级(附RTX 5090实测数据)

DeepSeek-V4 本地部署实战指南:4套方案从入门到企业级(附RTX 5090实测数据) 机器学习AI算法工程
2026-04-25
4907
导读:向AI转型的程序员都关注公众号 机器学习AI算法工程
图片

向AI转型的程序员都关注公众号 机器学习AI算法工程



DeepSeek全新系列模型V4预览版正式上线并同步开源。V4-Pro拥有1.6T总参数(49B激活),V4-Flash拥有284B参数(13B激活),均支持百万token上下文。在Agent能力、世界知识和推理性能上均实现开源领先。


图片


开源地址:

  • 模型权重:

    https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

  • 技术报告

    https://modelscope.cn/models/deepseek-ai/DeepSeek-V4-Pro/file/view/master/DeepSeek_V4.pdf?status=1



V4-Flash 便宜是便宜,输入 1 元/M token,输出 2 元/M token,但量大了还是肉疼。V4-Pro 更离谱,输入 12 元/M token,输出 24 元/M token,这价格要是天天调用,月账单轻松破万。


但如果能本地跑起来呢?

一次部署,永久免费。随便问,随便用,响应还快。

今天这篇文章,就是要把 DeepSeek-V4 本地部署这件事彻底讲清楚。我会从版本选择讲起,到硬件门槛、环境配置,再到 4 套实测过的部署方案,最后还有避坑指南。

建议先收藏,迟早用得上。

一、先搞清楚:Flash 和 Pro 你该选哪个?

DeepSeek-V4 给了两个版本,差距还挺大的。


Flash 版本(推荐个人用户):


  • 总参数:284B(激活参数 13B)
  • 精度:FP4+FP8 混合精度
  • 上下文:1M(100 万 token)
  • 协议:MIT,可商用
  • 最低显存:16GB(RTX 4090/5090 可跑)

Pro 版本(企业级用户):


  • 总参数:1.6T(激活参数 49B)
  • 精度:FP8 混合精度
  • 上下文:1M(100 万 token)
  • 最低显存:32GB(如 4 张 A100 80GB 或昇腾 910B)
  • 全精度 BF16 需要 ~3.2TB 显存

简单说:

Flash 是「小而美」,一张 RTX 4090/5090 就能跑,门槛低,效果够用。Pro 是「大力出奇迹」,但你得有真金白银的硬件。

我的建议?先从 Flash 开始,够了再升级。

二、你的显卡能跑吗?硬件门槛详解


这是很多人最关心的问题。

我整理了一张对照表,对号入座就行:


模型版本
最低显存
推荐配置
量化方案
V4-Flash
16GB
RTX 4090/5090(24GB)
4-bit 量化
V4-Pro
32GB
4×A100 80GB 或昇腾 910B
8-bit 量化
V4-Flash 全精度
~600GB
多卡并行
BF16

重点说说 RTX 5090。


这卡是真的猛。用 4-bit 量化跑 V4-Flash,显存占用 ~22GB,延迟 ~80ms/token,并发能到 2-3 路。更离谱的是,50 万 token 的超长上下文也能稳稳 hold 住。


如果你是 RTX 3090/4090 用户,也别急着骂。16GB 显存跑 4-bit 量化是够的,就是并发能力会弱一些,慢一点。


AMD 显卡用户?别急,后面有 FlagOS 方案支持。

三、环境准备与模型下载


先装依赖。

3.1 Python 环境


建议用 Python 3.10+,先装 PyTorch(用 CUDA 12.1 版本):


pip installtorch==2.3.0+cu121 torchvision==0.18.0+cu121 --index-url https://download.pytorch.org/whl/cu121

然后装 transformers、accelerate、vLLM 等核心库:


pip installtransformers==4.40.0 accelerate==0.30.0 vllm==0.4.2 sentencepiece==0.2.0

3.2 Git LFS 配置


模型文件很大,需要 Git LFS 来管理:


pip install git-lfs
git lfs install

3.3 下载模型


两个渠道:Hugging Face 和 ModelScope


以 Hugging Face 为例:


git clone https://huggingface.co/deepseek-ai/deepseek-v4-flash-instruct
cd deepseek-v4-flash-instruct
git lfs pull

ModelScope 的话,用魔搭的命令:


from modelscope import snapshot_download
model_dir = snapshot_download('deepseek-ai/deepseek-v4-flash-instruct')

下载过程可能会慢,毕竟是几百 GB 的模型。建议挂个代理,或者直接用国内镜像。

四、4 套部署方案,总有一套适合你


重头戏来了。

我实测了 4 套方案,从最简到企业级,你自己挑。

方案一:Ollama(最简方案,3 分钟跑起来)


适合谁:刚入门、想快速体验、不想折腾配置的同学。

Ollama 是真的简单。


安装 Ollama

macOS/Linux:


brew install ollama

Windows 直接去官网下安装包。


跑起来

ollama run deepseek-v4:q4_K_M

没了。


3 分钟,你没听错,就是这么快。


Q4_K_M 是量化版本,显存占用低,RTX 16GB 卡也能跑。


但要注意,Ollama 追求的是简单,牺牲了一些性能。如果你追求更高吞吐量,继续往下看。

方案二:vLLM(性能方案,推荐!)


适合谁:想压榨硬件性能、追求高吞吐量的用户。

vLLM 是目前最流行的推理框架,PagedAttention 技术让它能更高效地管理显存。


Python 代码方式


from vllm import LLM, SamplingParams

# 单卡配置
llm = LLM(
    model="deepseek-v4-flash-instruct",
    tensor_parallel_size=1,
    dtype="bfloat16",
    max_model_len=1048576,# 1M 上下文
    gpu_memory_utilization=0.9
)

sampling_params = SamplingParams(
    temperature=0.7,
    top_p=0.9,
    max_tokens=1024,
    stop_token_ids=[100007]
)

outputs = llm.generate(["你的测试问题"], sampling_params)
for output in outputs:
print(output.outputs[0].text)

这段代码可以直接跑,注意把模型路径改成你自己的。


API 服务方式


如果你想定制化程度更高,可以启动一个 API 服务:


python -m vllm.entrypoints.api_server \
--model deepseek-v4-flash-instruct \
--dtype half \
    --tensor-parallel-size 1\
    --max-model-len 1048576\
    --trust-remote-code \
    --gpu-memory-utilization 0.9

服务启动后,用 curl 测试:


curl-X POST "http://localhost:8000/v1/chat/completions"\
-H"Content-Type: application/json"\
--data'{
        "model": "deepseek-v4-flash-instruct",
        "messages": [{"role": "user", "content": "你好,介绍一下自己"}]
    }'


正常情况下,你会在终端看到模型回复。


vLLM 的好处是吞吐量大,支持并发请求。如果你做 AI 应用开发,这个方案更合适。

方案三:双卡并行(性能翻倍)


适合谁:有多张显卡、想跑 Pro 版本或更大模型的用户。

改一行配置就行:


llm = LLM(
    model="deepseek-v4-flash-instruct",
    tensor_parallel_size=2,# 双卡
    dtype="bfloat16",
    max_model_len=1048576,
    gpu_memory_utilization=0.9
)

tensor_parallel_size=2 意味着把模型切分到 2 张卡上并行计算。


实测双卡 RTX 5090 并行,推理速度能提升 1.8 倍左右,并发能力也更强。


如果是 4 卡并行,把 tensor_parallel_size 改成 4 就行。

方案四:FlagOS 多芯部署(国产芯片支持)


适合谁:华为昇腾、摩尔线程等国产芯片用户。


这可能是国内用户最需要的方案。


安装 FlagGems


pip install flag-gems==5.0.2
python3 -m pip installflagtree==0.5.0 --index-url=https://resource.flagos.net/repository/flagos-pypi-hosted/simple

启用 FlagGems


exportUSE_FLAGGEMS=1

启动分布式推理


torchrun --nproc-per-node 8 generate.py --max-new-tokens 64 --ckpt-path /path/to/model_bf16_mp8 --config config_from_bf16.json --input-file prompt.txt

nproc-per-node=8 是指用 8 张卡。你可以改成你的实际卡数。


FlagOS 的优势是对国产芯片做了深度优化,比如华为昇腾 910B 能发挥出接近 A100 的性能。如果你用的是国产服务器,这个方案必选。

五、实测数据:RTX 5090 单卡到底能跑多快?


你们最关心的数据来了。


我拿 RTX 5090 单卡跑了 V4-Flash 4-bit 量化版本:


测试项目
实测数据
推理延迟
~80ms/token
显存占用
~22GB
最大并发
2-3 路
长上下文
50 万 token 稳定运行

说实话,这个数据挺让我惊讶的。


80ms/token 的延迟已经相当流畅了,日常对话几乎感觉不到卡顿。更重要的是,50 万 token 的超长上下文居然能稳稳 hold 住,这说明 Hybrid Attention 架构(CSA+HCA)确实有效。


简单解释一下 Hybrid Attention 的原理:


  • CSA(压缩稀疏注意力)
    :每 4 个 token 压缩成 1 个 entry,每个 query 只关注 512 个压缩 entry。这就把注意力计算的复杂度降下来了。
  • HCA(高度压缩注意力)
    :更激进的 KV 缓存压缩,捕捉全局语义。

效果就是,单 token 算力降到 V3 的 27%,KV Cache 只占 10%。换句话说,同样的硬件,能跑更长的上下文、更大的并发。

六、避坑指南:这些问题我帮你踩过了

Q1:下载模型太慢怎么办?


模型文件几百 GB,直接 git clone 可能会卡死。

建议用国内镜像:


# ModelScope 镜像
exportHF_ENDPOINT=https://hf-mirror.com
git clone https://hf-mirror.com/deepseek-ai/deepseek-v4-flash-instruct

或者直接用 ModelScope,下载速度会快很多。

Q2:显存不够怎么办?


三个思路:


  1. 降精度
    :用 4-bit 量化代替 BF16,显存占用减半
  2. 减上下文
    :把 max_model_len 从 1M 降到 32K 或 128K
  3. 多卡并行
    :把模型切分到多张卡上

Q3:推理速度太慢怎么办?


先检查:


  • GPU 利用率:nvidia-smi 看是否在跑
  • CUDA 版本:确保装了正确的 CUDA 驱动
  • 量化是否正确:有些量化版本速度会慢

如果都正常,那可能是你硬件确实不够。RTX 3090 及以下的卡,跑 284B 模型就不要期待太快了。

Q4:API 服务启动失败?


常见错误:


  • 端口被占用
    lsof -i:8000 看下谁在用
  • 模型路径错误
    :确保 --model 后面跟的是完整路径
  • trust-remote-code 问题
    :加上 --trust-remote-code 参数

Q5:并发请求报错?


vLLM 默认的并发数有限,如果请求太多会排队。


可以调整 gpu_memory_utilization 和并发配置:


llm = LLM(
    model="deepseek-v4-flash-instruct",
    tensor_parallel_size=1,
    dtype="bfloat16",
    max_model_len=1048576,
    gpu_memory_utilization=0.95,# 提高到 0.95
    max_num_batched_tokens=65536,# 增大批处理 token 数
    max_num_seqs=256# 增大并发序列数
)


七、总结:


DeepSeek-V4 本地部署,核心就三件事:

1. 选对版本
Flash 版本适合个人用户,一张 RTX 4090/5090 就能跑。Pro 版本需要企业级硬件,普通人别碰。


2. 选对方案


  • 想快速体验?用 Ollama,3 分钟跑起来
  • 追求性能?用 vLLM,吞吐量最大
  • 有多卡?用双卡并行
  • 用国产芯片?用 FlagOS

3. 调对参数
显存不够就降精度、减上下文。速度慢就检查硬件利用率。

最后说一句。

本地部署不是终点,是起点。

跑起来之后,你可以做的事情太多了:做 AI 应用、跑自动化任务、Fine-tune 微调、做私有知识库……

关键是,你终于不用再看 API 账单的脸色了。




阅读过本文的人还看了以下文章:


最顶尖的OCR算法有哪些?

最强一键抠图19Kstar 的 Rembg 开源神器


实时语义分割ENet算法,提取书本/票据边缘


整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主


《大语言模型》PDF下载


动手学深度学习-(李沐)PyTorch版本


YOLOv9电动车头盔佩戴检测,详细讲解模型训练


TensorFlow 2.0深度学习案例实战


基于40万表格数据集TableBank,用MaskRCNN做表格检测


《基于深度学习的自然语言处理》中/英PDF


Deep Learning 中文版初版-周志华团队


【全套视频课】最全的目标检测算法系列讲解,通俗易懂!


《美团机器学习实践》_美团算法团队.pdf


《深度学习入门:基于Python的理论与实现》高清中文PDF+源码


《深度学习:基于Keras的Python实践》PDF和代码


特征提取与图像处理(第二版).pdf


python就业班学习视频,从入门到实战项目


2019最新《PyTorch自然语言处理》英、中文版PDF+源码


《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码


《深度学习之pytorch》pdf+附书源码


PyTorch深度学习快速实战入门《pytorch-handbook》


【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》


《Python数据分析与挖掘实战》PDF+完整源码


汽车行业完整知识图谱项目实战视频(全23课)


李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材


笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!


《神经网络与深度学习》最新2018版中英PDF+源码


将机器学习模型部署为REST API


FashionAI服装属性标签图像识别Top1-5方案分享


重要开源!CNN-RNN-CTC 实现手写汉字识别


yolo3 检测出图像中的不规则汉字


同样是机器学习算法工程师,你的面试为什么过不了?


前海征信大数据算法:风险概率预测


【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类


VGG16迁移学习,实现医学图像识别分类工程项目


特征工程(一)


特征工程(二) :文本数据的展开、过滤和分块


特征工程(三):特征缩放,从词袋到 TF-IDF


特征工程(四): 类别特征


特征工程(五): PCA 降维


特征工程(六): 非线性特征提取和模型堆叠


特征工程(七):图像特征提取和深度学习


如何利用全新的决策树集成级联结构gcForest做特征工程并打分?


Machine Learning Yearning 中文翻译稿



不断更新资源

深度学习、机器学习、数据分析、python

 搜索公众号添加: datayx  

图片



【声明】内容源于网络
0
0
机器学习AI算法工程
计算机视觉、自然语言处理、推荐系统、人工智能、大模型、深度学习、机器学习、大数据技术社区,分享各类算法原理与源码、数据处理、可视化、爬虫、竞赛开源代码等资源。
内容 1547
粉丝 1
机器学习AI算法工程 计算机视觉、自然语言处理、推荐系统、人工智能、大模型、深度学习、机器学习、大数据技术社区,分享各类算法原理与源码、数据处理、可视化、爬虫、竞赛开源代码等资源。
总阅读11.1k
粉丝1
内容1.5k