大数跨境
0
0

Ollama × 魔搭社区:超简单的大模型本地部署方案

Ollama × 魔搭社区:超简单的大模型本地部署方案 pyVideoTrans
2025-11-23
2
导读:零基础也能搞懂的大模型本地部署教程

点击蓝字


关注我们





随着大模型的不断发展,小参数模型的能力也在逐渐进步,就拿阿里最新开源的qwen3来说,其中有负责多模态的qwen3-vl系列和专为代码优化的qwen3-code系列等,这些不同使用场景中都有开源的小参数模型来方便我们本地部署。




那开源部署小模型的好处有什么呢?小天认为至少有以下优势:

  1. 数据私有化:数据不出网,适合政企、学习或医院等对隐私要求高的场景。

  2. 无网络依赖:离线即可使用,不依赖网络。

  3. 成本大幅下降:本地推理成本降到最低(电费),比调用大模型api要省钱太多了。

  4. 微调门槛低:小模型比起大模型所需的庞大的资源来说更适合微调,小模型微调之后在特定领域的能力可以媲美甚至超过大模型。微调可以理解为:用单独领域的数据集对模型再次训练使其专业化)



在应用落地方面,比如一些agent应用的落地,更离不开本地模型的部署,那说了这么多,如何正确的本地部署一个大模型呢?小天这里只推荐两种方法,这两种方法也是当下比较正确和常用的。


  1. 通过Ollama工具快捷部署

  2. 通过vLLM高性能推理框架部署


本篇文章先讲通过ollama部署本地模型的方法。


那在本地部署之前,我们应该先明白当前的电脑配置能够运行什么参数的模型,不然我们辛辛苦苦下载了几十G的模型文件后,发现根本跑不动就尴尬了



这里小天给大家一个可以快速估算的公式(最好自己电脑显存比这个结果多一些),如下图:



比如下面这个模型,部署它大概需要的显存的计算逻辑为:(8x8)/ 8x1.2=9.6G,也就是3060 12G显卡就可以跑,而且这个多模态的小模型能力也是相当不错。



这里涉及到两个概念:1.模型参数量 2.参数位宽。这俩个概念对于本地部署模型来说极其的重要,所以我觉得有必要说一下。


说之前大家要先了解一下魔搭社区,魔搭社区是阿里云的一个开源模型市场,里面有各种可下载的预训练好的模型以及数据集等,就像是中国版的Hugging Face。


链接:https://www.modelscope.cn/home


我们可以打开国内的模型市场——魔搭社区,然后搜索qwen3。



可以看到这些都有一个xxB的相关字样,比如30B、8B、235B这些字样,这些就是指得参数量,参数量越大就代表其掌握的知识越多,同时需要的显存越大!就比如图片上那个235B的模型需要的显存是500多G。这么大的显存,部署成本是相当大的。


我们点进去一个通义千问3-32B的模型中,在右侧部分可以看到这个模型的系谱,其中可以找到量化这一个分类。


点击这个分类,可以看到当前模型的量化版本,所谓量化其实就是指的是让模型尽量不变笨的情况下,节省部署显存。比如刚刚说的235B的模型经过4bit量化后,需要的显存就从500G降为了150G左右。



通过上图圈起来的部分,可以看到32B参数的qwen3文本对话模型的名称中包含,AWQ、FP8、GGUF、GPTQ,这些模型标识,对应的含义大家可以看下面这幅图



其中AWQ是阿里最推荐的量化方法,你可以看到AWQ量化后的模型下载量一般都是最多的,而GGUF的模型格式则是我们接下来要讲的ollama主要支持的模型格式。这里要注意ollama主要支持的是gguf格式,而vllm可以支持绝大多数的模型格式,所以企业应用中大都是使用vllm部署模型而ollama多用于个人应用。



下面这些参数就代表了模型 的位宽,比如FP8就是8bit的,GPTQ-Int4就是4bit的,同理GPTQ-Int8也是8bit的,INT4就是4bit的。默认的AWQ和GGUF方法则是4bit的位宽。


可能第一时间有点不好理解所以小天给大家总结一下,显存资源有限情况下,一般vLLM框架来说使用AWQ量化后即可,但如果你要使用ollama就用GGUF格式的



这时候大家根据上面的公式再次估算一次下面的模型需要的现存是多少呢?

模型的参数是8B,所以P就是8,GGUF默认ollama拉取的是4bit量化的版本,所以Q就是4,那么最后的显存所需大概就是4.8G。


ollama部署教程



我们拿装有N卡的windows来举例子,mac和linux的安装方法都差不多,大家可以查看官网,ollama的官网如下:

https://ollama.com/download


安装ollama之前你需要确保你的N卡有英伟达的cuda驱动,可以运行:nvidia-smi 来查看是否有类似下面的输出:



如果没有的话需要到官方下载最新的显卡驱动,没有gpu也没关系,因为ollama可以将模型推理放在cpu上。驱动下载地址:

https://www.nvidia.cn/software/nvidia-app/


随后打开ollama官网后,找到你要的版本点击下载即可。


你需要在C盘留足够的空间 因为ollama下载后是必须要安装在C盘的。当你安装好之后,可以输入:ollama -v 来查看是否安装成功,出现版本号就是安装成功了。


安装好了之后,我们需要设置一下模型文件默认存放的路径,不然你不设置他就把模型全放在c盘了。我们使用下面的命令设置ollama的模型安装路径(需要先创建对应文件夹)。

setx /M OLLAMA_MODELS "D:\Ollama\models"


或者通过ollama最新版的前端界面设置模型安装路径也可以。



注意运行之后需要关闭ollama后重新开一个命令行窗口。这样才会生效。


模型的安装也很简单,魔搭社区就支持ollama的命令行一键下载模型,所以我们找一个gguf格式的模型,复制这个网址。



然后运行下面的命令:



这里要注意的ollama run 后面的模型地址是我们刚刚复制的地址去掉http://以及 models/ 的结果哦(对于qwen来说)


在任务管理器中可以看到没有询问模型的cpu和gpu占用情况:


ai在推理的过程中可以看到cpu和gpu的使用度都明显地变高了。


除了在命令行通过ollama run进行模型提问之外,你可以直接在ollama的前端界面中对自己部署的本地模型进行提问,当然你也可以使用Open WebUI等工具作为本地模型的可视化界面:



如果你想让ollama下载不是默认4bit量化的模型的话,其实也很简单,还是在魔搭社区GGUF格式模型页面,可以看到不同的量化情况。

图片.png


比如我想让ollama拉去8bit量化的,就在模型拉取地址中加上:Q8_0即可,就像下面这样:

图片.png


拉取命令为:

ollama run modelscope.cn/Qwen/Qwen3-8B-GGUF:Q8_0


至此,你已在本地完成 AI 部署,实现离线推理。但 Ollama 还能更强大,比如部署多模态模型、通过接口开放模型服务、灵活控制 CPU/GPU 分层加载、调整上下文与批量参数等,但是没关系,一切都是要循序渐进的来,这些我们在后续的文章会说。


如果大家到这里成功的部署了自己的模型,请给小天点个小小的关注哦,后续会给大家推出更进一步的教程和应用方法。




【声明】内容源于网络
0
0
pyVideoTrans
专注分享 AI 语音大模型领域的最新动态与实用知识。 开源项目 pyVideoTrans 的开发者与维护者,致力于推动 AI 视频翻译的开源生态发展。
内容 350
粉丝 0
pyVideoTrans 专注分享 AI 语音大模型领域的最新动态与实用知识。 开源项目 pyVideoTrans 的开发者与维护者,致力于推动 AI 视频翻译的开源生态发展。
总阅读22
粉丝0
内容350