
前言
在 AI 浪潮中,调用云端 API 虽方便,但存在隐私泄露、费用累积、网络依赖等问题。Ollama 让你在本地消费级硬件上跑起大模型——数据不出本地,响应无延迟,零 API 费用。本文将详细介绍 Ollama 的安装、模型选择、硬件配置,以及从命令行到 API 调用的完整使用方法。
一、Ollama 是什么
Ollama 是一款开源的本地大模型运行框架,主打一键启动:下载即用,无需配置 Docker、编写推理代码或管理复杂依赖。它支持:
- Llama 4
(Scout 17B / Maverick 104B)、Llama 3.2(1B / 1.5B / 3B / 7B / 14B)、Llama 3.1(8B / 70B / 405B) - Qwen 3.5
(1.5B / 3B / 7B / 8B / 14B / 32B 等)、Qwen 3.6(最新版本) - Mistral
(7B)、Mixtral(8x7B / 8x22B) - DeepSeek R1
(1.5B / 7B / 14B / 32B / 70B / 671B)、DeepSeek Coder(1.3B / 6.7B) - Phi-4
(Mini 3.8B / Medium 14B)、Gemma 3、Yi 等主流开源模型 - 多模态
:LLaVA(视觉理解)、Qwen2-VL、Qwen2.5-VL 等
底层封装了 llama.cpp 的高效推理,支持 GPU 加速(CUDA / Metal / Vulkan),也支持纯 CPU 推理。
版本提示:AI 模型迭代迅速,截至 2026 年 4 月,Qwen 系列已更新至 3.6,Llama 系列已有 Llama 4。如需使用最新版本,可通过
ollama run qwen3.6:7b或ollama run llama4:maverick直接拉取。
二、硬件配置与模型选择
2026年4月实测核实:以下配置建议基于主流量化模型(Q4_K_M),实际需求会因模型版本和量化精度有所浮动。
2.1 硬件档位参考
|
|
|
|
|
|
|---|---|---|---|---|
| 入门级 |
|
|
|
|
| 主流级 |
|
|
|
|
| 进阶级 |
|
|
|
|
| 高端级 |
|
|
|
|
| 发烧级 |
|
|
|
|
内存估算经验公式:运行一个 N B 参数模型,FP16 精度约需 2N GB 显存,Q4_K_M 量化后约需 0.5N–0.75N GB 显存。
2.2 显卡算力参考
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
RTX 3090 24GB 特别说明:对于 34B @ Q4 模型,24GB 显存处于临界状态,开启长上下文(8192+ tokens)时容易触发 OOM。建议同时开启
--num-ctx 4096限制上下文长度,或优先选择 RTX 4090。
2.3 量化级别说明
Ollama 下载的模型默认已量化,常见后缀含义:
|
|
|
|
|
|---|---|---|---|
Q4_K_M |
|
|
|
Q5_K_S |
|
|
|
Q8_0 |
|
|
|
三、安装
3.1 macOS
# 方法一:官网下载
# 访问 https://ollama.com/download 下载 .dmg 安装包
# 方法二:Homebrew
brew install ollama
macOS 需要 macOS 14 Sonoma 或更高版本。
验证安装:
ollama --version
3.2 Linux
# 一键安装脚本
curl -fsSL https://ollama.com/install.sh | sh
# 允许远程访问(可选,仅在内网环境使用)
export OLLAMA_HOST=0.0.0.0
安全警告:
OLLAMA_HOST=0.0.0.0会将 Ollama 服务暴露在网络中,且默认无任何身份验证。建议:
- 仅在内网环境中使用,不要在公网服务器上启用
- 如需远程访问,生产环境建议配合 VPN 或防火墙限制来源 IP
- 可通过环境变量设置凭证(Ollama 0.5+ 版本支持)
3.3 Windows
访问 ollama.com/download 下载安装包。推荐配合 WSL2 使用以获得最佳体验:
wsl --install
curl -fsSL https://ollama.com/install.sh | sh
3.4 Docker(可选)
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama:latest
docker exec -it ollama ollama run llama3.2
四、快速上手
4.1 第一个模型:Llama 3.2
ollama run llama3.2
首次运行会自动下载模型(约 2GB)。下载完成后进入交互式对话。按 /bye 或 Ctrl+D 退出。
4.2 其他常用模型
# 通义千问 Qwen3.5(推荐中文用户,2026年主流)
ollama run qwen3.5:7b
# DeepSeek R1(推理能力强,支持思维链)
ollama run deepseek-r1:7b
# 编程模型 CodeLlama
ollama run codellama:7b
# 视觉多模态模型
ollama run llava:7b
# Phi-4(微软小钢炮,Phi-3 的升级版)
ollama run phi4:3.8b# 轻量版
ollama run phi4:14b# 中杯版
# Qwen2.5-VL 多模态(图片理解 + 视频)
ollama run qwen2.5-vl:7b
# 直接从 Hugging Face 拉取模型(无需手动下载 GGUF)
ollama run hf.co/{username}/{repository}
# 示例:从 Hugging Face 直接运行 Qwen 模型
ollama run hf.co/Qwen/Qwen2.5-7B-Instruct
4.3 模型管理
ollama list # 查看已安装模型
ollama show llama3.2 # 查看模型详情
ollama rm llama3.2 # 删除模型
ollama pull qwen3.5 # 预下载模型
ollama cp llama3.2my-custom-llama # 复制自定义
五、API 服务
Ollama 自带 REST API,与 OpenAI API 格式兼容,可对接 LangChain、Dify、AnythingLLM 等应用。默认服务地址:http://localhost:11434
5.1 聊天补全接口
curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{
"model": "qwen3.5:7b",
"messages": [
{"role": "user", "content": "用 Python 写一个快速排序"}
],
"stream": false
}'
5.2 其他常用接口
# 模型列表
curl http://localhost:11434/api/tags
# 生成补全
curl http://localhost:11434/api/generate -d '{"model": "qwen3.5:7b", "prompt": "解释一下什么是 RAG", "stream": false}'
六、高级玩法
6.1 导入 HuggingFace 模型
Ollama 支持两种方式导入 GGUF 模型:
方式一:本地 Modelfile(原有方式)
# 编写 Modelfile
cat> Modelfile << 'EOF'
FROM ./qwen3.5-7b-instruct-q4_k_m.gguf
PARAMETER temperature 0.7
PARAMETER top_p 0.9
EOF
ollama create my-qwen -f Modelfile
ollama run my-qwen
方式二:直接从 Hugging Face 拉取(推荐,更简单)
# Ollama 支持直接运行 Hugging Face 上的 GGUF 模型
ollama run hf.co/{username}/{repository}
# 示例
ollama run hf.co/Qwen/Qwen2.5-7B-Instruct-GGUF
ollama run hf.co/TheBloke/Llama-2-7B-Chat-GGUF
6.2 常用运行参数
|
|
|
|
|---|---|---|
--num-ctx |
|
|
--temperature |
|
|
--top_p |
|
|
--num_gpu |
|
|
--keepalive |
|
|
6.3 多模态使用
ollama run llava:7b
>>>描述这张图片:/path/to/image.jpg
API 中传入 base64 图片:
curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{
"model": "llava:7b",
"messages": [{
"role": "user",
"content": [
{"type": "text", "text": "这张图里有什么?"},
{"type": "image_url", "image_url": {"url": "data:image/jpeg;base64,..."}}
]
}]
}'
6.4 新增实验性功能
文生图(实验性)
# Ollama 0.5+ 支持文生图(需要特定模型如 stable-diffusion)
ollama run sdxl
>>>画一只蓝色的猫
函数调用(Function Calling)
Ollama 支持函数调用,可与外部工具和 API 集成:
curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{
"model": "qwen3.5:7b",
"messages": [
{"role": "user", "content": "今天北京的天气怎么样?"}
],
"tools": [
{
"type": "function",
"function": {
"name": "get_weather",
"description": "获取指定城市的天气",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string", "description": "城市名称"}
},
"required": ["city"]
}
}
}
]
}'
七、常见问题
Q1:模型下载慢?
export HTTPS_PROXY = http://127.0.0.1:7890
ollama pull qwen3.5:7b
Q2:GPU 没有被使用?
ollama show llama3.2
journalctl -u ollama -f
nvidia-smi
Q3:内存/显存不足 (OOM)?
-
选择更小量化版本: ollama run qwen3.5:3b -
减小上下文: --num-ctx 2048 -
纯 CPU 运行: OLLAMA_NUM_GPU=0 ollama run ...
八、应用场景推荐
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
结语
Ollama 极大地降低了本地大模型的使用门槛——一个命令即可在本地跑起 GPT 级别的模型。无论你是想保护数据隐私、降低 API 成本,还是打造完全离线化的 AI 工作流,Ollama 都是值得优先尝试的方案。

