Ollama 本地大模型：安装配置与使用指南- 大数跨境

创见AI实验室

2026-04-21

导读：Ollama 让你在本地消费级硬件上跑起大模型——数据不出本地，响应无延迟，零 API 费用。本文将详细介绍 Ollama 的安装、模型选择、硬件配置，以及从命令行到 API 调用的完整使用方法。

前言

在 AI 浪潮中，调用云端 API 虽方便，但存在隐私泄露、费用累积、网络依赖等问题。Ollama 让你在本地消费级硬件上跑起大模型——数据不出本地，响应无延迟，零 API 费用。本文将详细介绍 Ollama 的安装、模型选择、硬件配置，以及从命令行到 API 调用的完整使用方法。

一、Ollama 是什么

Ollama 是一款开源的本地大模型运行框架，主打一键启动：下载即用，无需配置 Docker、编写推理代码或管理复杂依赖。它支持：

Llama 4
（Scout 17B / Maverick 104B）、Llama 3.2（1B / 1.5B / 3B / 7B / 14B）、Llama 3.1（8B / 70B / 405B）
Qwen 3.5
（1.5B / 3B / 7B / 8B / 14B / 32B 等）、Qwen 3.6（最新版本）
Mistral
（7B）、Mixtral（8x7B / 8x22B）
DeepSeek R1
（1.5B / 7B / 14B / 32B / 70B / 671B）、DeepSeek Coder（1.3B / 6.7B）
Phi-4
（Mini 3.8B / Medium 14B）、Gemma 3、Yi 等主流开源模型
多模态
：LLaVA（视觉理解）、Qwen2-VL、Qwen2.5-VL 等

底层封装了 llama.cpp 的高效推理，支持 GPU 加速（CUDA / Metal / Vulkan），也支持纯 CPU 推理。

版本提示：AI 模型迭代迅速，截至 2026 年 4 月，Qwen 系列已更新至 3.6，Llama 系列已有 Llama 4。如需使用最新版本，可通过 ollama run qwen3.6:7b 或 ollama run llama4:maverick 直接拉取。

二、硬件配置与模型选择

2026年4月实测核实：以下配置建议基于主流量化模型（Q4_K_M），实际需求会因模型版本和量化精度有所浮动。

2.1 硬件档位参考

档位	CPU	RAM	GPU	代表模型（Q4 量化）
入门级	4核+	16GB	无（纯CPU）	Qwen3.5-1.5B、Phi-4-mini（3.8B）
主流级	8核+	32GB	RTX 3060 12GB / M1 Pro	Llama3.2-7B、Qwen3.5-7B、Mistral-7B
进阶级	16核+	64GB	RTX 3090 24GB / RTX 4090 24GB	Qwen3.5-14B、DeepSeek-R1-14B、Llama3.2-14B
高端级	32核+	128GB	A100 40GB / RTX 4090×2	DeepSeek-R1-70B、Llama3.1-70B、Mixtral-8x22B
发烧级	64核+	256GB+	A100×2 或 H100	Llama4-104B、DeepSeek-R1-671B

内存估算经验公式：运行一个 N B 参数模型，FP16 精度约需 2N GB 显存，Q4_K_M 量化后约需 0.5N–0.75N GB 显存。

2.2 显卡算力参考

显卡	算力	适合模型规模	备注
RTX 3060 12GB	中等	7B @ Q4	性价比之选
RTX 3090 24GB	高	13B @ Q4、34B @ Q4（勉强）	已停产，可选二手；长文本推理建议谨慎
RTX 4090 24GB	极高	34B @ Q4、70B @ Q4	目前最强消费级
M1/M2/M3 Pro/Max	高	7B–70B @ Metal	Mac 用户首选，内存统一架构
A100 40GB	旗舰	70B @ Q4	数据中心卡，功耗大
H100 80GB	顶级	100B+	成本极高，不推荐个人

RTX 3090 24GB 特别说明：对于 34B @ Q4 模型，24GB 显存处于临界状态，开启长上下文（8192+ tokens）时容易触发 OOM。建议同时开启 --num-ctx 4096 限制上下文长度，或优先选择 RTX 4090。

2.3 量化级别说明

Ollama 下载的模型默认已量化，常见后缀含义：

后缀	量化方式	质量损失	显存占用
`Q4_K_M`	4bit 混合	极小（推荐）	约 50% 原始
`Q5_K_S`	5bit	几乎无损失	约 62% 原始
`Q8_0`	8bit	无损失	约 100% 原始

三、安装

3.1 macOS

# 方法一：官网下载
# 访问 https://ollama.com/download 下载 .dmg 安装包

# 方法二：Homebrew
brew install ollama

macOS 需要 macOS 14 Sonoma 或更高版本。

验证安装：

ollama --version

3.2 Linux

# 一键安装脚本
curl -fsSL https://ollama.com/install.sh | sh

# 允许远程访问（可选，仅在内网环境使用）
export OLLAMA_HOST=0.0.0.0

安全警告：OLLAMA_HOST=0.0.0.0 会将 Ollama 服务暴露在网络中，且默认无任何身份验证。建议：
- 仅在内网环境中使用，不要在公网服务器上启用
- 如需远程访问，生产环境建议配合 VPN 或防火墙限制来源 IP
- 可通过环境变量设置凭证（Ollama 0.5+ 版本支持）

3.3 Windows

访问 ollama.com/download 下载安装包。推荐配合 WSL2 使用以获得最佳体验：

wsl --install
curl -fsSL https://ollama.com/install.sh | sh

3.4 Docker（可选）

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama:latest
docker exec -it ollama ollama run llama3.2

四、快速上手

4.1 第一个模型：Llama 3.2

ollama run llama3.2

首次运行会自动下载模型（约 2GB）。下载完成后进入交互式对话。按 /bye 或 Ctrl+D 退出。

4.2 其他常用模型

# 通义千问 Qwen3.5（推荐中文用户，2026年主流）
ollama run qwen3.5:7b

# DeepSeek R1（推理能力强，支持思维链）
ollama run deepseek-r1:7b

# 编程模型 CodeLlama
ollama run codellama:7b

# 视觉多模态模型
ollama run llava:7b

# Phi-4（微软小钢炮，Phi-3 的升级版）
ollama run phi4:3.8b# 轻量版
ollama run phi4:14b# 中杯版

# Qwen2.5-VL 多模态（图片理解 + 视频）
ollama run qwen2.5-vl:7b

# 直接从 Hugging Face 拉取模型（无需手动下载 GGUF）
ollama run hf.co/{username}/{repository}
# 示例：从 Hugging Face 直接运行 Qwen 模型
ollama run hf.co/Qwen/Qwen2.5-7B-Instruct

4.3 模型管理

ollama list # 查看已安装模型
ollama show llama3.2 # 查看模型详情
ollama rm llama3.2 # 删除模型
ollama pull qwen3.5 # 预下载模型
ollama cp llama3.2my-custom-llama # 复制自定义

五、API 服务

Ollama 自带 REST API，与 OpenAI API 格式兼容，可对接 LangChain、Dify、AnythingLLM 等应用。默认服务地址：http://localhost:11434

5.1 聊天补全接口

curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{
    "model": "qwen3.5:7b",
    "messages": [
      {"role": "user", "content": "用 Python 写一个快速排序"}
    ],
    "stream": false
  }'

5.2 其他常用接口

# 模型列表
curl http://localhost:11434/api/tags

# 生成补全
curl http://localhost:11434/api/generate -d '{"model": "qwen3.5:7b", "prompt": "解释一下什么是 RAG", "stream": false}'

六、高级玩法

6.1 导入 HuggingFace 模型

Ollama 支持两种方式导入 GGUF 模型：

方式一：本地 Modelfile（原有方式）

# 编写 Modelfile
cat> Modelfile << 'EOF'
FROM ./qwen3.5-7b-instruct-q4_k_m.gguf
PARAMETER temperature 0.7
PARAMETER top_p 0.9
EOF

ollama create my-qwen -f Modelfile
ollama run my-qwen

方式二：直接从 Hugging Face 拉取（推荐，更简单）

# Ollama 支持直接运行 Hugging Face 上的 GGUF 模型
ollama run hf.co/{username}/{repository}

# 示例
ollama run hf.co/Qwen/Qwen2.5-7B-Instruct-GGUF
ollama run hf.co/TheBloke/Llama-2-7B-Chat-GGUF

6.2 常用运行参数

参数	说明	默认值
`--num-ctx`	上下文窗口大小	2048-8192（因模型而异）
`--temperature`	随机性（0=确定，1=创意）	0.7-0.8
`--top_p`	采样阈值	0.9
`--num_gpu`	使用 GPU 数量	自动检测
`--keepalive`	模型内存保持时间（秒）	300

6.3 多模态使用

ollama run llava:7b
>>>描述这张图片：/path/to/image.jpg

API 中传入 base64 图片：

curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{
    "model": "llava:7b",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "这张图里有什么？"},
        {"type": "image_url", "image_url": {"url": "data:image/jpeg;base64,..."}}
      ]
    }]
  }'

6.4 新增实验性功能

文生图（实验性）

# Ollama 0.5+ 支持文生图（需要特定模型如 stable-diffusion）
ollama run sdxl
>>>画一只蓝色的猫

函数调用（Function Calling）

Ollama 支持函数调用，可与外部工具和 API 集成：

curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{
    "model": "qwen3.5:7b",
    "messages": [
      {"role": "user", "content": "今天北京的天气怎么样？"}
    ],
    "tools": [
      {
        "type": "function",
        "function": {
          "name": "get_weather",
          "description": "获取指定城市的天气",
          "parameters": {
            "type": "object",
            "properties": {
              "city": {"type": "string", "description": "城市名称"}
            },
            "required": ["city"]
          }
        }
      }
    ]
  }'

七、常见问题

Q1：模型下载慢？

export HTTPS_PROXY = http://127.0.0.1:7890
ollama pull qwen3.5:7b

Q2：GPU 没有被使用？

ollama show llama3.2
journalctl -u ollama -f
nvidia-smi

Q3：内存/显存不足 (OOM)？

选择更小量化版本：ollama run qwen3.5:3b
减小上下文：--num-ctx 2048
纯 CPU 运行：OLLAMA_NUM_GPU=0 ollama run ...

八、应用场景推荐

场景	推荐模型	理由
日常问答 / 写作助手	Qwen3.5-7B、Llama3.2-7B	中英双语能力强
代码生成 / 调试	Codellama-7B、DeepSeek-Coder-6.7B	编程专项优化
中文深度推理	DeepSeek-R1-7B / 14B	思维链推理能力突出
本地知识库问答	Qwen3.5-7B + RAG	中文理解好
多模态图片理解	Qwen2.5-VL-7B、LLaVA	支持图片输入
低配机器尝鲜	Qwen3.5-1.5B、Phi-4-mini	3B 以内参数，CPU 可跑