大数跨境

Ollama 本地大模型:安装配置与使用指南

Ollama 本地大模型:安装配置与使用指南 创见AI实验室
2026-04-21
3
导读:Ollama 让你在本地消费级硬件上跑起大模型——数据不出本地,响应无延迟,零 API 费用。本文将详细介绍 Ollama 的安装、模型选择、硬件配置,以及从命令行到 API 调用的完整使用方法。

0421.jpg

前言

在 AI 浪潮中,调用云端 API 虽方便,但存在隐私泄露、费用累积、网络依赖等问题。Ollama 让你在本地消费级硬件上跑起大模型——数据不出本地,响应无延迟,零 API 费用。本文将详细介绍 Ollama 的安装、模型选择、硬件配置,以及从命令行到 API 调用的完整使用方法。


一、Ollama 是什么

Ollama 是一款开源的本地大模型运行框架,主打一键启动:下载即用,无需配置 Docker、编写推理代码或管理复杂依赖。它支持:

  • Llama 4
    (Scout 17B / Maverick 104B)、Llama 3.2(1B / 1.5B / 3B / 7B / 14B)、Llama 3.1(8B / 70B / 405B)
  • Qwen 3.5
    (1.5B / 3B / 7B / 8B / 14B / 32B 等)、Qwen 3.6(最新版本)
  • Mistral
    (7B)、Mixtral(8x7B / 8x22B)
  • DeepSeek R1
    (1.5B / 7B / 14B / 32B / 70B / 671B)、DeepSeek Coder(1.3B / 6.7B)
  • Phi-4
    (Mini 3.8B / Medium 14B)、Gemma 3Yi 等主流开源模型
  • 多模态
    :LLaVA(视觉理解)、Qwen2-VL、Qwen2.5-VL 等

底层封装了 llama.cpp 的高效推理,支持 GPU 加速(CUDA / Metal / Vulkan),也支持纯 CPU 推理。

版本提示:AI 模型迭代迅速,截至 2026 年 4 月,Qwen 系列已更新至 3.6,Llama 系列已有 Llama 4。如需使用最新版本,可通过 ollama run qwen3.6:7b 或 ollama run llama4:maverick 直接拉取。


二、硬件配置与模型选择

2026年4月实测核实:以下配置建议基于主流量化模型(Q4_K_M),实际需求会因模型版本和量化精度有所浮动。

2.1 硬件档位参考

档位
CPU
RAM
GPU
代表模型(Q4 量化)
入门级
4核+
16GB
无(纯CPU)
Qwen3.5-1.5B、Phi-4-mini(3.8B)
主流级
8核+
32GB
RTX 3060 12GB / M1 Pro
Llama3.2-7B、Qwen3.5-7B、Mistral-7B
进阶级
16核+
64GB
RTX 3090 24GB / RTX 4090 24GB
Qwen3.5-14B、DeepSeek-R1-14B、Llama3.2-14B
高端级
32核+
128GB
A100 40GB / RTX 4090×2
DeepSeek-R1-70B、Llama3.1-70B、Mixtral-8x22B
发烧级
64核+
256GB+
A100×2 或 H100
Llama4-104B、DeepSeek-R1-671B

内存估算经验公式:运行一个 N B 参数模型,FP16 精度约需 2N GB 显存,Q4_K_M 量化后约需 0.5N–0.75N GB 显存。

2.2 显卡算力参考

显卡
算力
适合模型规模
备注
RTX 3060 12GB
中等
7B @ Q4
性价比之选
RTX 3090 24GB
13B @ Q4、34B @ Q4( 勉强)
已停产,可选二手;长文本推理建议谨慎
RTX 4090 24GB
极高
34B @ Q4、70B @ Q4
目前最强消费级
M1/M2/M3 Pro/Max
7B–70B @ Metal
Mac 用户首选,内存统一架构
A100 40GB
旗舰
70B @ Q4
数据中心卡,功耗大
H100 80GB
顶级
100B+
成本极高,不推荐个人

RTX 3090 24GB 特别说明:对于 34B @ Q4 模型,24GB 显存处于临界状态,开启长上下文(8192+ tokens)时容易触发 OOM。建议同时开启 --num-ctx 4096 限制上下文长度,或优先选择 RTX 4090。

2.3 量化级别说明

Ollama 下载的模型默认已量化,常见后缀含义:

后缀
量化方式
质量损失
显存占用
Q4_K_M
4bit 混合
极小(推荐)
约 50% 原始
Q5_K_S
5bit
几乎无损失
约 62% 原始
Q8_0
8bit
无损失
约 100% 原始

三、安装

3.1 macOS

# 方法一:官网下载
# 访问 https://ollama.com/download 下载 .dmg 安装包

# 方法二:Homebrew
brew install ollama

macOS 需要 macOS 14 Sonoma 或更高版本

验证安装:

ollama --version

3.2 Linux

# 一键安装脚本
curl -fsSL https://ollama.com/install.sh sh

# 允许远程访问(可选,仅在内网环境使用)
export OLLAMA_HOST=0.0.0.0

安全警告OLLAMA_HOST=0.0.0.0 会将 Ollama 服务暴露在网络中,且默认无任何身份验证。建议:
仅在内网环境中使用,不要在公网服务器上启用
- 如需远程访问,生产环境建议配合 VPN 或防火墙限制来源 IP
- 可通过环境变量设置凭证(Ollama 0.5+ 版本支持)

3.3 Windows

访问 ollama.com/download 下载安装包。推荐配合 WSL2 使用以获得最佳体验:

wsl --install
curl -fsSL https://ollama.com/install.sh sh

3.4 Docker(可选)

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama:latest
docker exec -it ollama ollama run llama3.2

四、快速上手

4.1 第一个模型:Llama 3.2

ollama run llama3.2

首次运行会自动下载模型(约 2GB)。下载完成后进入交互式对话。按 /bye 或 Ctrl+D 退出。

4.2 其他常用模型

# 通义千问 Qwen3.5(推荐中文用户,2026年主流)
ollama run qwen3.5:7b

# DeepSeek R1(推理能力强,支持思维链)
ollama run deepseek-r1:7b

# 编程模型 CodeLlama
ollama run codellama:7b

# 视觉多模态模型
ollama run llava:7b

# Phi-4(微软小钢炮,Phi-3 的升级版)
ollama run phi4:3.8b# 轻量版
ollama run phi4:14b# 中杯版

# Qwen2.5-VL 多模态(图片理解 + 视频)
ollama run qwen2.5-vl:7b

# 直接从 Hugging Face 拉取模型(无需手动下载 GGUF)
ollama run hf.co/{username}/{repository}
# 示例:从 Hugging Face 直接运行 Qwen 模型
ollama run hf.co/Qwen/Qwen2.5-7B-Instruct

4.3 模型管理

ollama list # 查看已安装模型
ollama show llama3.2 # 查看模型详情
ollama rm llama3.2 # 删除模型
ollama pull qwen3.5 # 预下载模型
ollama cp llama3.2my-custom-llama # 复制自定义

五、API 服务

Ollama 自带 REST API,与 OpenAI API 格式兼容,可对接 LangChain、Dify、AnythingLLM 等应用。默认服务地址:http://localhost:11434

5.1 聊天补全接口

curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{
    "model": "qwen3.5:7b",
    "messages": [
      {"role": "user", "content": "用 Python 写一个快速排序"}
    ],
    "stream": false
  }'

5.2 其他常用接口

# 模型列表
curl http://localhost:11434/api/tags

# 生成补全
curl http://localhost:11434/api/generate -d '{"model": "qwen3.5:7b", "prompt": "解释一下什么是 RAG", "stream": false}'

六、高级玩法

6.1 导入 HuggingFace 模型

Ollama 支持两种方式导入 GGUF 模型:

方式一:本地 Modelfile(原有方式)

# 编写 Modelfile
cat> Modelfile << 'EOF'
FROM ./qwen3.5-7b-instruct-q4_k_m.gguf
PARAMETER temperature 0.7
PARAMETER top_p 0.9
EOF

ollama create my-qwen -f Modelfile
ollama run my-qwen

方式二:直接从 Hugging Face 拉取(推荐,更简单)

# Ollama 支持直接运行 Hugging Face 上的 GGUF 模型
ollama run hf.co/{username}/{repository}

# 示例
ollama run hf.co/Qwen/Qwen2.5-7B-Instruct-GGUF
ollama run hf.co/TheBloke/Llama-2-7B-Chat-GGUF

6.2 常用运行参数

参数
说明
默认值
--num-ctx
上下文窗口大小
2048-8192(因模型而异)
--temperature
随机性(0=确定,1=创意)
0.7-0.8
--top_p
采样阈值
0.9
--num_gpu
使用 GPU 数量
自动检测
--keepalive
模型内存保持时间(秒)
300

6.3 多模态使用

ollama run llava:7b
>>>描述这张图片:/path/to/image.jpg

API 中传入 base64 图片:

curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{
    "model": "llava:7b",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "这张图里有什么?"},
        {"type": "image_url", "image_url": {"url": "data:image/jpeg;base64,..."}}
      ]
    }]
  }'

6.4 新增实验性功能

文生图(实验性)

# Ollama 0.5+ 支持文生图(需要特定模型如 stable-diffusion)
ollama run sdxl
>>>画一只蓝色的猫

函数调用(Function Calling)

Ollama 支持函数调用,可与外部工具和 API 集成:

curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{
    "model": "qwen3.5:7b",
    "messages": [
      {"role": "user", "content": "今天北京的天气怎么样?"}
    ],
    "tools": [
      {
        "type": "function",
        "function": {
          "name": "get_weather",
          "description": "获取指定城市的天气",
          "parameters": {
            "type": "object",
            "properties": {
              "city": {"type": "string", "description": "城市名称"}
            },
            "required": ["city"]
          }
        }
      }
    ]
  }'

七、常见问题

Q1:模型下载慢?

export HTTPS_PROXY http://127.0.0.1:7890
ollama pull qwen3.5:7b

Q2:GPU 没有被使用?

ollama show llama3.2
journalctl -u ollama -f
nvidia-smi

Q3:内存/显存不足 (OOM)?

  • 选择更小量化版本:ollama run qwen3.5:3b
  • 减小上下文:--num-ctx 2048
  • 纯 CPU 运行:OLLAMA_NUM_GPU=0 ollama run ...

八、应用场景推荐

场景
推荐模型
理由
日常问答 / 写作助手
Qwen3.5-7B、Llama3.2-7B
中英双语能力强
代码生成 / 调试
Codellama-7B、DeepSeek-Coder-6.7B
编程专项优化
中文深度推理
DeepSeek-R1-7B / 14B
思维链推理能力突出
本地知识库问答
Qwen3.5-7B + RAG
中文理解好
多模态图片理解
Qwen2.5-VL-7B、LLaVA
支持图片输入
低配机器尝鲜
Qwen3.5-1.5B、Phi-4-mini
3B 以内参数,CPU 可跑

结语

Ollama 极大地降低了本地大模型的使用门槛——一个命令即可在本地跑起 GPT 级别的模型。无论你是想保护数据隐私、降低 API 成本,还是打造完全离线化的 AI 工作流,Ollama 都是值得优先尝试的方案。


精选文章回顾
从抠门程序员的“三大件”到AI订阅奴:我的消费账单,比代码还恐怖
国内AI编程订阅(Coding Plan)全对比:价格、模型、选购指南
OpenCode铁三角选型指南,你真的需要全装吗?
OpenCode铁三角:OpenSpec + Superpowers + OMO,从“随意编码”到“规范开发”的完整指南
Opencode Day19:有了Superpowers,我的OpenCode终于不“乱写”了
Opencode Day18:MiniMax出Skills了:前端、后端、安卓、iOS,一套技能全搞定

【声明】内容源于网络
0
0
创见AI实验室
创见AI实验室,我们不只是介绍工具,我们共同创造工作方式的未来。
内容 147
粉丝 0
创见AI实验室 创见AI实验室,我们不只是介绍工具,我们共同创造工作方式的未来。
总阅读20
粉丝0
内容147