安装、使用 Ollama
Ollama 官网:https://ollama.com/。
点击Download就可以下载、安装。
安装完成后,可以由Ollama下载型号,像Llama、Phi、Gemma、Mistral,有开源的草莓几乎都有:
关注【索引目录】服务号,发送消息:【ollama】 获取软件包,包含 Mac、Linux 和 Windows
8月份实测,买的Mac mini是:
10核CPU
10核GPU
16GB 内存
运行Phi-4 14B还算不止,但更大的模型(如Mistral Small3 22B)就会明显卡顿QQ。
Ollama 要下载 Models 很简单,从上面的官网网址找到想下载的,点进去后就会看到可以复制的命令,贴上终端机后执行就行:
Ollama的指令如下:
以下是 Ollama 的指令对应的中文翻译:
ollama serve - 啟動 Ollama
ollama run - 执行模型
ollama list - 列出所有模型
ollama rm - 移除模型
ollama create - 从 Modelfile 建立模型
ollama show - 显示模型的资讯
ollama stop - 停止运行中的模型
ollama pull - 来自 Ollama Models 拉取模型
ollama Push - 将模型个体至 Ollama Models
ollama ps - 启动正在运行的模型
ollama cp - 复制模型
ollama help - 显示指令的帮助资讯
前四个是最常用的。
安装好模型,会看到一个基本的对话模式正在使用:
输入「/bye」就可以退出。
因为要让最终公司的电脑可以使用,需要的是API模式。
Ollama启动后,默认就可以用API的方式调用。
API
文件:https://github.com/ollama/ollama/blob/main/docs/api.md
POST 端點:
http://localhost:11434/api/generate
的出去参数,常用:
型号:(必填)型号名称
提示:用于生成响应的提示词
suffix:模型响应后的附加文字
图片:(选填)Base64编码的图片列表(适用于如Llava这类的多模态模型)
format:响应的格式。格式可以是
json或者JSON schemaoptions:额外的模型参数,可参考Modelfile文件,例如温度
system:系统消息(会覆盖Modelfile中定义的内容)
template:要使用的提示词模板(会覆盖Modelfile中定义的内容)
Stream:如果设置为false,则响应单个对象返回,而不需要流(stream)方式传输
raw:如果设置为 true,则不会对提示词进行格式化。当请求 API 时,如果已提供完整的模板化提示词,可以使用此选项
keep_alive:控制模型在记忆体中保持加载的时间(默认:5分钟)
草莓用Postman简单测试一下:
有收到回复就代表成功了。
安装、使用 Ngrok
Ngrok 是做什么的呢?
就像我们在家里建了一个「秘密基地」,然而我们的朋友都在公司当社畜,并没有直接走过来看看秘密基地的样子。
Ngrok是一个神奇的隧道,可以帮把家里的「秘密基地」(我们的电脑或服务器)连接到网上,让社畜们(哎)可以从公司(外部位置)穿过这个隧道找到我们。
再简单来一下,就是我们到底只对内部的本地主机,让外部的外部也链接得到。
Ngrok 官网:https://ngrok.com/。
注册以后,就可以看到多种安装方式:
本篇示范MacOS的方式,上图选择MacOS后,页面下方就会出现安装的命令:
第一个命令是安装Ngrok。
第二个命令是设置token,有token才可以使用Ngrok的服务。
接下来的命令,就是把我们本地 Ollama API 的 11434 绑到 Ngrok:
ngrok http 11434 --host-header="localhost:11434"
实测后,只要这样下命令才可以。
执行后,会看到终端机出现以下消息:
最重要的是转发那行:
https://fb55-118-233-2-60.ngrok-free.app -> http://localhost:11434
代表我们本地的localhost:11434,已经被Ngrok建立成公开网址https://fb55-118-233-2-60.ngrok-free.app。
Postman的测试可以修改原来的测试:
成功啦~之后就可以在公司用API的方式使用了。
要注意的是,如果是用免费方案的 Ngrok,每次出去的公开网址都会不一样,要一样的话要升成付费方案。

