RISC-V 跑大模型（二）：LLaMA零基础移植教程- 大数跨境

RVBoards

2023-07-08

导读：这是RISC-V跑大模型系列的第二篇文章，主要教大家如何将LLaMA移植到RISC-V环境里。

这是RISC-V跑大模型系列的第二篇文章，主要教大家如何将LLaMA移植到RISC-V环境里。

1. 环境准备

1）最新版Python

2）确保机器有足够的内存加载完整模型（7B模型需要13~15G）

3）下载原版LLaMA模型和扩展了的中文模型

LLaMA原版模型：

https://ipfs.io/ipfs/Qmb9y5GCkTG7ZzbBWMu2BXwMkzyCKcUjtEKPpgdZ7GEFKm/

2. 模型下载

从LLaMA原版模型地址上下载下述文件（我们使用的是7B）：

最后文件下载完成后的结果如下：

3. 加载并启动

1）这一步需要下载llama.cpp，请输入以下命令进行下载和编译：

git clone https://github.com/ggerganov/llama.cpp && cd llama.cpp && make

2）将第二步下载的文件移到llama.cpp/models/下，使用命令：

python3 convert-pth-to-ggml.py models/7B/ 0

3）将.pth模型权重转换为ggml的FP32格式，生成文件路径为models/7B/ggml-model-f32.bin。

4）运行./main二进制文件，-m命令指定Q4量化模型（也可加载ggml-FP16的模型）。以下是解码参数及示例：

./main models/7B/ggml-model-f32.bin --color -f prompts/alpaca.txt -ins -c 256 --temp 0.2 -n 128 --repeat_penalty 1.3

参数解释：

-ins	启动类ChatGPT对话交流的运行模式
-f	指定prompt模板，alpaca模型请加载prompts/alpaca.txt
-c	控制上下文的长度，值越大越能参考更长的对话历史（默认：512）
-n	控制回复生成的最大长度（默认：128）
-t	控制batch size（默认：8），可适当增加
--repeat_penalty	控制线程数量（默认：4），可适当增加
--temp	温度系数，值越低回复的随机性越小，反之越大
--top_p, top_k	控制解码采样的相关参数