喵星之旅-狂奔的兔子-本地大模型部署(cpu版本)

模型说明

想要运行大模型,需要较高配置,可选cpu和gpu两种不同路线。

CPU 模型

这类模型就是给 E5、高内存、无独显 机器用的,格式叫 GGUF。

主流好用的 CPU 大模型(按大小)

1)小模型(快、稳、多开)
Qwen 7B(通义千问 7B,中文最强)
ChatGLM3 6B(清华,中文很顺)
Llama 2 7B
Mistral 7B
适合:
文本分类、信息抽取、简单对话、生成 SQL。

2)中模型(效果明显更强)
Qwen 14B
Llama 2 13B
Mistral 8x7B(MoE)

3)
7B 模型:干简单活(对话、总结、分类)
13B/34B 模型:干复杂活(推理、逻辑、长文本)
专用模型:代码、OCR、向量、Embedding

本机128G 内存:
可以同时开 2~3 个。

3)CPU 模型格式
GGUF(目前唯一主流)
推荐量化:
Q4_K_M(速度与效果平衡)
Q5_K_M(效果更好,内存够就用)

GPU 模型(必须要有好显卡)

这类模型 亮机卡带不动,至少要:
RTX 3090 / 4090
或 A10, A100, 4090D 等

常见格式
GGUF(也能 GPU 跑)
GPTQ(GPU 专用,快)
AWQ(新 GPU 专用,更快)
HF / Bin(原生,吃显存)

常见 GPU 模型
Llama 2 7B / 13B / 70B
Qwen 7B/14B/72B
ChatGLM3 6B
DeepSeek 7B/16B
Yi 34B

环境安装

拉 llama.cpp

1
2
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

编译,其中36为cpu核数

1
2
3
4
sudo apt install -y cmake g++ libopenblas-dev git
mkdir build && cd build
cmake -DLLAMA_AVX2=ON -DLLAMA_OPENBLAS=ON -DCMAKE_BUILD_TYPE=Release ..
make -j36 all

模型下载

选择(每个约20g,磁盘约占用50,内存约40g):

模型 A:Qwen-34B-Q4_K_M.gguf
模型 B:Yi-34B-Q4_K_M.gguf

没成功

1
2
3
4
5
python3 -m venv ~/modelscope-venv
source ~/modelscope-venv/bin/activate
pip install modelscope
modelscope download qwen/Qwen1.5-34B-Chat-GGUF qwen1_5-34b-chat-q4_k_m.gguf
modelscope download 01ai/Yi-34B-Chat-GGUF yi-34b-chat-q4_k_m.gguf

这地址浏览器打开可以直接下,命令行貌似卡住了

1
2
3
4
https://hf-mirror.com/bartowski/Qwen2.5-32B-Instruct-GGUF/resolve/main/Qwen2.5-32B-Instruct-Q4_K_M.gguf

https://hf-mirror.com/bartowski/Yi-1.5-34B-Chat-GGUF/resolve/main/Yi-1.5-34B-Chat-Q4_K_M.gguf

启动验证

启动第一个模型(端口 8081)

1
2
3
4
5
6
7
./build/bin/llama-server \
-m models/Qwen2.5-32B-Instruct-Q4_K_M.gguf \
-c 4096 \
--host 0.0.0.0 \
--port 8081 \
-t 36 \
-n -1

启动第二个模型(端口 8082)
新开一个终端:

1
2
3
4
5
6
7
./build/bin/llama-server \
-m models/Yi-1.5-34B-Chat-Q4_K_M.gguf \
-c 4096 \
--host 0.0.0.0 \
--port 8082 \
-t 36 \
-n -1

参数解释

1
2
3
4
5
-t 36:用全部 36 核,拉满速度,根据自己机器的核数决定
-c 4096:上下文窗口 4k
--port 8081 / 8082:两个模型隔离,互不干扰
-m:模型路径
-n 是 llama.cpp 中控制模型最大生成 Token 数量的核心参数(全称 --n-predict),简单说就是:限制模型最多能生成多少个 Token 的回答,可以配置200,-1是无限制
文章目录
  1. 模型说明
    1. CPU 模型
    2. GPU 模型(必须要有好显卡)
  2. 环境安装
  3. 模型下载
  4. 启动验证
|