2026-03-11

喵星之旅-狂奔的兔子-本地大模型部署（cpu版本）

模型说明

想要运行大模型，需要较高配置，可选cpu和gpu两种不同路线。

CPU 模型

这类模型就是给 E5、高内存、无独显机器用的，格式叫 GGUF。

主流好用的 CPU 大模型（按大小）

1）小模型（快、稳、多开）
Qwen 7B（通义千问 7B，中文最强）
ChatGLM3 6B（清华，中文很顺）
Llama 2 7B
Mistral 7B
适合：
文本分类、信息抽取、简单对话、生成 SQL。

2）中模型（效果明显更强）
Qwen 14B
Llama 2 13B
Mistral 8x7B（MoE）

3）
7B 模型：干简单活（对话、总结、分类）
13B/34B 模型：干复杂活（推理、逻辑、长文本）
专用模型：代码、OCR、向量、Embedding

本机128G 内存：
可以同时开 2～3 个。

3）CPU 模型格式
GGUF（目前唯一主流）
推荐量化：
Q4_K_M（速度与效果平衡）
Q5_K_M（效果更好，内存够就用）

GPU 模型（必须要有好显卡）

这类模型亮机卡带不动，至少要：
RTX 3090 / 4090
或 A10, A100, 4090D 等

常见格式
GGUF（也能 GPU 跑）
GPTQ（GPU 专用，快）
AWQ（新 GPU 专用，更快）
HF / Bin（原生，吃显存）

常见 GPU 模型
Llama 2 7B / 13B / 70B
Qwen 7B/14B/72B
ChatGLM3 6B
DeepSeek 7B/16B
Yi 34B

环境安装

拉 llama.cpp

1 2	git clone https://github.com/ggerganov/llama.cpp cd llama.cpp

编译，其中36为cpu核数

sudo apt install -y cmake g++ libopenblas-dev git
mkdir build && cd build
cmake -DLLAMA_AVX2=ON -DLLAMA_OPENBLAS=ON -DCMAKE_BUILD_TYPE=Release ..
make -j36 all

模型下载

选择（每个约20g，磁盘约占用50，内存约40g）：

模型 A：Qwen-34B-Q4_K_M.gguf
模型 B：Yi-34B-Q4_K_M.gguf

没成功

python3 -m venv ~/modelscope-venv
source ~/modelscope-venv/bin/activate
pip install modelscope
modelscope download qwen/Qwen1.5-34B-Chat-GGUF qwen1_5-34b-chat-q4_k_m.gguf
modelscope download 01ai/Yi-34B-Chat-GGUF yi-34b-chat-q4_k_m.gguf

这地址浏览器打开可以直接下，命令行貌似卡住了

https://hf-mirror.com/bartowski/Qwen2.5-32B-Instruct-GGUF/resolve/main/Qwen2.5-32B-Instruct-Q4_K_M.gguf

https://hf-mirror.com/bartowski/Yi-1.5-34B-Chat-GGUF/resolve/main/Yi-1.5-34B-Chat-Q4_K_M.gguf

启动验证

启动第一个模型（端口 8081）

./build/bin/llama-server \
  -m models/Qwen2.5-32B-Instruct-Q4_K_M.gguf \
  -c 4096 \
  --host 0.0.0.0 \
  --port 8081 \
  -t 36 \
  -n -1

启动第二个模型（端口 8082）
新开一个终端：

./build/bin/llama-server \
  -m models/Yi-1.5-34B-Chat-Q4_K_M.gguf \
  -c 4096 \
  --host 0.0.0.0 \
  --port 8082 \
  -t 36 \
  -n -1

参数解释

-t 36：用全部 36 核，拉满速度,根据自己机器的核数决定
-c 4096：上下文窗口 4k
--port 8081 / 8082：两个模型隔离，互不干扰
-m：模型路径
-n 是 llama.cpp 中控制模型最大生成 Token 数量的核心参数（全称 --n-predict），简单说就是：限制模型最多能生成多少个 Token 的回答，可以配置200，-1是无限制