模型说明
想要运行大模型,需要较高配置,可选cpu和gpu两种不同路线。
CPU 模型
这类模型就是给 E5、高内存、无独显 机器用的,格式叫 GGUF。
主流好用的 CPU 大模型(按大小)
1)小模型(快、稳、多开)
Qwen 7B(通义千问 7B,中文最强)
ChatGLM3 6B(清华,中文很顺)
Llama 2 7B
Mistral 7B
适合:
文本分类、信息抽取、简单对话、生成 SQL。
2)中模型(效果明显更强)
Qwen 14B
Llama 2 13B
Mistral 8x7B(MoE)
3)
7B 模型:干简单活(对话、总结、分类)
13B/34B 模型:干复杂活(推理、逻辑、长文本)
专用模型:代码、OCR、向量、Embedding
本机128G 内存:
可以同时开 2~3 个。
3)CPU 模型格式
GGUF(目前唯一主流)
推荐量化:
Q4_K_M(速度与效果平衡)
Q5_K_M(效果更好,内存够就用)
GPU 模型(必须要有好显卡)
这类模型 亮机卡带不动,至少要:
RTX 3090 / 4090
或 A10, A100, 4090D 等
常见格式
GGUF(也能 GPU 跑)
GPTQ(GPU 专用,快)
AWQ(新 GPU 专用,更快)
HF / Bin(原生,吃显存)
常见 GPU 模型
Llama 2 7B / 13B / 70B
Qwen 7B/14B/72B
ChatGLM3 6B
DeepSeek 7B/16B
Yi 34B
环境安装
拉 llama.cpp
1 | git clone https://github.com/ggerganov/llama.cpp |
编译,其中36为cpu核数
1 | sudo apt install -y cmake g++ libopenblas-dev git |
模型下载
选择(每个约20g,磁盘约占用50,内存约40g):
模型 A:Qwen-34B-Q4_K_M.gguf
模型 B:Yi-34B-Q4_K_M.gguf
没成功
1 | python3 -m venv ~/modelscope-venv |
这地址浏览器打开可以直接下,命令行貌似卡住了
1 | https://hf-mirror.com/bartowski/Qwen2.5-32B-Instruct-GGUF/resolve/main/Qwen2.5-32B-Instruct-Q4_K_M.gguf |
启动验证
启动第一个模型(端口 8081)
1 | ./build/bin/llama-server \ |
启动第二个模型(端口 8082)
新开一个终端:
1 | ./build/bin/llama-server \ |
参数解释
1 | -t 36:用全部 36 核,拉满速度,根据自己机器的核数决定 |