上一篇讲了主要是利用 ollama 本地部署，比较简单通俗易懂，本篇主要讲解的是通过 hugface 上找一个适合自己的开发大模型利用 llama.cpp 进行量化（同样的模型，7B 基础模型举例，32 位浮点数的模型占用空间 27G，llama.cpp 量化后占用内存 9G 左右，推断速度为 15 字/秒）为下一次的 sft 做准备，循序渐进
tips：llama.cpp 可以量化模型解决模型在电脑上跑不动的问题，而 ollama 则是解决量化后的模型怎么更方便的跑起来的问题
一：hugface（需要一些科技狠活）
1）、找一个适合自己的https://huggingface.co/shenzhi-wang/Llama3-8B-Chinese-Chat/tree/main2B/7B/8B 即可。，新手自己玩建议
2）、下载模型，这些都需要下载，下载后形成本地目录

二、利用 llama.cpp 进行量化
1)、git clone https://gitee.com/tan_fu_xiang/llama.cpp.gitgit（ clone https://github.com/ggerganov/llama.cppmake 后有文件丢失，待分析）官网这个
2)、cd 到 llama.cpp 目录，执行 make 命令

3）、进行格式转换，从 hf 格式转换为 gguf 格式
python convert-hf-to-gguf.py models/safe/ --outfile models/Llama3-8B-Chinese-chat-ff16.gguf
(如果没有 numpy\torch\sentencepiece\transformers，需要提前安装 pip install numpy\pip install torch\pip install sentencepiece\pip install transformers)

4）、进行量化 (HF 格式直接转 gguf 没有办法直接使用，一般电脑带不起来)
./quantize /data2/other/llamacpp/llama.cpp/models/Llama3-8B-Chinese-chat-ff16.gguf /data2/other/llamacpp/llama.cpp/models/Llama3-8B-Chinese-chat-4-bit.gguf Q4_K_M

量化后直接 4g，太清爽了。
三、利用 ollama 进行本地部署
1）、ollama create llama38b -f model.txt

成功了！！！
四、使用 open-webui
参考我们https://testerhome.com/topics/39986这篇文章讲的内容

选择下面 8B 的模型看下效果

下期分享：如何利用 Llama3-8B-Chinese，在这个上训练自己的数据，合并到模型上来量化使用。

↙↙↙阅读原文可查看相关链接，并与作者交流