前言
对于想要在本地或自托管环境中运行 LLM 的用户而言,Ollama 提供了一个无需 GPU、在 CPU 环境也可高效完成推理的轻量化 “本地推理” 方案。而要让 Ollama 真正 “接地气”,往往需要与其他开源项目进行配合——例如将文档、数据源或应用前端与 Ollama 打通,这便衍生出许多解决方案。
Ollama 简介
在进入对比之前,先简单回顾一下 Ollama 的定位和特性:
本地推理:
- CPU 即可运行:适合 Mac 或 Linux 环境。
- 若无 GPU 的情况下,也能让开源模型(如 LLaMA、GPT-Neo、Mistral 等)跑起来。
轻量易用:
- 安装方式简洁,一键下载二进制文件或通过 Homebrew、pkg 安装。
- 只需一个命令行工具就能加载模型并进行对话、推理。
量化优化:
- 支持对常见大语言模型做 4-bit 或 8-bit 等量化,进一步降低资源占用。
发展活跃:
- 在 GitHub 上有不错的社区支持和更新节奏,适合初中级开发者快速上手。
安装 Ollama 客户端
配置环境变量
Ollma可以像其他软件一样在电脑上完成一键安装,不同的是,建议按照实际需求配置下系统环境变量参数。
默认的模型保存路径在C盘,我们把路径更改到有更多可用空间的分区或目录,可以更好地管理存储空间。
- 添加 OLLAMA_MODELS 环境变量改变模型存储的位置。例如 E:\ollama\models
- 设置完成后重启 ollama 或 PowerShell,即可完成更改。
用 Ollama 下载模型
首先我们需要安装 Ollama(https://ollama.com/),它可以在本地运行和管理大模型。
直接下载速度太慢,使用加速,GitHub Proxy 代理加速(https://ghfast.top/)【实测速度超快】:
https://mirror.ghproxy.com/https://github.com/ollama/ollama/releases/download/v0.5.7/OllamaSetup.exe
接下来点击 Ollama 官网左上方的 “Models” 按钮,会列出支持的各种模型,目前最火的 DeepSeek-R1 排在显眼位置,点击进入主题页面:
点击进去后,查看各个模型,不同模型执行的命令不同,最后部分看你选择的参数模型。
7b命令:ollama run deepseek-r1:7b
1.5b命令:ollama run deepseek-r1:1.5b
DeepSeek R1 提供多个版本,参数量越大,模型通常越强大,但也需要更多的计算资源,比如 1.5B 代表有 15 亿个参数。
具体选择哪一个看你硬件设备了。
将本机的电脑配置发给 deepseek,看看它的推荐是哪个模型
选择好模型之后,点击右侧这个按钮,复制指令,这里是:ollama run deepseek-r1:1.5b
在 Windows 搜索栏输入 “cmd” 回车,唤出命令行窗口:
黏贴运行刚才复制的命令,开始下载,1.5b 模型容量大约 1.1GB,请保持网络畅通:
当界面出现 success 显示安装成功。输入 “你是谁”,看到 deepseek 的回答。
AnythingLLM、Dify、Open-WebUI 简介
AnythingLLM
- 定位:将本地文档或数据源整合进一个可检索、可对话的知识库,让 AI 助手 “懂你” 的资料。
主要功能:
- 文档管理:将 PDF、Markdown、Word 等多格式文件索引进系统。
- 智能检索:可基于向量数据库搜索相关文档片段,并在聊天时自动引用。
- 界面 +API:既提供用户友好的前端管理界面,也能通过 API 与其他系统集成。
对接 Ollama 思路:
- 在配置文件或启动脚本中,将 “语言模型推理” 后端地址指定为 Ollama 的本地服务。
- 当用户发起提问时,AnythingLLM 会先做知识检索,再将检索到的上下文发送给 Ollama 做语言生成。
适用场景:
- 企业内部文档问答、个人知识管理、高度依赖文本内容的问答场景。
Dify
- 定位:多功能的 AI 应用构建平台,支持多种大语言模型,方便开发者快速搭建 ChatGPT-like 服务或插件化应用。
主要功能:
- 对话管理:可自定义对话流或应用场景,为不同场景配置不同模型或工作流。
- 插件扩展:支持将其他第三方服务或插件加入对话流程中,提高可用性。
- 多模型兼容:除 Ollama 外,也兼容 OpenAI API、ChatGLM 等其他模型。
对接 Ollama 思路:
- 在 “模型管理” 或 “模型配置” 界面/文件中,添加对 Ollama 的引用,可能需要指定本地运行地址 (如 localhost:port)。
- 使用 Dify 的对话页面或 API 时,后台调用 Ollama 进行推理,再将结果返回前端。
适用场景:
- 多模型切换、多功能插件集成;需要可视化对话配置或工作流管理的团队与开发者。
Open-WebUI
- 定位:社区驱动的网页版用户界面,针对多种本地模型提供可视化使用入口,类似一个 “本地 ChatGPT 面板”。
主要功能:
- 浏览器聊天界面:在局域网或本机通过网页即可与模型交互。
- 支持多后端:LLaMA、GPT-NeoX 等,以及 CPU/GPU 等不同推理环境。
- 插件/扩展机制:在社区里可找到各式各样的扩展功能(如多语言 UI、模型切换、对话模板等)。
对接 Ollama 思路:
- 通常可在 Open-WebUI 的后台配置或启动脚本中,指定 Ollama 作为推理后端;
- 或使用适配 Ollama 协议的插件,让 Open-WebUI 调用 Ollama 进行对话。
适用场景:
- 需要 “纯聊天 + 模型管理” 界面的普通用户或开发者;想要单纯体验各种本地模型的人群。
接入 Ollama 的异同
在了解了三款工具的基本定位后,再来看看它们在接入 Ollama 时,有哪些不同之处,以及各自的优势与局限性。
从上表不难看出:
-
AnythingLLM: 更专注于文档知识库与问答场景,自带向量检索管理,可 “多文档整合”,接入 Ollama 后实现本地化问答。
-
Dify: 适合对话流管理、插件化扩展、团队协同等复杂需求。只要能在其后台正确配置 Ollama 地址,即可灵活调用。
-
Open-WebUI: 走纯粹聊天界面路线,你可以把它当做一个能 “轻松切换模型、马上对话” 的 Web 面板,如果只是想单纯体验 Ollama 的生成效果,Open-WebUI 也许是最方便的。
选择 Anything LLM
- AnythingLLM 是由 Mintplex Labs Inc.开发的一个全栈应用程序,是一款高效、可定制、开源的企业级文档聊天机器人解决方案。它能够将任何文档、资源或内容片段转化为大语言模型在聊天中可以利用的相关上下文。
- AnythingLLM 支持几乎所有的主流大模型和多种文档类型,可定制化,而且安装和设置简单。目前适用于 MacOS、Linux 和 Windows 操作系统,也可以使用 Docker 安装。官方已经做好了各个版本的应用,直接下载对应版本,像正常软件一样安装启动即可。
安装 Anything LLM
AnythingLLM 配置
上传文件
点击按钮开始添加文档,并将文档 Move to Workspace,然后点击 Save and Embed,出现 Workspace updated successfully 就表示配置已经完成。
验证效果
参考资料
https://mp.weixin.qq.com/s/9CqtqRZba3M4R74RkDJwCA
https://mp.weixin.qq.com/s/JUe73lGnnXv-13B8oME_Rg
https://blog.csdn.net/weixin_40280870/article/details/145275600
https://blog.csdn.net/yunfanleo/article/details/144332548
https://mp.weixin.qq.com/s/NuoeidtJKMx6rm0mwKz54w
https://ghproxy.link/
↙↙↙阅读原文可查看相关链接,并与作者交流