手把手教你用 RTX 3090 部署本地大模型 GLM-4，这套配置太香了！

RTX 3090 显卡示意图

RTX 3090 拥有 24GB 大显存，非常适合本地部署大模型

最近看到不少朋友在折腾本地大模型，手里正好有一张吃灰已久的 RTX 3090，24GB 的显存放在那里真是太浪费了。今天就来聊聊能不能用这张“老旧”旗舰卡，跑一跑最新的 GLM 系列模型，实现隐私保护又免费的本地 GPT 替代方案。

显存占用示意

显存大小决定你能跑多大的模型，4-bit 量化可大幅降低需求

一、先搞清楚硬件瓶颈：3090 还能不能打？

很多新手拿到模型就往里装，结果刚一运行就报“CUDA Out of Memory”（显存不足）。其实在部署前，我们得先算一笔账。

Ollama 界面示意图

Ollama 简化了模型部署，只需一行命令即可运行 GLM-4

RTX 3090 最大亮点就是 24GB 的 GDDR6X 显存。对于目前的开源大模型来说，显存大小直接决定了你能不能跑、能跑多大的模型。

Open WebUI 聊天界面

配合 Open WebUI，你可以拥有类似 ChatGPT 的本地网页聊天体验

显存需求速算公式（量化版）：

FP16（半精度）：模型参数量 × 2 Bytes
INT4（4-bit 量化）：模型参数量 × 0.7 Bytes（还要加上 KV Cache 等开销，通常预留 1-2GB）

我们要跑的 GLM 模型选哪个？

提到 GLM，大家想到的可能就是智谱的那一票模型。目前社区最常用的版本是 GLM-4-9B。为什么要选它而不是更大的模型？因为它是 90 亿参数，非常适合 24GB 显存的卡来“吃下”量化版。

如果是 4-bit 量化（Q4_K_M）：

9B × 0.7 ≈ 6.3GB。

这还没完，运行时还需要加载 Context（上下文），每 1K 的上下文大概需要额外占用几百 MB 显存。加上推理时的计算开销，总共占用大概在 8GB - 10GB 左右，视上下文长度而定。

结论： RTX 3090 跑 GLM-4-9B 的 Q4 版本简直是 “绰绰有余”，甚至可以同时开好几个对话窗口，或者挂一个很长的上下文窗口。完全不用担心爆显存的问题！

如果你非要去跑 70B 的模型（哪怕是 Q4），那 24GB 肯定是扛不住的，那得需要双卡或者 A100 这种专业卡才行。

二、实战部署：Ollama 路线（最简单）

不要去折腾源码编译，对于家用环境，工具链选对了能省 90% 的力气。目前最推荐的是使用 Ollama，它把模型下载、推理和 API 接口都封装好了，傻瓜式操作。

1. 准备环境

系统： Windows 10/11 或 Linux（Ubuntu 推荐）。
驱动： 显卡驱动务必更新到最新版本，确保支持 CUDA 12.x。
软件： 去官网下载 Ollama 安装包，一路 Next 安装即可。

2. 拉取并运行模型

打开终端（CMD 或 PowerShell），输入以下指令：

ollama run glm4:9b-chat-q4_K_M
``

*   `glm4`: 模型名称
*   `9b`: 参数量 9B
*   `chat`: 带有对话微调的版本
*   `q4_K_M`: 量化等级，这是平衡内存和效果的黄金标准

如果下载速度慢，可能需要配置一下镜像或者代理。下载完成后，你直接就可以在命令行里和它聊天了。

### 3. 打造你的本地网页版 ChatGPT

光在黑框框里聊天不够酷，我们需要一个漂亮的 Web 界面。

这里推荐 **Open WebUI**（前身是 Ollama WebUI）。你可以用 Docker 一键启动：

```bash
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main
``

启动后，浏览器访问 `http://localhost:3000`。首次注册（仅本地存储设置），然后在设置里的“模型”选择你的 GLM-4，瞬间就拥有了一个离线的、速度飞快的、知识渊博的 AI 助手。

## 三、常见问题与解决方案（避坑指南）

在折腾的过程中，遇到了一些通用的坑，这里列出来帮大家排雷。

### 1. 还是爆显存了怎么办？

虽然理论算下来够了，但如果你开了很长的上下文（比如 32k），还是会炸。

*   **解决：** 尝试使用 `Q3_K_M` 或者 `Q4_0` 这种更激进的量化版本。或者在使用接口时，限制 `num_ctx`（上下文长度）参数，比如设为 4096 或 8192。

### 2. 生成速度有点慢，感觉没跑满 GPU？

*   **解决：** 检查一下是不是因为系统内存拖了后腿。如果你的模型文件有一部分被 Pagefile（虚拟内存）接管了，速度会暴跌。确保系统物理内存在 32GB 及以上比较好。另外，Ollama 默认可能只加载部分模型到 GPU，可以通过设置 `OLLAMA_NUM_GPU=1` 强制使用。

### 3. 想要更好的效果怎么办？

*   **解决：** 如果你追求极致的回复质量，可以试试 **Q5_K_M** 或 **Q6_K** 甚至 **Q8_0**。对于 9B 的模型，Q8 大概占用 9-10GB 显存，3090 依然能拿下，只是生成速度会稍微降一点点，但智力提升很明显。

## 四、总结

RTX 3090 绝对是目前跑本地大模型的“性价比之王”（如果你不考虑显存衰减风险的话）。配合 GLM-4-9B，我们完全可以以极低的成本构建一个私人 AI 知识库。

不用害怕部署，现在的工具链已经非常成熟了。趁着周末，把你手里的显卡“榨干”吧！

要是大家在部署过程中遇到什么奇怪的问题，欢迎在评论区交流，我们一起解决掉这些拦路虎。

手把手教你用 RTX 3090 部署本地大模型 GLM-4，这套配置太香了！

手把手教你用 RTX 3090 部署本地大模型 GLM-4，这套配置太香了！

一、先搞清楚硬件瓶颈：3090 还能不能打？

我们要跑的 GLM 模型选哪个？

二、实战部署：Ollama 路线（最简单）

1. 准备环境

2. 拉取并运行模型

评论已关闭

最新文章

最近回复

分类

归档

其它