模型部署

本地部署大模型完全指南：从零搭建私有 AI 服务的完整方案

为什么要自己部署大模型

截至 2025 年，主流大模型的 API 调用价格已经大幅下降——DeepSeek 的 API 每百万 token 仅需 1 元。但即使如此，本地部署自有模型的优势仍然不可替代：完全离线可用、数据零外泄、无调用次数限制、无审批延迟、可以自由微调。对于企业级应用或者注重隐私的场景，本地部署是唯一选择。

本文覆盖从硬件选型到生产环境配置的全流程，让任何有 Linux 基础的人都能完成部署。

第一章：硬件选型与成本评估

1.1 模型参数量与显存对照

部署大模型核心瓶颈是显存。以下是 4-bit 量化后的显存需求：1.5B 到 3B 参数需要 4GB 显存，适合 CPU 推理。7B 到 8B 参数需要 6 到 8GB 显存。14B 到 20B 参数需要 10 到 16GB 显存。32B 到 72B 参数需要 24 到 48GB 显存。72B 以上需要 48GB+ 多卡并行。

1.2 纯 CPU 推理方案

对于没有独立 GPU 的机器，CPU 推理也是可行的。Ollama 使用 llama.cpp 的 GGUF 格式，在 CPU 上运行 7B 模型的速度约为每秒 5 到 10 个 token。虽然不快但用于文档处理、批处理是完全够用的。

1.3 推荐硬件配置

最低配置（纯 CPU 实验）：16GB 内存、4 核 CPU、100GB 硬盘。建议配置（入门 GPU）：NVIDIA RTX 3060 12GB、32GB 内存、500GB SSD。理想配置（生产级）：NVIDIA RTX 4090 24GB 或 2 块 RTX 3090、64GB 内存、1TB NVMe 硬盘。

第二章：Ollama 安装与模型管理

2.1 安装与基本使用

Ollama 支持全平台一键安装。Linux 用户只需执行 curl -fsSL https://ollama.com/install.sh | sh。macOS 和 Windows 用户到官网下载安装包即可。安装后运行 ollama serve 启动服务，默认监听 127.0.0.1:11434。

2.2 模型下载与管理

推荐的中文模型：ollama pull qwen2.5:7b。推荐的代码模型：ollama pull deepseek-coder-v2:16b-lite-instruct-q4_K_M。推荐的嵌入模型（用于 RAG 场景）：ollama pull bge-m3:567m。

使用 ollama list 查看已安装模型，ollama rm 删除不需要的模型。

2.3 性能优化参数

Ollama 支持多个性能优化参数。通过在 systemd 服务文件中设置环境变量可以控制并行请求数、最大加载模型数和模型保活时间。对于 7B 模型，建议并行请求数设为 2。

第三章：OpenWebUI 搭建图形化管理界面

3.1 Docker 部署

使用 Docker 部署 OpenWebUI：docker run -d --name open-webui -p 3000:8080 -v open-webui-data:/app/backend/data -e OLLAMA_BASE_URL=http://192.168.1.100:11434 ghcr.io/open-webui/open-webui:main。

注意 OLLAMA_BASE_URL 需要填写 Ollama 服务器的实际地址。如果 Ollama 和 OpenWebUI 在同一台机器上，Linux 下使用 http://host.docker.internal:11434。

3.2 核心功能

OpenWebUI 提供了一整套企业级功能：多用户管理支持管理员创建团队和工作空间。知识库功能内置 RAG 引擎，可以直接上传 PDF、DOCX、TXT 文件，系统自动切片、嵌入并存储到本地向量库。对话历史支持全文搜索、导出和分享。

3.3 安全配置

默认的 OpenWebUI 没有安全防护，生产环境必须配置 WEBUI_SECRET_KEY 环境变量，开启邮箱验证注册，配置 SSL 证书（推荐使用 Nginx 反向代理加 Let's Encrypt）。

第四章：模型对比与选型建议

中文对话场景：Qwen2.5-7B-Instruct 是目前中文能力最强的 7B 模型，在 C-Eval 和 CMMLU 测试中均排名第一。代码编程场景：DeepSeek-Coder-V2-Lite-Instruct 在 HumanEval 测试中达到 72.4% 的 pass@1，支持 128K 上下文窗口。RAG 与文本处理：Llama-3-8B-Instruct 在英文文档处理中表现最佳。

总结

从单机部署到生产集群，本地大模型部署已经形成了一套成熟的工具链。对于个人开发者和中小企业，一台 24GB 显存的 GPU 加上 Ollama 和 OpenWebUI，就能搭建出一个功能完整的私有 AI 服务平台。核心成本只有硬件采购，软件全部开源免费。

目录CONTENT

本地部署大模型完全指南：从零搭建私有 AI 服务的完整方案

本地部署大模型完全指南：从零搭建私有 AI 服务的完整方案

为什么要自己部署大模型

第一章：硬件选型与成本评估

1.1 模型参数量与显存对照

1.2 纯 CPU 推理方案

1.3 推荐硬件配置

第二章：Ollama 安装与模型管理

2.1 安装与基本使用

2.2 模型下载与管理

2.3 性能优化参数

第三章：OpenWebUI 搭建图形化管理界面

3.1 Docker 部署

3.2 核心功能

3.3 安全配置

第四章：模型对比与选型建议

总结

评论区