Ollama 本地模型部署全指南：安装、使用与注意事项

在本地私有化部署大语言模型，既能保障数据隐私，也能脱离网络限制稳定使用。Ollama 是一款开源、跨平台的大模型运行工具，支持一键部署 Llama 3、Qwen、DeepSeek 等主流模型，命令行操作简洁，无需复杂环境配置，是个人与小型团队本地部署的优选方案。本文将完整讲解 Ollama 的部署流程、基础使用，以及部署中必须关注的核心注意事项。

一、Ollama 核心优势

跨平台兼容：支持 Windows、macOS、Linux，也可通过 Docker 容器运行
极简部署：一行命令完成安装与模型拉取，无需手动配置依赖
模型生态完善：内置官方模型库，支持 GGUF 格式模型导入
本地隐私安全：所有推理与数据存储在本地，不上传云端
开放 API：兼容 OpenAI 格式接口，可快速对接前端、应用程序
私有化定制：支持私有 API 部署、鉴权配置、局域网 / 内网访问

二、部署前准备

1. 硬件配置要求

Ollama 的硬件需求主要取决于运行模型的参数量，核心配置建议如下：

轻量模型（1.5B-7B）：最低 8GB 内存，推荐 16GB 内存
中等模型（13B）：16GB 内存起步，推荐 32GB 内存，应使用 GPU 加速
大模型（33B 及以上）：32GB + 内存，显存>=24G，优先 NVIDIA/AMD 显卡
存储：预留 20GB 以上可用空间，模型文件大小约 2GB-40GB 不等
GPU：NVIDIA 显卡需支持 CUDA，AMD 支持 ROCm，Apple Silicon 原生加速

2. GPU 显存详细要求

显存占用与模型参数量 + 量化精度直接相关，为部署核心参考标准：

7B 模型（主流推荐）
- Q4_K_M（量化）：显存≥4GB（最低可用），推荐6GB+
- Q5_K_M（量化）：显存≥6GB
- FP16（全精度）：显存≥13GB
13B 模型
- Q4_K_M（量化）：显存≥8GB，推荐10GB+
- Q5_K_M（量化）：显存≥10GB
- FP16（全精度）：显存≥26GB
33B 模型
- Q4_K_M（量化）：显存≥16GB，推荐20GB+
- FP16（全精度）：显存≥65GB
通用规则：无独立显卡仅可运行 CPU 推理，显存不足会直接导致模型加载失败、闪退。

3. 系统要求

Windows：Windows 10 2004 版本及以上、Windows 11
macOS：macOS 11.0 及以上，支持 Apple Silicon 与 Intel 芯片
Linux：Ubuntu 20.04+、Debian 11+、CentOS 8 + 等主流发行版

4. 其他准备

网络：首次部署需联网下载安装包与模型，离线后可正常使用
权限：Windows 需管理员权限安装，Linux/macOS 需 sudo 权限
存储规划：避免将模型存储在系统盘，防止空间不足

三、全平台安装步骤

1. Windows 安装

访问 Ollama 官网下载 Windows 安装包
双击运行安装程序，自动配置环境变量与后台服务
安装完成后重启终端，输入ollama --version验证安装

2. macOS 安装

打开终端，执行一键安装脚本：

curl -fsSL https://ollama.com/install.sh | sh

安装完成后输入ollama --version验证，Apple Silicon 芯片可原生启用 GPU 加速。

3. Linux 安装

终端执行官方一键脚本，自动完成下载、服务配置与启动：

curl -fsSL https://ollama.com/install.sh | sh

验证命令：ollama --version，查看版本号即安装成功。

4. Docker 部署（可选）

适合服务器与容器化环境，拉取镜像后启动：

docker pull ollama/ollama
docker run -d -p 11434:11434 --name ollama ollama/ollama

四、模型管理与基础使用

1. 常用核心命令

拉取模型：ollama pull 模型名:版本，例：ollama pull llama3:8b、ollama pull qwen2.5:7b
运行模型：ollama run 模型名，进入命令行交互模式
查看本地模型：ollama list
删除模型：ollama rm 模型名
启动服务：ollama serve，默认监听 127.0.0.1:11434

2. 自定义模型（Modelfile）

通过 Modelfile 定制模型参数、系统提示词，步骤如下：

创建 Modelfile 文件，基础配置示例：

FROM qwen2.5:7b
PARAMETER temperature 0.7
PARAMETER num_ctx 4096
SYSTEM "你的要求"

构建自定义模型：ollama create custom-model -f Modelfile
运行自定义模型：ollama run custom-model

3. API 调用

Ollama 提供 RESTful API，支持流式与非流式对话请求，基础接口：

版本查询：http://localhost:11434/api/version
对话接口：http://localhost:11434/api/chat
模型列表：http://localhost:11434/api/tags

4. 私有 API 配置（局域网 / 内网私有化部署）

Ollama 支持将 API 开放至局域网 / 私有网络，并配置鉴权、端口、跨域，实现私有化 API 服务：

（1）修改 API 监听地址（开放局域网访问）

默认仅本地访问，修改环境变量OLLAMA_HOST开放私有 IP：

Windows（终端执行）：

setx OLLAMA_HOST 0.0.0.0:11434

Linux/macOS（终端执行）：

export OLLAMA_HOST=0.0.0.0:11434

Docker 部署：

docker run -d -p 11434:11434 -e OLLAMA_HOST=0.0.0.0:11434 --name ollama ollama/ollama

（2）配置 API 密钥鉴权（私有 API 安全必备）

设置环境变量OLLAMA_API_KEY开启密钥验证：

Linux/macOS：

export OLLAMA_API_KEY=你的自定义密钥

Windows：

setx OLLAMA_API_KEY 你的自定义密钥

调用 API 时需在请求头携带密钥：

Authorization: Bearer 你的自定义密钥

（3）CORS 跨域配置（对接前端 / 第三方应用）

export OLLAMA_CORS_ALLOW_ORIGINS=http(s)://你的前端域名

（4）重启服务生效

# 停止原有服务
pkill ollama
# 重新启动
ollama serve

（5）私有 API 验证

局域网内其他设备访问：http://服务器内网IP:11434/api/tags

五、部署核心注意事项

1. 硬件资源管控

内存不足会导致模型崩溃、推理卡顿，优先选择与硬件匹配的模型
无 GPU 时仅运行 7B 及以下小模型，避免 CPU 负载过高
启用 GPU 加速需安装对应驱动，NVIDIA 需配置 CUDA 环境变量

2. GPU 显存使用注意事项

优先选择Q4_K_M 量化模型，在精度损失极小的前提下节省 50% 以上显存
显存接近阈值时，关闭浏览器、游戏等占用显存的程序
多卡环境可通过OLLAMA_NUM_GPU指定显卡编号，避免显存争抢
显存不足强制加载模型，会触发内存交换，推理速度下降 90% 以上

3. 网络与下载问题

国内网络下载模型速度慢，可切换稳定网络或使用镜像源
下载中断无需重新开始，重新执行ollama pull命令支持断点续传
离线使用需提前完成模型拉取，部署后可断开网络

4. 安全防护

私有 API 应在内网使用，不建议公网直接暴露 11434 端口
公网访问应通过 Nginx/Traefik 反向代理 + 防火墙限制
配置 API 密钥，禁止无鉴权公开调用
仅从 Ollama 官方模型库拉取模型，拒绝第三方不明来源模型
定期更新 Ollama，修复安全漏洞

5. 存储路径管理

Windows 默认存储在 C 盘，易导致系统盘空间不足，可修改存储路径
Linux/macOS 通过环境变量OLLAMA_MODELS指定模型存储目录
定期删除无用模型，释放存储空间

6. 权限与服务配置

Windows 安装必须用管理员权限，否则环境变量配置失败
Linux 需确保 ollama 服务正常运行，可通过systemctl status ollama查看
端口冲突时，修改OLLAMA_HOST环境变量更换端口

7. 性能优化

调整num_ctx参数控制上下文窗口大小，平衡推理速度与内存占用
GPU 环境设置OLLAMA_NUM_GPU分配显存比例
关闭后台占用资源的程序，提升推理响应速度

六、常见问题排查

安装后命令无效：Windows 重启终端，Linux/macOS 重新加载环境变量
模型启动失败：检查内存 / 显存是否充足，更换小量化模型尝试
端口被占用：使用netstat命令查看端口占用，更换监听端口
下载速度为 0：切换网络、关闭代理，重新执行拉取命令
GPU 未启用：检查驱动版本，确认显卡支持对应加速框架
私有 API 无法访问：检查防火墙端口放行、监听地址配置、API 密钥是否正确
推理极慢：显存不足触发 CPU 交换，降低模型参数量或更换量化版本

𝒟𝒾𝓃ℴ𝓈𝒶𝓊𝓇