Ollama GPU 加速配置:CUDA、ROCm 与 Metal 全平台实战指南
盯着终端里一行行慢慢爬出来的文字,我忍不住看了一眼时间——47 秒。这是跑 Llama 3 8B 在我那台老笔记本上的速度,CPU 满载,风扇狂转,每秒大概 5 个 token。说实话,这体验挺劝退的,本来想用它写点代码辅助,结果等它回复的时间够我自己去 Google 找答案了。
后来我把同一张显卡换到台式机上,装好 CUDA 驱动,同样的模型同样的参数——3 秒。
不是夸张,就是从近一分钟变成几秒钟。那种”我问完了现在就想知道答案”的感觉,终于回来了。
这篇文章就是想帮你搞定 Ollama 的 GPU 加速配置。不管你是 NVIDIA、AMD 还是 Apple Silicon,我都会讲清楚怎么配置、怎么验证、踩了坑怎么爬出来。把那些等待时间省下来,去做更有意思的事。
GPU 加速到底有多香:从 30 秒到 3 秒的真实差距
先说结论:用 GPU 跑本地大模型,速度能提升 10 到 20 倍。这不是广告词,是我实测下来的数据,也是社区里大量用户的共识。
你可能想问:CPU 不是也能跑吗?干嘛非要折腾 GPU?
能跑是能跑,但体验完全不一样。CPU 跑 7B 参数的模型,每秒大概 3-8 个 token,输出一段 500 字的回答要等 20-60 秒。换成 GPU,同样的模型每秒 40-80 个 token,几秒钟就出来了。这种差距不是”快一点”,是从”能用”到”好用”的质变。
你的显卡支持吗?
Ollama 支持三种 GPU 平台,各有各的要求:
NVIDIA 显卡:最主流,也最省心。官方要求 Compute Capability 5.0 以上,基本就是 GTX 900 系列之后的卡。GTX 1060、RTX 3060、RTX 4090 这些都没问题。我手上有张 RTX 3060 12GB,跑 14B 以下的模型绰绰有余。
AMD 显卡:配置稍微麻烦点,但也能跑。Linux 下需要 ROCm v7,Windows 目前只有 ROCm v6.1 的预览版。支持的显卡型号也有要求,RX 6000 和 RX 7000 系列比较稳,老卡需要一些额外设置。
Apple Silicon:M1/M2/M3/M4 全系支持,而且是自动启用的。Mac 用户基本不用配置,装好 Ollama 就能用 Metal 加速。2026 年之后还多了 MLX 后端选项,性能又提了一截。
VRAM 够不够用?
这是很多人忽略的点。GPU 跑模型,显存(VRAM)是硬指标。
简单算笔账:7B 模型用 4-bit 量化大概要 5-6GB 显存,14B 要 10-12GB,70B 就得 40GB 以上了。你的显卡显存多少,直接决定了能跑多大的模型。我那张 RTX 3060 12GB,跑 Llama 3 8B 很舒服,但跑 Mixtral 8x7B 就捉襟见肘,只能用 CPU 补一部分内存。
所以配置 GPU 之前,先搞清楚自己显卡型号和显存大小,心里有个数。
NVIDIA CUDA:最省心的方案(但也要注意几个坑)
如果你用的是 NVIDIA 显卡,恭喜你,配置过程可能是三种平台里最简单的。
先确认驱动装了没
打开终端,输入:
nvidia-smi
如果看到一张表格,里面有显卡型号、显存大小、驱动版本这些信息,说明驱动已经装好了。Ollama 会自动检测并使用 CUDA,不需要你再单独装什么 CUDA Toolkit——对,你没看错,Ollama 自带了必要的 CUDA 库,省了一步。
如果报错说命令找不到,那得先装驱动。Ubuntu 用户可以跑:
sudo apt install nvidia-driver-535 # 或者更新的版本
装完重启,再 nvidia-smi 确认一下。
多显卡怎么办?
如果你的机器插了多张显卡(比如两块 RTX 3090),默认情况下 Ollama 会把模型分散到所有卡上。但有时候你想指定某张卡,比如一张卡跑模型,另一张卡干别的。
这时候需要设置环境变量:
# 只使用第 0 张显卡
export CUDA_VISIBLE_DEVICES=0
# 使用第 0 和第 2 张显卡
export CUDA_VISIBLE_DEVICES=0,2
把这一行加到 ~/.bashrc 或者 systemd 服务配置里,就能持久化生效。
Docker 里跑 Ollama?
有些朋友喜欢把所有服务都塞容器里,Ollama 也可以。但要注意,Docker 容器默认是访问不到宿主机 GPU 的,需要额外配置。
用 NVIDIA 官方的 nvidia-container-toolkit:
# 安装 toolkit
sudo apt install nvidia-container-toolkit
# 配置 Docker runtime
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker
然后启动 Ollama 容器时加上 --gpus all 参数:
docker run -d --gpus all -v ollama:/root/.ollama -p 11434:11434 ollama/ollama
怎么确认 GPU 真的在用?
一个简单的验证方法:跑模型的时候,另开一个终端执行:
ollama ps
输出里会显示当前运行的模型和 GPU 使用情况。如果看到类似 GPU: 100% 的字样,说明加速生效了。
也可以用 nvidia-smi -l 1 实时监控显存占用,跑模型时显存应该会明显上涨。
AMD ROCm:配置稍微麻烦,但跑起来一样快
AMD 用户的心酸我懂——网上教程基本都在讲 NVIDIA,AMD 的文档又少又碎。不过好消息是,Ollama 对 ROCm 的支持已经稳定多了,只是配置步骤多了几步。
Linux 用户的正解:ROCm v7
如果你用的是 Ubuntu 22.04 或更新的发行版,安装 ROCm 其实不算太折腾:
# 添加 AMD 官方源
sudo apt update
sudo apt install amdgpu-install
sudo amdgpu-install --usecase=rocm
# 把自己加到渲染组
sudo usermod -aG render,video $USER
# 重启生效
sudo reboot
重启后,用 rocminfo 命令验证是否识别到显卡。如果看到你的 GPU 信息,就可以装 Ollama 了。AMD 版本的 Ollama 会自动检测 ROCm 环境,不用额外配置。
Windows 用户:目前还是预览版
说实话,Windows 下的 ROCm 支持还不太成熟。官方提供了 ROCm v6.1 的预览版,但支持的显卡型号有限,稳定性也不如 Linux。如果你主要在 Windows 上工作,又有 AMD 显卡,我的建议是:
优先考虑 WSL2 + Ubuntu,在 Linux 子系统里跑 Ollama。性能和稳定性都比原生 Windows 一大截。
老显卡怎么办?HSA_OVERRIDE 来救场
AMD 的显卡架构代号有点复杂,ROCm 官方只支持比较新的架构(gfx900、gfx1030 这些)。如果你的显卡比较老,比如 RX 580(gfx803),ROCm 默认不会识别。
这时候可以用环境变量强制覆盖:
export HSA_OVERRIDE_GFX_VERSION=10.3.0 # 强制使用 gfx1030 兼容模式
这招不是所有情况都管用,但社区反馈对不少老卡有效。试试看,不行就只能回退到 CPU 了。
多 GPU 配置
和 NVIDIA 类似,AMD 也支持指定使用哪些显卡:
export ROCR_VISIBLE_DEVICES=0,1 # 使用第 0 和第 1 张显卡
查看显卡编号可以用 rocm-smi 命令。
常见 AMD 显卡架构代号
列一些常见型号对应的架构,方便排查:
| 显卡型号 | 架构代号 | ROCm 支持 |
|---|---|---|
| RX 7900 XTX | gfx1100 | 原生支持 |
| RX 6800 XT | gfx1030 | 原生支持 |
| RX 5700 XT | gfx1010 | 原生支持 |
| RX 580 | gfx803 | 需 HSA_OVERRIDE |
| Vega 56/64 | gfx900 | 原生支持 |
总的来说,AMD 的配置确实比 NVIDIA 多踩几个坑,但一旦跑通了,性能差距不大。
Apple Metal:Mac 用户的隐藏福利
如果你用的是 Apple Silicon 的 Mac(M1/M2/M3/M4),这里有个好消息:你什么都不用配置。
真的,什么都不用。装好 Ollama,运行模型,GPU 加速自动启用。Apple 的 Metal 框架已经被 Ollama 内置支持,系统会自动把模型加载到 GPU 上。
M 系列芯片的性能表现
根据社区实测,Mac 跑本地 LLM 的速度其实相当不错:
- M1/M2 8GB:跑 7B 模型,大约 15-20 tok/s
- M2 Pro 16GB:跑 14B 模型,能到 25-30 tok/s
- M3 Max 36GB:跑 30B 以上模型,也能维持 30+ tok/s
比起 CPU-only 的老机器,这速度已经很实用了。虽然比不上 RTX 4090 那种”秒回”级别,但日常写代码辅助、翻译润色这些场景完全够用。
2026 年的新福利:MLX 后端
如果你用的是 M 系列芯片,而且统一内存有 32GB 以上(比如 M3 Max、M4 Pro),还可以启用 MLX 后端——这是 Apple 专门为自家芯片优化的一套机器学习框架。
根据开发者社区的数据,MLX 后端能让推理速度提升 93%。什么意思呢?原来跑 Llama 3 8B 是每秒 57.8 个 token,换成 MLX 能冲到 111.4 tok/s。这差距,相当于从”还算流畅”变成”真的快”。
启用方法也不难,就是加个参数:
ollama run llama3 --backend mlx
不过要注意,MLX 目前对内存要求比较高,32GB 以下可能不太稳。还有,只有部分模型支持 MLX,主要是那些以 mlx 格式发布的版本。
怎么确认 GPU 在干活?
打开 Activity Monitor(活动监视器),切换到 GPU History 标签页。跑模型的时候,你应该能看到 GPU 使用率明显上涨。如果全程只有 CPU 在动、GPU 一点动静都没有,可能是 Metal 没启用,这种情况比较少见,通常重装一下 Ollama 就能解决。
GPU 检测失败了怎么办:常见问题排查
折腾硬件配置,踩坑几乎是必经之路。我把遇到过的问题和解决方案整理了一下,希望能帮你少走弯路。
问题 1:no compatible GPUs were discovered
这个报错最常见,意思就是 Ollama 找不到能用的显卡。
可能的原因:
- 驱动没装或者版本太老
- 显卡型号不支持(比如 GTX 700 系列这种老卡)
- Docker 容器没配置 GPU 访问权限
排查步骤:
# NVIDIA:确认驱动
nvidia-smi
# AMD:确认 ROCm
rocminfo
# 如果命令报错,先装驱动
问题 2:Not compiled with GPU offload support
这个错误说明你下载的 Ollama 版本没有 GPU 支持。
解决方法:去官网重新下载正确的版本。AMD 用户注意,Ollama 有专门的 ROCm 版本,下载链接和 CUDA 版本不一样。别下载错了。
问题 3:NVIDIA 驱动版本过低
Ollama 要求 NVIDIA 驱动版本至少 450 以上。如果你的系统还在用 400 多的老版本,CUDA 就没法工作。
# 查看当前驱动版本
nvidia-smi | grep "Driver Version"
# 如果版本太老,更新驱动
sudo apt install nvidia-driver-535
问题 4:AMD amdgpu 驱动缺失
Linux 下 AMD 显卡需要 amdgpu 驱动才能正常工作。有些系统默认装的是老版本 radeon 驱动,不支持 ROCm。
# 检查当前加载的驱动
lsmod | grep amdgpu
# 如果没有输出,需要手动安装
sudo apt install amdgpu-dkms
问题 5:SELinux 拒绝容器访问 GPU
这个坑我在 CentOS/RHEL 系的系统上遇到过。SELinux 默认策略会阻止容器访问 GPU 设备。
临时解决:
sudo setenforce 0 # 临时关闭 SELinux
永久解决需要调整 SELinux 策略,比较复杂,建议查阅 Red Hat 官方文档。或者干脆换 Ubuntu,省事。
验证命令汇总
最后给一个快速验证的命令清单,有问题的时候按这个顺序排查:
# 1. 看显卡是否被系统识别
nvidia-smi # NVIDIA
rocminfo # AMD
system_profiler SPDisplaysDataType # macOS
# 2. 看 Ollama 进程状态
ollama ps
# 3. 实时监控 GPU 使用(跑模型时)
watch -n 1 nvidia-smi # NVIDIA
rocm-smi -a # AMD
# 4. 查看环境变量
echo $CUDA_VISIBLE_DEVICES
echo $ROCR_VISIBLE_DEVICES
大多数问题都能通过这几个命令定位出来。实在搞不定,去 Ollama 的 GitHub Issues 搜索一下,社区里踩过坑的人不少。
写在最后
说了这么多,给你一个快速速查表:
| 平台 | 前置条件 | 配置难度 | 推荐程度 |
|---|---|---|---|
| NVIDIA | 驱动 450+ | 简单(基本零配置) | 首选 |
| AMD (Linux) | ROCm v7 | 中等(几步命令) | 次选 |
| AMD (Windows) | ROCm v6.1 Preview | 较难(建议用 WSL2) | 一般 |
| Apple Silicon | 无需配置 | 最简单 | Mac 用户首选 |
GPU 加速这事儿,一次配置,长期受益。从 CPU 的”能跑”到 GPU 的”好用”,体验差距真的很大。你的显卡是哪个平台?配置过程中遇到什么问题?欢迎在评论区分享,我看到会尽量回复。
Ollama GPU 加速配置
三平台 GPU 加速配置完整流程
⏱️ 预计耗时: 30 分钟
- 1
步骤1: 确认显卡型号和驱动
根据你的显卡类型选择验证方式:
- NVIDIA:运行 nvidia-smi 查看显卡信息
- AMD:运行 rocminfo 确认 ROCm 识别
- macOS:无需验证,Metal 自动启用 - 2
步骤2: NVIDIA CUDA 配置
最简单的方案,装好驱动即可:
1. 安装驱动:sudo apt install nvidia-driver-535
2. 重启系统
3. 验证:nvidia-smi 应显示显卡信息
4. Ollama 自动检测 CUDA,无需额外配置 - 3
步骤3: AMD ROCm 配置(Linux)
需要安装 ROCm v7:
1. 安装:sudo apt install amdgpu-install
2. 配置:sudo amdgpu-install --usecase=rocm
3. 权限:sudo usermod -aG render,video $USER
4. 重启后验证:rocminfo
5. 老显卡可能需要:export HSA_OVERRIDE_GFX_VERSION=10.3.0 - 4
步骤4: 验证 GPU 加速生效
运行模型时确认 GPU 正在工作:
- 运行 ollama ps 查看 GPU 使用率
- NVIDIA:nvidia-smi -l 1 实时监控
- AMD:rocm-smi -a 实时监控
- macOS:Activity Monitor 查看 GPU History - 5
步骤5: 多 GPU 环境配置
指定使用哪些显卡:
- NVIDIA:export CUDA_VISIBLE_DEVICES=0,2
- AMD:export ROCR_VISIBLE_DEVICES=0,1
- 将环境变量加到 ~/.bashrc 持久化
常见问题
Ollama 支持哪些 GPU 平台?
我的显卡显存不够怎么办?
如何确认 GPU 加速是否生效?
AMD 老显卡(如 RX 580)能用吗?
Docker 容器里怎么使用 GPU?
Apple Silicon 的 MLX 后端怎么启用?
报错 'no compatible GPUs were discovered' 怎么办?
12 分钟阅读 · 发布于: 2026年4月25日 · 修改于: 2026年4月25日
Ollama 本地 LLM 实战指南
如果你是从搜索进入这篇文章,建议顺手补上上一篇或继续下一篇,这样更容易把同一主题读完整。
上一篇
Ollama 生产环境监控:日志配置与 Prometheus 告警实战
完整 Ollama 生产部署监控方案,包含日志配置、Prometheus 指标采集、AlertManager 告警规则和 Grafana Dashboard 实战配置,实现 GPU 多卡监控与自动故障恢复
第 11 / 14 篇
下一篇
Ollama API 实战:Python 与 Node.js 客户端开发指南
详解 Ollama API 调用方法,涵盖 Python 与 Node.js SDK 原生调用、流式响应处理、工具调用 Agent Loop、thinking 模式及 OpenAI 兼容方案对比
第 13 / 14 篇

评论
使用 GitHub 账号登录后即可评论