切换语言
切换主题

Ollama 硬件选型表:显存、量化、GPU 对照指南(2026)

4-6 GB
7B Q4 显存需求
入门级显卡即可运行
40-48 GB
70B Q4 显存需求
需要 RTX 5090 或双卡
93%
Mac MLX 性能提升
启用后速度翻倍
数据来源: 实测数据与官方文档

Ollama 硬件选型表:显存、量化、GPU 对照指南(2026)

你想在本地跑一个 7B 模型,显卡到底要多少显存?13B 呢?网上有人说 8GB 够了,有人说至少 16GB——到底听谁的?

这个问题困扰了我好几个月。去年我刚接触 Ollama 的时候,买了一块 RTX 3060 12GB,心想”12GB 显存应该够了吧”。结果跑 13B 模型的时候,直接爆显存,速度跌到 3 tokens/s,慢得像蜗牛爬网页。

后来才明白:显存边界是硬边界。你跨过去就是地狱,没跨过去就是天堂。

这篇文章把市面上主流显卡、模型参数量、量化级别全部整理成对照表。看完你就能直接判断:你的显卡能跑什么模型,什么显卡最适合你的预算。

一、核心对照表:显存需求一看就懂

先说公式。VRAM 需求大概等于:

显存需求 ≈ 参数量(B) × 量化位数 ÷ 8 + KV Cache(1-2GB)

公式看着简单,但它决定了你能跑多大的模型。举个例子,7B 模型用 Q4 量化(4-bit),显存需求大概是 7 × 4 ÷ 8 = 3.5GB,加上 KV Cache 和运行开销,实际需要 4-6GB。

这是完整的对照表,建议直接保存:

模型大小Q4_K_MQ5_K_MQ8_0FP16推荐显卡
7B4-6 GB5-6 GB7-8 GB14 GBRTX 3060 12GB
13B8-10 GB10-12 GB13-14 GB26 GBRTX 4060 Ti 16GB
32B20-24 GB24-28 GB32-36 GB64 GBRTX 4090 24GB
70B40-48 GB48-56 GB70-80 GB140 GBRTX 5090 32GB

表格有个关键点:显存不足时,性能暴跌 5-20 倍

我实测过 RTX 3060 12GB 跑 13B Q4_K_M。显存刚好卡在边界线上——有时候能跑,有时候爆显存。爆显存的时候,Ollama 会把部分数据转移到系统内存,速度从 45 tokens/s 跌到 2-3 tokens/s。那种感觉就像你开着跑车突然换成了三轮车。

所以买显卡的时候,宁可多买 2GB,也不要刚好卡在边界。

二、量化选择:Q4 vs Q5 vs Q8 实战建议

量化是降低显存需求的关键手段。

FP16 是原始模型精度,每个参数用 16-bit 存储。Q4 量化把它压缩到 4-bit,显存需求直接砍一半。但问题是:压缩会不会影响模型质量?

答案是:会,但影响比你想象的小。

这是实测数据:

量化级别7B 模型显存质量损失适用场景
Q4_K_M4.5 GB1-3%日常使用(推荐)
Q5_K_M5.7 GB<1%追求精度
Q8_07.7 GB<0.5%最大质量
FP1614 GB0%研究/对比基准

Q4_K_M 是默认选择。它的质量损失只有 1-3%,大多数场景根本感觉不出来。我用 Q4_K_M 的 Llama 3.1 8B 写过几篇技术文章,对比 FP16 版本,差异肉眼难辨。

Q5_K_M 适合有 16GB+ 显存的用户。如果你刚好有 RTX 4060 Ti 16GB,Q5 能给你更好的推理质量,尤其是数学推理和长文本生成。

Q8_0 接近原始质量。说实话,除非你做模型评测或者研究,否则没必要用 Q8。显存需求翻倍,收益却很有限。

还有一点:避开 Q3 和 Q2。这两个量化级别质量损失明显,模型会开始胡说八道。除非你的显存真的不够用(比如只有 4GB),否则别碰。

我的推荐:先用 Q4_K_M,如果质量不满意再换 Q5。大多数情况下 Q4 就够了。

三、三大加速技术对比:CUDA vs Metal vs ROCm

选显卡不只是看显存,还得看加速技术。

Ollama 支持四种 GPU 后端:NVIDIA CUDA、Apple Metal、AMD ROCm、Vulkan。它们各有优劣,选错了平台,性能可能打折一半。

这是对比表:

加速技术适用硬件7B 性能系统支持成熟度
CUDANVIDIA GPU30-80 tok/sWin/Linux★★★★★
MetalApple M1-M420-50 tok/smacOS★★★★★
ROCmAMD RX 700025-60 tok/sLinux为主★★★☆☆
VulkanAMD/Intel15-40 tok/s跨平台★★★☆☆

CUDA:最稳的选择

NVIDIA CUDA 是目前最成熟的方案。驱动稳定、社区支持完善、文档齐全。你装好 Ollama,CUDA 自动识别,不用折腾配置。

我的 RTX 3060 用 CUDA 跑 Llama 3.1 8B Q4,平均 45 tokens/s。推理流畅,响应快,体验很好。

CUDA 的问题只有一个:贵。NVIDIA 显卡溢价严重,RTX 4090 现在要 $1800 左右。

Metal:Mac 用户的首选

Apple Metal 在 Mac 上表现很好。M1/M2/M3/M4 都支持,而且 Mac 的统一内存架构有个优势:显存和系统内存共享,你可以跑更大的模型。

MLX 后端是关键。启用 MLX 后,速度能提升近一倍。实测数据:7B 模型从 57.8 tok/s 提升到 111.4 tok/s,涨幅 93%。

启用 MLX 的方法:

# 安装 MLX 版本
OLLAMA_ORIGINS=MLX ollama serve

但有个前提:你的 Mac 至少要有 32GB 统一内存。16GB 以下跑大模型会很吃力。

ROCm:AMD 的艰难之路

AMD ROCm 在 Linux 上还行,Windows 上就比较折腾了。官方支持 Linux,Windows 版本还在实验阶段,bug 多、兼容性差。

如果你用 AMD 显卡 + Windows,建议换用 Vulkan:

OLLAMA_VULKAN=1 ollama serve

Vulkan 跨平台兼容,虽然速度比 CUDA 慢一点,但至少能稳定跑。

我的建议:如果你不想折腾,选 NVIDIA CUDA。如果你是 Mac 用户,用 Metal + MLX。AMD 用户走 Linux + ROCm,或者 Windows + Vulkan。

四、GPU 型号推荐:从入门到旗舰

这是分级推荐表格,按预算划分。

入门级(预算 $200-400)

型号显存适合模型性能价格
RTX 3060 12GB12GB7B Q4, 13B Q440-60 tok/s$250
RX 6600 8GB8GB7B Q430-45 tok/s$200

RTX 3060 12GB 是入门首选。12GB 显存能跑 7B Q4 和 13B Q4,性价比极高。很多人问我:RTX 4060 8GB 和 RTX 3060 12GB 哪个更适合 LLM?

答案很明确:3060 12GB。4060 算力更强,但 8GB 显存是硬伤。跑 13B 模型会爆显存,体验很差。

RX 6600 适合预算有限、只跑 7B 的用户。但 AMD 在 Windows 上需要折腾 Vulkan,不如 NVIDIA 稳定。

主流级(预算 $400-800)

型号显存适合模型性能价格
RTX 4060 Ti 16GB16GB13B Q4/Q8, 14B Q450-80 tok/s$400
RTX 4070 Super 12GB12GB7B Q8, 13B Q460-90 tok/s$600

RTX 4060 Ti 16GB 是我最推荐的型号。16GB 显存刚好卡在甜蜜点:跑 13B Q8 够用,跑 14B Q4 也够用。价格 $400,性价比很高。

RTX 4070 Super 算力更强,但 12GB 显存限制它只能跑 13B Q4。如果你追求速度,4070 Super 是好选择。如果追求模型大小,还是选 4060 Ti 16GB。

高端级(预算 $1,200-2,000)

型号显存适合模型性能价格
RTX 4090 24GB24GB32B Q4, 70B Q4*80-150 tok/s$1,800
RTX 5090 32GB32GB70B Q5/Q8150-200 tok/s$2,000
RX 7900 XTX 24GB24GB32B Q460-100 tok/s$900

*注:RTX 4090 单卡跑 70B Q4 需要量化更激进(Q4_K_S),或使用双卡配置。

RTX 4090 是目前的旗舰选择。24GB 显存跑 32B Q4 完全没问题,70B 需要更激进的量化或者双卡配置。

RTX 5090 32GB 是 2026 年的新旗舰,32GB 显存刚好能跑 70B Q5。价格 $2,000,但如果你经常跑大模型,值得投资。

RX 7900 XTX 性价比不错,24GB 显存只卖 $900。但 AMD ROCm 在 Windows 上不稳定,建议 Linux 用户考虑。

Mac 用户推荐

芯片统一内存适合模型性能
M4 Pro24GB14B Q435-55 tok/s
M4 Max128GB70B Q428-30 tok/s
M3 Ultra192GB70B+, 多模型并行25-35 tok/s

Mac 的统一内存架构让它能跑更大的模型。M4 Max 128GB 能完整运行 70B Q4,不需要量化妥协。

但 Mac 的缺点是速度。M4 Max 跑 70B 只有 28-30 tok/s,比 RTX 4090 慢很多。如果你追求速度,还是选 NVIDIA。如果你追求模型完整性和易用性,Mac 是好选择。

性价比之王:二手 RTX 3090 24GB

这里有个隐藏选项:二手 RTX 3090 24GB

现在二手市场 RTX 3090 大概 $600。24GB 显存,能跑 32B Q4 和 70B Q4(激进量化)。算力虽然比 4090 弱一点,但价格砍了一半。

我有个朋友买了二手 3090,跑了一年多没出问题。前提是你得找靠谱的卖家,避开矿卡。

五、选购决策流程

看完上面四章,你可能还是有点懵。太多表格、太多型号,怎么选?

这里有个简单流程,帮你一步步做决定。

第一步:确定目标模型

你想跑什么模型?这是核心问题。

  • 日常对话、写作辅助:7B 就够了(Llama 3.1 8B、Qwen 2.5 7B)
  • 代码辅助、技术问答:13B-14B 更好(Qwen 2.5 14B、DeepSeek Coder)
  • 复杂推理、长文本生成:32B-70B(DeepSeek V3、Qwen 2.5 72B)

大多数人选 7B 或 13B。70B 大模型除非你有特殊需求,否则没必要。

第二步:确定量化偏好

量化怎么选?

  • 显存紧张:Q4_K_M(默认选择)
  • 显存宽裕:Q5_K_M(追求精度)
  • 研究对比:Q8_0 或 FP16

我建议先用 Q4_K_M。大多数场景质量够用,显存需求低。

第三步:查表匹配显存

回到第一章的对照表,找到你的模型 + 量化组合对应的显存需求。

比如你要跑 Llama 3.1 8B Q4_K_M,查表得到 4-6GB。那你需要至少 8GB 显存的显卡(留 2GB 安全余量)。

第四步:根据预算选显卡

把显存需求和预算结合,看第四章的分级推荐表。

  • 预算 $200-400:RTX 3060 12GB
  • 预算 $400-800:RTX 4060 Ti 16GB
  • 预算 $1,200+:RTX 4090 24GB 或 RTX 5090 32GB
  • Mac 用户:M4 Max 128GB

第五步:确认平台支持

最后检查你的系统平台:

  • Windows:NVIDIA CUDA 最稳,AMD 需用 Vulkan
  • Linux:NVIDIA CUDA 和 AMD ROCm 都稳定
  • macOS:Apple Metal + MLX,速度提升 93%

决策示例

举个例子,假设你想跑 Llama 3.3 70B:

  1. 目标模型:70B
  2. 量化偏好:Q4_K_M(性价比)
  3. 显存需求:查表得到 40-48GB
  4. 预算:$1,500 左右
  5. 平台:Windows

结果分析:

  • RTX 4090 24GB:单卡不够,需要双卡或激进量化
  • RTX 5090 32GB:单卡勉强,Q4_K_S 可跑
  • 二手双 RTX 3090 24GB × 2:$1,200,48GB 显存,性价比高
  • Mac M4 Max 128GB:完整运行,但速度慢

最终建议:如果预算有限,选二手双 RTX 3090。如果追求稳定,选 RTX 5090 32GB。如果你是 Mac 用户,M4 Max 128GB 是唯一能完整跑 70B 的单机方案。

总结

硬件选型的核心逻辑,一句话:显存决定上限,量化决定下限

一张对照表、一个推荐清单、三个加速技术对比——这篇帮你把纠结的问题理清楚了。

如果你还在犹豫,记住这条黄金法则:

  • 预算有限:RTX 3060 12GB,入门首选,能跑 7B 和 13B
  • 追求性能:RTX 4090 24GB 或 4060 Ti 16GB,甜品级到旗舰级都有
  • Mac 用户:M4 Max 128GB,唯一能完整跑 70B 的单机方案
  • 性价比之王:二手 RTX 3090 24GB,$600 能跑 32B 和 70B

更多 Ollama 实战技巧,查看本系列其他文章:Ollama GPU Acceleration Guide本地 LLM 模型选择对比

常见问题

7B 模型到底需要多少显存?
Q4_K_M 量化下需要 4-6GB,加上 KV Cache 和运行开销,建议至少 8GB 显存的显卡。
RTX 3060 12GB 和 RTX 4060 8GB 哪个更适合跑 LLM?
3060 12GB。4060 算力更强但 8GB 显存是硬伤,跑 13B 模型会爆显存。显存比算力更重要。
Q4 量化会明显影响模型质量吗?
不会。Q4_K_M 质量损失只有 1-3%,大多数场景感觉不出来。除非做模型评测,否则用 Q4 就够了。
AMD 显卡能跑 Ollama 吗?
可以。Linux 上用 ROCm 较稳定,Windows 上建议用 Vulkan(设置 OLLAMA_VULKAN=1)。
Mac 用户如何获得最佳性能?
启用 MLX 后端(OLLAMA_ORIGINS=MLX),性能能提升近一倍。前提是 Mac 至少要有 32GB 统一内存。
预算有限但想跑 70B 模型怎么办?
二手双 RTX 3090 24GB × 2 = 48GB 显存,总价约 $1200,性价比最高。或选 Mac M4 Max 128GB 单机方案。

10 分钟阅读 · 发布于: 2026年5月28日 · 修改于: 2026年5月31日

相关文章

BetterLink

想持续收到这个主题的更新?

你可以直接关注作者更新、订阅 RSS,或者继续沿着系列入口往下读,避免下次又回到搜索结果重新找。

关注公众号

评论

使用 GitHub 账号登录后即可评论