Ollama ハードウェア選定表：VRAM・量子化・GPU 比較ガイド（2026）

Q: 7B モデルにはどれくらいの VRAM が必要？

Q4_K_M 量子化なら 4〜6GB。KV Cache と実行オーバーヘッドを足すと、少なくとも 8GB VRAM の GPU を推奨。

Q: RTX 3060 12GB と RTX 4060 8GB、LLM 実行にはどちらが向いている？

3060 12GB です。4060 は演算性能は高いものの、8GB VRAM がボトルネック。13B モデルでは VRAM 不足になります。LLM では演算力より VRAM が重要。

Q: Q4 量子化はモデル品質に大きく影響する？

いいえ。Q4_K_M の品質低下は 1〜3% だけ。ほとんどの用途では違いを感じにくい。モデルベンチマークをしない限り、Q4 で十分。

Q: AMD GPU で Ollama は動く？

はい。Linux なら ROCm が比較的安定。Windows では Vulkan を推奨（OLLAMA_VULKAN=1 を設定）。

Q: Mac ユーザーが最高性能を得るには？

Apple Silicon では Ollama が Metal を自動利用します。OLLAMA_ORIGINS は MLX の切り替えではなく、ブラウザの許可オリジン/CORS を設定する変数です。MLX 固有の高速化を使うなら、別の MLX ベースのランタイムを使います。

Q: 予算が限られているが 70B モデルを動かしたい場合は？

中古 RTX 3090 24GB × 2 = 48GB VRAM、合計約 $1200 がコスパ最高。または Mac M4 Max 128GB の単体構成。

Easton editorial illustration: central VRAM capacity gauge matching 7B, 13B, and 70B model blocks to CUDA, ROCm, and Metal docks

4-6 GB

7B Q4 の VRAM 要件

エントリー級 GPU で実行可能

40-48 GB

70B Q4 の VRAM 要件

48GB 以上のメモリまたはデュアル GPU が必要

自動

Mac Metal アクセラレーション

Apple Silicon では追加スイッチ不要

数据来源: 実測データと公式ドキュメント

ローカルで 7B モデルを動かすには、GPU にどれくらいの VRAM が必要でしょうか。13B なら？ネット上では「8GB で足りる」という声もあれば「最低 16GB」という意見も——結局どれを信じればいいのか。

この疑問に何ヶ月も悩まされました。Ollama を始めた去年、RTX 3060 12GB を買ったときは「12GB あれば十分でしょ」と思っていました。ところが 13B モデルを走らせると VRAM が溢れ、速度は 3 tokens/s まで落ち込み——まるで Web ページを三輪車で読んでいるような感覚。

後から分かったのは、VRAM の境界は物理的な壁だということ。越えれば地獄、越えなければ快適。

この記事では、市場の主流 GPU・モデルパラメータ数・量子化レベルをすべて対照表にまとめました。読み終われば、あなたの GPU でどのモデルが動くか、予算に合う GPU はどれか、すぐに判断できます。

一、核心対照表：VRAM 要件が一目で分かる

まず公式から。VRAM 要件の目安は次のとおりです。

VRAM 要件 ≈ パラメータ数(B) × 量子化ビット数 ÷ 8 + KV Cache(1〜2GB)

式はシンプルですが、実行できるモデルサイズを決める重要な指標。例えば 7B モデルを Q4 量子化（4-bit）で動かすと、7 × 4 ÷ 8 = 3.5GB。KV Cache と実行オーバーヘッドを足すと、実際には 4〜6GB 必要です。

完全な対照表はこちら。保存しておくと便利です。

モデルサイズ	Q4_K_M	Q5_K_M	Q8_0	FP16	推奨 GPU
7B	4-6 GB	5-6 GB	7-8 GB	14 GB	RTX 3060 12GB
13B	8-10 GB	10-12 GB	13-14 GB	26 GB	RTX 4060 Ti 16GB
32B	20-24 GB	24-28 GB	32-36 GB	64 GB	RTX 4090 24GB
70B	40-48 GB	48-56 GB	70-80 GB	140 GB	RTX 3090 × 2 / Mac M4 Max 128GB

表の重要ポイント：VRAM が足りないと、性能は 5〜20 倍も落ちる。

RTX 3060 12GB で 13B Q4_K_M を実測したことがあります。VRAM が境界線ギリギリ——動くときもあれば溢れるときも。溢れた瞬間、Ollama は一部データをシステムメモリに退避し、速度は 45 tokens/s から 2〜3 tokens/s へ。スポーツカーから三輪車に乗り換えたような感覚です。

GPU を選ぶときは、境界ギリギリより 2GB 多めを選びましょう。

二、量子化の選び方：Q4 vs Q5 vs Q8 実践アドバイス

量子化は VRAM 要件を下げる鍵です。

FP16 は元のモデル精度で、各パラメータを 16-bit で保持。Q4 量子化は 4-bit に圧縮し、VRAM 要件を半分近くに削減できます。ただし、圧縮で品質は落ちるのか？

答えは「はい、ただし想像より小さい」です。

実測データは次のとおり。

量子化レベル	7B モデル VRAM	品質低下	適用シーン
Q4_K_M	4.5 GB	1-3%	日常使用（推奨）
Q5_K_M	5.7 GB	<1%	精度重視
Q8_0	7.7 GB	<0.5%	最高品質
FP16	14 GB	0%	研究・比較ベンチマーク

Q4_K_M がデフォルトの選択肢。品質低下は 1〜3% で、ほとんどのシーンでは違いを感じにくい。Q4_K_M の Llama 3.1 8B で技術記事を書いたことがありますが、FP16 版と比べて肉眼では判別困難でした。

Q5_K_M は 16GB 以上 VRAM のユーザー向け。RTX 4060 Ti 16GB をお持ちなら、Q5 で推論品質が向上し、特に数学推論や長文生成で効果が出ます。

Q8_0 は元品質に近い。正直、モデルベンチマークや研究用途でなければ Q8 は不要。VRAM 要件は 2 倍になるのに、得られる改善は限定的です。

もう一点：Q3 と Q2 は避けましょう。品質低下が目に見えて、モデルが的外れな回答を始めます。VRAM が本当に 4GB しかない場合を除き、触らない方がいい。

おすすめ：まず Q4_K_M を試し、品質に不満があれば Q5 へ。大半のケースで Q4 で十分です。

三、3 大アクセラレーション技術比較：CUDA vs Metal vs ROCm

GPU 選びは VRAM だけではありません。アクセラレーション技術も重要。

Ollama は 4 種類の GPU バックエンドをサポート：NVIDIA CUDA、Apple Metal、AMD ROCm、Vulkan。それぞれ長所・短所があり、プラットフォームを間違えると性能が半分になることも。

比較表はこちら。

アクセラレーション	対応ハードウェア	7B 性能	OS サポート	成熟度
CUDA	NVIDIA GPU	30-80 tok/s	Win/Linux	★★★★★
Metal	Apple M1-M4	20-50 tok/s	macOS	★★★★★
ROCm	AMD RX 7000	25-60 tok/s	Linux 中心	★★★☆☆
Vulkan	AMD/Intel	15-40 tok/s	クロスプラットフォーム	★★★☆☆

CUDA：最も安定した選択

NVIDIA CUDA は現時点で最も成熟したソリューション。ドライバーが安定し、コミュニティサポートも充実、ドキュメントも豊富。Ollama をインストールすれば CUDA が自動認識され、設定をいじる必要はほぼありません。

私の RTX 3060 は CUDA で Llama 3.1 8B Q4 を走らせ、平均 45 tokens/s。推論は滑らかで、レスポンスも速く、快適な体験です。

CUDA の弱点は一つだけ——高い。NVIDIA GPU のプレミアムは深刻で、RTX 4090 は現在 $1800 前後。

Metal：Mac ユーザーの第一候補

Apple Metal は Mac 上で優秀なパフォーマンスを発揮。M1/M2/M3/M4 すべて対応。Mac の統合メモリアーキテクチャの強みは、VRAM とシステムメモリが共有されるため、より大きなモデルを動かせること。

Apple Metal アクセラレーションが Mac の大きな強みです。Apple Silicon では Ollama が Metal を自動利用し、統合メモリが十分なら設定はシンプルです。

OLLAMA_ORIGINS は性能スイッチではありません。ブラウザの許可オリジン/CORS を設定する変数で、MLX は有効化しません：

# Apple Silicon では Ollama が Metal を自動利用する
# OLLAMA_ORIGINS は Ollama API への追加ブラウザオリジン許可だけに使う
ollama serve

ただし前提条件あり：Mac は 32GB 以上の統合メモリが必要。16GB 以下だと大モデルは厳しい。

ROCm：AMD の険しい道

AMD ROCm は Linux ならまあまあ、Windows では手間がかかります。公式サポートは Linux が中心で、Windows 版は実験段階。バグが多く、互換性も不安定。

AMD GPU + Windows の場合は Vulkan への切り替えを推奨：

OLLAMA_VULKAN=1 ollama serve

Vulkan はクロスプラットフォームで互換性が高い。CUDA より少し遅いものの、安定して動きます。

私の提案：手間を避けたいなら NVIDIA CUDA。Mac ユーザーなら Metal の自動利用。AMD ユーザーは Linux + ROCm、または Windows + Vulkan。

四、GPU モデルおすすめ：エントリーからフラッグシップまで

予算別のグレード別おすすめ表です。

エントリー級（予算 $200〜400）

モデル	VRAM	適合モデル	性能	価格
RTX 3060 12GB	12GB	7B Q4, 13B Q4	40-60 tok/s	$250
RX 6600 8GB	8GB	7B Q4	30-45 tok/s	$200

RTX 3060 12GB がエントリーの第一候補。12GB VRAM で 7B Q4 と 13B Q4 が動き、コスパも抜群。「RTX 4060 8GB と RTX 3060 12GB、LLM にはどちら？」とよく聞かれます。

答えは明確：3060 12GB。4060 は演算力こそ高いが、8GB VRAM が致命的。13B モデルで VRAM 不足になり、体験は最悪です。

RX 6600 は予算が限られ 7B だけ動かすユーザー向け。ただし AMD は Windows 上で Vulkan 設定が必要で、NVIDIA ほど安定しません。

主流級（予算 $400〜800）

モデル	VRAM	適合モデル	性能	価格
RTX 4060 Ti 16GB	16GB	13B Q4/Q8, 14B Q4	50-80 tok/s	$400
RTX 4070 Super 12GB	12GB	7B Q8, 13B Q4	60-90 tok/s	$600

RTX 4060 Ti 16GB が最もおすすめ。16GB VRAM はちょうどスイートスポット——13B Q8 も 14B Q4 も問題なし。$400 でコスパも高い。

RTX 4070 Super は演算力が上ですが、12GB VRAM の制約で 13B Q4 まで。速度重視なら 4070 Super、モデルサイズ重視なら 4060 Ti 16GB。

ハイエンド級（予算 $1,200〜2,000）

モデル	VRAM	適合モデル	性能	価格
RTX 4090 24GB	24GB	32B Q4, 70B offload*	80-150 tok/s	$1,800
RTX 5090 32GB	32GB	32B Q8, 70B Q4 offload*	モデル次第	$2,000
RX 7900 XTX 24GB	24GB	32B Q4	60-100 tok/s	$900

*注：24/32GB の単体カードで 70B を動かすには offload やより積極的な量子化が必要です。70B Q4 を安定させるなら、RTX 3090 × 2 または 48GB 以上のメモリ構成が現実的です。

RTX 4090 は現行フラッグシップ。24GB VRAM で 32B Q4 は余裕、70B は offload、より積極的な量子化、またはデュアル GPU が必要。

RTX 5090 32GB は 2026 年の新フラッグシップで、公式仕様は 32GB GDDR7 です。4090 より 70B Q4 を単体カードで試しやすい一方、長いコンテキストや実行オーバーヘッドでは offload が必要になることがあります。70B Q5/Q8 の完全な解とは考えないほうが安全です。

RX 7900 XTX はコスパ良好。24GB VRAM が $900。ただし AMD ROCm は Windows 上で不安定——Linux ユーザー向け。

Mac ユーザー向け

チップ	統合メモリ	適合モデル	性能
M4 Pro	24GB	14B Q4	35-55 tok/s
M4 Max	128GB	70B Q4	28-30 tok/s
M3 Ultra	192GB	70B+、複数モデル並列	25-35 tok/s

Mac の統合メモリアーキテクチャにより、より大きなモデルを動かせます。M4 Max 128GB なら 70B Q4 を量子化の妥協なしで実行可能。

Mac の弱点は速度。M4 Max で 70B でも 28〜30 tok/s と、RTX 4090 より大幅に遅い。速度重視なら NVIDIA、モデルの完全性と手軽さ重視なら Mac が向いています。

コスパ最強：中古 RTX 3090 24GB

隠れた選択肢があります：中古 RTX 3090 24GB。

中古市場では RTX 3090 が約 $600。単体 24GB は 32B Q4 に向いています。70B Q4 が目標なら RTX 3090 × 2 がより現実的で、単体では重い offload と積極的量子化を受け入れる必要があります。4090 より演算力は劣るものの、価格は半分。

友人が中古 3090 を買い、1 年以上問題なく使っています。信頼できる出品者を見つけ、マイニング用の掘り出し物は避けることが前提。

五、購入判断フロー

4 章を読んでも、まだ迷うかもしれません。表も多い、型番も多い——どう選ぶ？

シンプルなフローで、一歩ずつ決めていきましょう。

ステップ 1：目標モデルを決める

何を動かしたいか。これが核心です。

日常会話・執筆支援：7B で十分（Llama 3.1 8B、Qwen 2.5 7B）
コード支援・技術 Q&A：13B〜14B が適切（Qwen 2.5 14B、DeepSeek Coder）
複雑な推論・長文生成：32B〜70B（DeepSeek V3、Qwen 2.5 72B）

大半の人は 7B か 13B を選びます。70B は特殊なニーズがなければ不要。

ステップ 2：量子化の好みを決める

VRAM が厳しい：Q4_K_M（デフォルト）
VRAM に余裕：Q5_K_M（精度重視）
研究・比較：Q8_0 または FP16

まず Q4_K_M から。大半のシーンで品質は十分、VRAM も節約できます。

ステップ 3：表で VRAM を確認

第 1 章の対照表に戻り、モデル + 量子化の組み合わせで VRAM 要件を確認。

例：Llama 3.1 8B Q4_K_M なら 4〜6GB。最低 8GB VRAM の GPU が必要（2GB の安全マージン込み）。

ステップ 4：予算で GPU を選ぶ

VRAM 要件と予算を組み合わせ、第 4 章のグレード別表を参照。

予算 $200〜400：RTX 3060 12GB
予算 $400〜800：RTX 4060 Ti 16GB
予算 $1,200+：RTX 4090 24GB または RTX 5090 32GB
Mac ユーザー：M4 Max 128GB

ステップ 5：プラットフォーム対応を確認

最後に OS プラットフォームをチェック。

Windows：NVIDIA CUDA が最も安定、AMD は Vulkan
Linux：NVIDIA CUDA と AMD ROCm ともに安定
macOS：Apple Metal は自動利用。統合メモリ容量を重視

判断例

Llama 3.3 70B を動かしたいと仮定します。

目標モデル：70B
量子化：Q4_K_M（コスパ重視）
VRAM 要件：表より 40〜48GB
予算：$1,500 前後
プラットフォーム：Windows

結果分析：

RTX 4090 24GB：単体では不足、デュアル GPU か積極的量子化が必要
RTX 5090 32GB：70B Q4 を単体カードで試す候補としては強いが、長いコンテキストでは offload が必要な場合あり
中古 RTX 3090 24GB × 2：$1,200、48GB VRAM、コスパ最高
Mac M4 Max 128GB：完全実行可能だが速度は遅め

最終提案：予算重視なら中古デュアル RTX 3090。CUDA を単体カードで使いたいなら RTX 5090 32GB。Mac ユーザーなら M4 Max 128GB が 70B を完全に動かす単体構成としてより向いています。

まとめ

ハードウェア選定の核心は一言で：VRAM が上限を決め、量子化が下限を決める。

対照表 1 枚、おすすめリスト 1 つ、3 大アクセラレーション技術の比較——この記事で迷っていた点を整理しました。

まだ迷っているなら、次の黄金律を覚えておいてください。

予算が限られている：RTX 3060 12GB、エントリーの第一候補。7B と 13B が動く
性能重視：RTX 4090 24GB または 4060 Ti 16GB、スイートスポットからフラッグシップまで
Mac ユーザー：M4 Max 128GB、70B を完全に動かせる唯一の単体構成
コスパ最強：中古 RTX 3090 24GB、単体なら 32B 向き。70B なら 2 枚構成

Ollama の実践テクニックは、本シリーズの他記事もどうぞ：Ollama GPU アクセラレーションガイド、ローカル LLM モデル選択比較。

FAQ

7B モデルにはどれくらいの VRAM が必要？

Q4_K_M 量子化なら 4〜6GB。KV Cache と実行オーバーヘッドを足すと、少なくとも 8GB VRAM の GPU を推奨。

RTX 3060 12GB と RTX 4060 8GB、LLM 実行にはどちらが向いている？

3060 12GB です。4060 は演算性能は高いものの、8GB VRAM がボトルネック。13B モデルでは VRAM 不足になります。LLM では演算力より VRAM が重要。

Q4 量子化はモデル品質に大きく影響する？

いいえ。Q4_K_M の品質低下は 1〜3% だけ。ほとんどの用途では違いを感じにくい。モデルベンチマークをしない限り、Q4 で十分。

AMD GPU で Ollama は動く？

はい。Linux なら ROCm が比較的安定。Windows では Vulkan を推奨（OLLAMA_VULKAN=1 を設定）。

Mac ユーザーが最高性能を得るには？

Apple Silicon では Ollama が Metal を自動利用します。OLLAMA_ORIGINS は MLX の切り替えではなく、ブラウザの許可オリジン/CORS を設定する変数です。MLX 固有の高速化を使うなら、別の MLX ベースのランタイムを使います。

予算が限られているが 70B モデルを動かしたい場合は？

中古 RTX 3090 24GB × 2 = 48GB VRAM、合計約 $1200 がコスパ最高。または Mac M4 Max 128GB の単体構成。

7分で読めます · 公開日: 2026年5月28日 · 更新日: 2026年7月14日

Easton

AI・インテリジェンス

Ollama ハードウェア選定表：VRAM・量子化・GPU 比較ガイド（2026）

一、核心対照表：VRAM 要件が一目で分かる

二、量子化の選び方：Q4 vs Q5 vs Q8 実践アドバイス

三、3 大アクセラレーション技術比較：CUDA vs Metal vs ROCm

CUDA：最も安定した選択

Metal：Mac ユーザーの第一候補

ROCm：AMD の険しい道

四、GPU モデルおすすめ：エントリーからフラッグシップまで

エントリー級（予算 $200〜400）

主流級（予算 $400〜800）

ハイエンド級（予算 $1,200〜2,000）

Mac ユーザー向け

コスパ最強：中古 RTX 3090 24GB

五、購入判断フロー

ステップ 1：目標モデルを決める

ステップ 2：量子化の好みを決める

ステップ 3：表で VRAM を確認

ステップ 4：予算で GPU を選ぶ

ステップ 5：プラットフォーム対応を確認

判断例

まとめ

FAQ

Ollama シリーズ: ローカル LLM の導入、設定、アプリケーション実戦

Llama 70B ローカル実行：5700XT・Mac M4・CUDA 3 構成比較と選定ガイド

Ollama GPU アクセラレーション設定：CUDA・ROCm・Metal 全プラットフォーム実践ガイド

Ollama 入門：ローカルで大規模言語モデルを動かす第一歩

Ollama モデル管理：ダウンロード、切り替え、削除とバージョン管理の完全ガイド

コメント

一、核心対照表：VRAM 要件が一目で分かる

二、量子化の選び方：Q4 vs Q5 vs Q8 実践アドバイス

三、3 大アクセラレーション技術比較：CUDA vs Metal vs ROCm

CUDA：最も安定した選択

Metal：Mac ユーザーの第一候補

ROCm：AMD の険しい道

四、GPU モデルおすすめ：エントリーからフラッグシップまで

エントリー級（予算 $200〜400）

主流級（予算 $400〜800）

ハイエンド級（予算 $1,200〜2,000）

Mac ユーザー向け

コスパ最強：中古 RTX 3090 24GB

五、購入判断フロー

ステップ 1：目標モデルを決める

ステップ 2：量子化の好みを決める

ステップ 3：表で VRAM を確認

ステップ 4：予算で GPU を選ぶ

ステップ 5：プラットフォーム対応を確認

判断例

まとめ

FAQ

Ollama シリーズ: ローカル LLM の導入、設定、アプリケーション実戦

Llama 70B ローカル実行：5700XT・Mac M4・CUDA 3 構成比較と選定ガイド

Ollama GPU アクセラレーション設定：CUDA・ROCm・Metal 全プラットフォーム実践ガイド

関連記事

Ollama 入門：ローカルで大規模言語モデルを動かす第一歩

Ollama モデル管理：ダウンロード、切り替え、削除とバージョン管理の完全ガイド

コメント