Ollama ハードウェア選定表:VRAM・量子化・GPU 比較ガイド(2026)
Ollama ハードウェア選定表:VRAM・量子化・GPU 比較ガイド(2026)
ローカルで7Bモデルを実行したい場合、GPUにはどのくらいのVRAMが必要でしょうか?13Bならどうでしょう?ネット上では「8GBで十分」という人もいれば、「最低でも16GBが必要」という人もいます。一体どちらを信じればいいのでしょうか?
この問題に数ヶ月間悩まされました。昨年、Ollamaを使い始めた頃、RTX 3060 12GBを購入し、「12GBのVRAMなら十分だろう」と思っていました。しかし、13Bモデルを実行した際、VRAM不足になり、速度が3 tokens/sまで低下。まるでカタツムリがWebページを這うような遅さでした。
その後、ようやく理解できました。VRAMの境界は絶対的な境界線です。超えてしまえば地獄、超えなければ天国です。
この記事では、市場の主要なGPU、モデルパラメータ数、量子化レベルをすべて比較表にまとめました。読み終えれば、自分のGPUでどのモデルが実行できるか、自分の予算に最適なGPUはどれか、すぐに判断できるようになります。
一、核心比較表:VRAM要件が一目瞭然
まずは公式です。VRAM要件は概ね次のようになります。
VRAM要件 ≈ パラメータ数(B) × 量子化ビット数 ÷ 8 + KV Cache(1-2GB)
公式はシンプルに見えますが、実行可能なモデルサイズを決定します。例えば、7BモデルでQ4量子化(4-bit)を使用する場合、VRAM要件は約 7 × 4 ÷ 8 = 3.5GB。KV Cacheと実行オーバーヘッドを加えると、実際には4-6GBが必要です。
これが完全な比較表です。保存しておくことをお勧めします。
| モデルサイズ | Q4_K_M | Q5_K_M | Q8_0 | FP16 | 推奨GPU |
|---|---|---|---|---|---|
| 7B | 4-6 GB | 5-6 GB | 7-8 GB | 14 GB | RTX 3060 12GB |
| 13B | 8-10 GB | 10-12 GB | 13-14 GB | 26 GB | RTX 4060 Ti 16GB |
| 32B | 20-24 GB | 24-28 GB | 32-36 GB | 64 GB | RTX 4090 24GB |
| 70B | 40-48 GB | 48-56 GB | 70-80 GB | 140 GB | RTX 5090 32GB |
この表には重要なポイントがあります。VRAMが不足すると、パフォーマンスが5-20倍低下します。
RTX 3060 12GBで13B Q4_K_Mを実行した際、実測しました。VRAMがギリギリの境界線上にあります。時々実行でき、時々VRAM不足になります。VRAM不足になった場合、Ollamaは一部のデータをシステムメモリに転送し、速度が45 tokens/sから2-3 tokens/sまで低下します。スポーツカーから急に三輪車に乗り換えたような感覚です。
そのため、GPUを購入する際は、2GB余分に購入しても、ギリギリの境界線に留めないようにしましょう。
二、量子化の選択:Q4 vs Q5 vs Q8 実践的アドバイス
量子化はVRAM要件を下げる重要な手段です。
FP16は元のモデル精度で、各パラメータは16-bitで保存されます。Q4量子化はこれを4-bitに圧縮し、VRAM要件を半分にします。しかし、圧縮はモデル品質に影響を与えるのでしょうか?
答えは:影響しますが、想像より小さいです。
これが実測データです。
| 量子化レベル | 7BモデルVRAM | 品質低下 | 適用シーン |
|---|---|---|---|
| Q4_K_M | 4.5 GB | 1-3% | 日常使用(推奨) |
| Q5_K_M | 5.7 GB | <1% | 精度重視 |
| Q8_0 | 7.7 GB | <0.5% | 最高品質 |
| FP16 | 14 GB | 0% | 研究/比較ベースライン |
Q4_K_Mはデフォルトの選択です。品質低下はわずか1-3%で、ほとんどのシーンで違いはわかりません。Q4_K_MのLlama 3.1 8Bで数本の技術記事を書きましたが、FP16版と比較しても、違いは肉眼で判別できません。
Q5_K_Mは16GB以上のVRAMを持つユーザーに適しています。RTX 4060 Ti 16GBをお持ちなら、Q5はより良い推論品質を提供します。特に数学的推論と長文生成において。
Q8_0は元の品質に近いです。正直なところ、モデル評価や研究を行わない限り、Q8を使う必要はありません。VRAM要件が倍増しますが、利益は限定的です。
もう一つ:Q3とQ2は避けましょう。これら2つの量子化レベルは明らかな品質低下があり、モデルがデタラメを言い始めます。VRAMが本当に不足している場合(例えば4GBしかない場合)以外は、触らないでください。
私の推奨:まずQ4_K_Mを使い、品質に満足できないならQ5に変更。ほとんどの場合、Q4で十分です。
三、3大アクセラレーション技術比較:CUDA vs Metal vs ROCm
GPUを選ぶ際は、VRAMだけでなく、アクセラレーション技術も考慮する必要があります。
Ollamaは4種類のGPUバックエンドをサポートしています:NVIDIA CUDA、Apple Metal、AMD ROCm、Vulkan。それぞれ長所と短所があり、間違ったプラットフォームを選ぶと、パフォーマンスが半分になる可能性があります。
これが比較表です。
| アクセラレーション技術 | 適用ハードウェア | 7Bパフォーマンス | システムサポート | 成熟度 |
|---|---|---|---|---|
| CUDA | NVIDIA GPU | 30-80 tok/s | Win/Linux | ★★★★★ |
| Metal | Apple M1-M4 | 20-50 tok/s | macOS | ★★★★★ |
| ROCm | AMD RX 7000 | 25-60 tok/s | Linux中心 | ★★★☆☆ |
| Vulkan | AMD/Intel | 15-40 tok/s | クロスプラットフォーム | ★★★☆☆ |
CUDA:最も安定した選択
NVIDIA CUDAは現在、最も成熟したソリューションです。ドライバーは安定、コミュニティサポートは充実、ドキュメントも整っています。Ollamaをインストールすれば、CUDAは自動的に認識され、設定をいじる必要はありません。
私のRTX 3060でCUDAを使ってLlama 3.1 8B Q4を実行すると、平均45 tokens/sです。推論はスムーズ、レスポンスは速く、体験は良好です。
CUDAの問題点は一つだけ:高い。NVIDIA GPUはプレミアム価格で、RTX 4090は現在約$1800です。
Metal:Macユーザーの第一選択
Apple MetalはMac上で非常に良いパフォーマンスを発揮します。M1/M2/M3/M4すべてサポートしており、Macの統合メモリアーキテクチャには利点があります。VRAMとシステムメモリが共有されるため、より大きなモデルを実行できます。
MLXバックエンドが鍵です。MLXを有効にすると、速度はほぼ2倍になります。実測データ:7Bモデルが57.8 tok/sから111.4 tok/sに向上、93%の上昇です。
MLXを有効にする方法:
# MLXバージョンをインストール
OLLAMA_ORIGINS=MLX ollama serve
ただし、前提条件があります。Macには最低でも32GBの統合メモリが必要です。16GB以下では大規模モデルの実行は厳しいです。
ROCm:AMDの困難な道
AMD ROCmはLinux上ではまだ使えますが、Windows上ではかなり面倒です。公式はLinuxをサポートしており、Windows版はまだ実験段階で、バグが多く、互換性も低いです。
AMD GPU + Windowsを使用する場合、Vulkanへの切り替えをお勧めします。
OLLAMA_VULKAN=1 ollama serve
Vulkanはクロスプラットフォーム互換で、CUDAより少し遅いですが、少なくとも安定して動作します。
私のアドバイス:設定をいじりたくないなら、NVIDIA CUDAを選んでください。Macユーザーなら、Metal + MLXを使ってください。AMDユーザーは Linux + ROCm、または Windows + Vulkan で進めてください。
四、GPUモデル推奨:エントリーからフラッグシップまで
予算別のグレード推奨表です。
エントリーレベル(予算 $200-400)
| モデル | VRAM | 適合モデル | パフォーマンス | 価格 |
|---|---|---|---|---|
| RTX 3060 12GB | 12GB | 7B Q4, 13B Q4 | 40-60 tok/s | $250 |
| RX 6600 8GB | 8GB | 7B Q4 | 30-45 tok/s | $200 |
RTX 3060 12GBはエントリー用の第一選択です。12GBのVRAMで7B Q4と13B Q4を実行でき、コスパは非常に高いです。多くの人が聞いてきます。RTX 4060 8GBとRTX 3060 12GB、どっちがLLM実行に適しているか?
答えは明確です。3060 12GB。4060は計算力が高いですが、8GBのVRAMが致命的です。13Bモデルを実行するとVRAM不足になり、体験は非常に悪いです。
RX 6600は予算が限られていて、7Bだけを実行するユーザーに適しています。ただし、AMDはWindows上でVulkanの設定が必要で、NVIDIAほど安定していません。
メインストリーム(予算 $400-800)
| モデル | VRAM | 適合モデル | パフォーマンス | 価格 |
|---|---|---|---|---|
| RTX 4060 Ti 16GB | 16GB | 13B Q4/Q8, 14B Q4 | 50-80 tok/s | $400 |
| RTX 4070 Super 12GB | 12GB | 7B Q8, 13B Q4 | 60-90 tok/s | $600 |
RTX 4060 Ti 16GBは私が最も推奨するモデルです。16GBのVRAMがちょうどスイートスポットに位置しています。13B Q8を実行するのに十分、14B Q4も実行可能。価格は$400で、コスパは非常に高いです。
RTX 4070 Superは計算力が高いですが、12GBのVRAM制限により、13B Q4までしか実行できません。速度を追求するなら、4070 Superは良い選択です。モデルサイズを追求するなら、やはり4060 Ti 16GBを選んでください。
ハイエンド(予算 $1,200-2,000)
| モデル | VRAM | 適合モデル | パフォーマンス | 価格 |
|---|---|---|---|---|
| RTX 4090 24GB | 24GB | 32B Q4, 70B Q4* | 80-150 tok/s | $1,800 |
| RTX 5090 32GB | 32GB | 70B Q5/Q8 | 150-200 tok/s | $2,000 |
| RX 7900 XTX 24GB | 24GB | 32B Q4 | 60-100 tok/s | $900 |
*注:RTX 4090のシングルカードで70B Q4を実行するには、より積極的な量子化(Q4_K_S)またはデュアルカード構成が必要です。
RTX 4090は現在のフラッグシップの選択です。24GBのVRAMで32B Q4は問題なく実行可能、70Bはより積極的な量子化またはデュアルカード構成が必要です。
RTX 5090 32GBは2026年の新しいフラッグシップで、32GBのVRAMでちょうど70B Q5を実行できます。価格は$2,000ですが、頻繁に大規模モデルを実行するなら、投資価値があります。
RX 7900 XTXはコスパが良く、24GBのVRAMが$900で販売されています。ただし、AMD ROCmはWindows上で不安定なので、Linuxユーザーに推奨します。
Macユーザー向け推奨
| チップ | 統合メモリ | 適合モデル | パフォーマンス |
|---|---|---|---|
| M4 Pro | 24GB | 14B Q4 | 35-55 tok/s |
| M4 Max | 128GB | 70B Q4 | 28-30 tok/s |
| M3 Ultra | 192GB | 70B+, マルチモデル並列 | 25-35 tok/s |
Macの統合メモリアーキテクチャにより、より大きなモデルを実行できます。M4 Max 128GBは70B Q4を完全に実行でき、量子化の妥協が不要です。
ただし、Macの欠点は速度です。M4 Maxで70Bを実行すると28-30 tok/sしか出ず、RTX 4090よりかなり遅いです。速度を追求するなら、やはりNVIDIAを選んでください。モデルの完全性と使いやすさを追求するなら、Macは良い選択です。
コスパキング:中古 RTX 3090 24GB
ここに隠れたオプションがあります。中古 RTX 3090 24GB。
現在、中古市場でRTX 3090は約$600です。24GBのVRAMで、32B Q4と70B Q4(積極的な量子化)を実行可能。計算力は4090より少し弱いですが、価格は半分です。
友人が中古の3090を購入し、1年以上問題なく動作しています。ただし、信頼できる販売者を見つけ、マイニングカードを避けることが前提です。
五、選択決定プロセス
上記の4章を読んで、まだ少し混乱しているかもしれません。表が多すぎて、モデルが多すぎて、どう選べばいいのでしょうか?
ここにシンプルなプロセスがあります。一歩一歩決定を支援します。
ステップ1:ターゲットモデルを決定
どのモデルを実行したいですか?これが核心的な質問です。
- 日常会話、執筆支援:7Bで十分(Llama 3.1 8B、Qwen 2.5 7B)
- コード支援、技術Q&A:13B-14Bが良い(Qwen 2.5 14B、DeepSeek Coder)
- 複雑な推論、長文生成:32B-70B(DeepSeek V3、Qwen 2.5 72B)
ほとんどの人は7Bまたは13Bを選択します。70Bの大規模モデルは特別なニーズがない限り、必要ありません。
ステップ2:量子化の好みを決定
量子化はどう選びますか?
- VRAMが限られている:Q4_K_M(デフォルトの選択)
- VRAMに余裕がある:Q5_K_M(精度重視)
- 研究比較:Q8_0またはFP16
まずQ4_K_Mを使うことをお勧めします。ほとんどのシーンで品質は十分で、VRAM要件も低いです。
ステップ3:表を確認してVRAMをマッチング
第1章の比較表に戻り、モデルと量子化の組み合わせに対応するVRAM要件を見つけてください。
例えば、Llama 3.1 8B Q4_K_Mを実行したい場合、表を見ると4-6GBです。最低でも8GBのVRAMを持つGPUが必要です(2GBの安全マージンを残す)。
ステップ4:予算に応じてGPUを選択
VRAM要件と予算を組み合わせ、第4章のグレード別推奨表を見てください。
- 予算 $200-400:RTX 3060 12GB
- 予算 $400-800:RTX 4060 Ti 16GB
- 予算 $1,200+:RTX 4090 24GBまたはRTX 5090 32GB
- Macユーザー:M4 Max 128GB
ステップ5:プラットフォームサポートを確認
最後に、システムプラットフォームを確認します。
- Windows:NVIDIA CUDAが最も安定、AMDはVulkanを使用
- Linux:NVIDIA CUDAとAMD ROCmの両方が安定
- macOS:Apple Metal + MLX、93%の速度向上
決定例
例えば、Llama 3.3 70Bを実行したいと仮定します。
- ターゲットモデル:70B
- 量子化の好み:Q4_K_M(コスパ)
- VRAM要件:表を見ると40-48GB
- 予算:約$1,500
- プラットフォーム:Windows
結果分析:
- RTX 4090 24GB:シングルカードでは不足、デュアルカードまたは積極的な量子化が必要
- RTX 5090 32GB:シングルカードでギリギリ、Q4_K_Sで実行可能
- 中古デュアル RTX 3090 24GB × 2:$1,200、48GB VRAM、コスパ良好
- Mac M4 Max 128GB:完全に実行可能、ただし速度は遅い
最終提案:予算が限られているなら、中古デュアルRTX 3090を選んでください。安定性を追求するなら、RTX 5090 32GBを選んでください。Macユーザーなら、M4 Max 128GBは70Bを完全に実行できる唯一のシングル構成です。
まとめ
ハードウェア選定の核心ロジック、一言で表すと:VRAMが上限を決定し、量子化が下限を決定します。
1つの比較表、1つの推奨リスト、3つのアクセラレーション技術比較。この記事が、あなたが悩んでいる問題を整理しました。
まだ迷っているなら、このゴールデンルールを覚えておいてください:
- 予算が限られている:RTX 3060 12GB、エントリー用の第一選択、7Bと13Bを実行可能
- パフォーマンスを追求:RTX 4090 24GBまたは4060 Ti 16GB、スイートスポットからフラッグシップまで揃う
- Macユーザー:M4 Max 128GB、70Bを完全に実行できる唯一のシングル構成
- コスパキング:中古 RTX 3090 24GB、$600で32Bと70Bを実行可能
より多くのOllama実践テクニックは、本シリーズの他の記事をご覧ください:Ollama GPU Acceleration Guide、ローカルLLMモデル選択比較。
FAQ
7B モデルにはどのくらいのVRAMが必要?
RTX 3060 12GB と RTX 4060 8GB、どっちがLLM実行に適してる?
Q4 量子化はモデル品質に明らかな影響を与える?
AMD GPUでOllamaを実行できる?
Macユーザーが最高のパフォーマンスを得るには?
予算が限られているが70Bモデルを実行したい場合どうすれば?
7 min read · 公開日: 2026年5月28日 · 更新日: 2026年5月31日
Ollama ローカル LLM 実践ガイド
検索からこのページに来た場合は、前後の記事もあわせて読むと同じテーマの理解がかなり早く深まります。
前の記事
Ollama + Open WebUI: ローカルでChatGPTライクなインターフェースを構築(完全ガイド)
OllamaとOpen WebUIを使ってローカル環境にChatGPT風のAI対話インターフェースを構築する手順を解説。インストール、モデル選択、RAG知識ベース、API連携、パフォーマンスチューニングまで、30分でローカルAIアシスタントを構築
第 7 / 18 記事
次の記事
Ollama パフォーマンス最適化実践:量子化・バッチ処理・メモリチューニング完全ガイド
Ollama の量子化技術(Q4/Q5/Q8)の選び方、バッチ処理 num_batch 設定でスループットを 50-150% 向上させる方法、GPU メモリ管理と OOM 解決策を詳しく解説。各ハードウェアでのパフォーマンスベンチマークデータ付き。
第 9 / 18 記事
関連記事
Ollama 入門:ローカルで大規模言語モデルを実行する第一歩
Ollama 入門:ローカルで大規模言語モデルを実行する第一歩
Ollama モデル管理完全ガイド:ダウンロード、切り替え、削除とバージョン管理
Ollama モデル管理完全ガイド:ダウンロード、切り替え、削除とバージョン管理
Ollama Modelfile パラメータ詳解:カスタムモデル作成の完全ガイド
コメント
GitHubアカウントでログインしてコメントできます