言語を切り替える
テーマを切り替える

Ollama ハードウェア選定表:VRAM・量子化・GPU 比較ガイド(2026)

4-6 GB
7B Q4 VRAM要件
エントリーレベルGPUで実行可能
40-48 GB
70B Q4 VRAM要件
RTX 5090 またはデュアルGPUが必要
93%
Mac MLX 性能向上
有効化で速度が倍増
数据来源: 実測データと公式ドキュメント

Ollama ハードウェア選定表:VRAM・量子化・GPU 比較ガイド(2026)

ローカルで7Bモデルを実行したい場合、GPUにはどのくらいのVRAMが必要でしょうか?13Bならどうでしょう?ネット上では「8GBで十分」という人もいれば、「最低でも16GBが必要」という人もいます。一体どちらを信じればいいのでしょうか?

この問題に数ヶ月間悩まされました。昨年、Ollamaを使い始めた頃、RTX 3060 12GBを購入し、「12GBのVRAMなら十分だろう」と思っていました。しかし、13Bモデルを実行した際、VRAM不足になり、速度が3 tokens/sまで低下。まるでカタツムリがWebページを這うような遅さでした。

その後、ようやく理解できました。VRAMの境界は絶対的な境界線です。超えてしまえば地獄、超えなければ天国です。

この記事では、市場の主要なGPU、モデルパラメータ数、量子化レベルをすべて比較表にまとめました。読み終えれば、自分のGPUでどのモデルが実行できるか、自分の予算に最適なGPUはどれか、すぐに判断できるようになります。

一、核心比較表:VRAM要件が一目瞭然

まずは公式です。VRAM要件は概ね次のようになります。

VRAM要件 ≈ パラメータ数(B) × 量子化ビット数 ÷ 8 + KV Cache(1-2GB)

公式はシンプルに見えますが、実行可能なモデルサイズを決定します。例えば、7BモデルでQ4量子化(4-bit)を使用する場合、VRAM要件は約 7 × 4 ÷ 8 = 3.5GB。KV Cacheと実行オーバーヘッドを加えると、実際には4-6GBが必要です。

これが完全な比較表です。保存しておくことをお勧めします。

モデルサイズQ4_K_MQ5_K_MQ8_0FP16推奨GPU
7B4-6 GB5-6 GB7-8 GB14 GBRTX 3060 12GB
13B8-10 GB10-12 GB13-14 GB26 GBRTX 4060 Ti 16GB
32B20-24 GB24-28 GB32-36 GB64 GBRTX 4090 24GB
70B40-48 GB48-56 GB70-80 GB140 GBRTX 5090 32GB

この表には重要なポイントがあります。VRAMが不足すると、パフォーマンスが5-20倍低下します

RTX 3060 12GBで13B Q4_K_Mを実行した際、実測しました。VRAMがギリギリの境界線上にあります。時々実行でき、時々VRAM不足になります。VRAM不足になった場合、Ollamaは一部のデータをシステムメモリに転送し、速度が45 tokens/sから2-3 tokens/sまで低下します。スポーツカーから急に三輪車に乗り換えたような感覚です。

そのため、GPUを購入する際は、2GB余分に購入しても、ギリギリの境界線に留めないようにしましょう。

二、量子化の選択:Q4 vs Q5 vs Q8 実践的アドバイス

量子化はVRAM要件を下げる重要な手段です。

FP16は元のモデル精度で、各パラメータは16-bitで保存されます。Q4量子化はこれを4-bitに圧縮し、VRAM要件を半分にします。しかし、圧縮はモデル品質に影響を与えるのでしょうか?

答えは:影響しますが、想像より小さいです。

これが実測データです。

量子化レベル7BモデルVRAM品質低下適用シーン
Q4_K_M4.5 GB1-3%日常使用(推奨)
Q5_K_M5.7 GB<1%精度重視
Q8_07.7 GB<0.5%最高品質
FP1614 GB0%研究/比較ベースライン

Q4_K_Mはデフォルトの選択です。品質低下はわずか1-3%で、ほとんどのシーンで違いはわかりません。Q4_K_MのLlama 3.1 8Bで数本の技術記事を書きましたが、FP16版と比較しても、違いは肉眼で判別できません。

Q5_K_Mは16GB以上のVRAMを持つユーザーに適しています。RTX 4060 Ti 16GBをお持ちなら、Q5はより良い推論品質を提供します。特に数学的推論と長文生成において。

Q8_0は元の品質に近いです。正直なところ、モデル評価や研究を行わない限り、Q8を使う必要はありません。VRAM要件が倍増しますが、利益は限定的です。

もう一つ:Q3とQ2は避けましょう。これら2つの量子化レベルは明らかな品質低下があり、モデルがデタラメを言い始めます。VRAMが本当に不足している場合(例えば4GBしかない場合)以外は、触らないでください。

私の推奨:まずQ4_K_Mを使い、品質に満足できないならQ5に変更。ほとんどの場合、Q4で十分です。

三、3大アクセラレーション技術比較:CUDA vs Metal vs ROCm

GPUを選ぶ際は、VRAMだけでなく、アクセラレーション技術も考慮する必要があります。

Ollamaは4種類のGPUバックエンドをサポートしています:NVIDIA CUDA、Apple Metal、AMD ROCm、Vulkan。それぞれ長所と短所があり、間違ったプラットフォームを選ぶと、パフォーマンスが半分になる可能性があります。

これが比較表です。

アクセラレーション技術適用ハードウェア7Bパフォーマンスシステムサポート成熟度
CUDANVIDIA GPU30-80 tok/sWin/Linux★★★★★
MetalApple M1-M420-50 tok/smacOS★★★★★
ROCmAMD RX 700025-60 tok/sLinux中心★★★☆☆
VulkanAMD/Intel15-40 tok/sクロスプラットフォーム★★★☆☆

CUDA:最も安定した選択

NVIDIA CUDAは現在、最も成熟したソリューションです。ドライバーは安定、コミュニティサポートは充実、ドキュメントも整っています。Ollamaをインストールすれば、CUDAは自動的に認識され、設定をいじる必要はありません。

私のRTX 3060でCUDAを使ってLlama 3.1 8B Q4を実行すると、平均45 tokens/sです。推論はスムーズ、レスポンスは速く、体験は良好です。

CUDAの問題点は一つだけ:高い。NVIDIA GPUはプレミアム価格で、RTX 4090は現在約$1800です。

Metal:Macユーザーの第一選択

Apple MetalはMac上で非常に良いパフォーマンスを発揮します。M1/M2/M3/M4すべてサポートしており、Macの統合メモリアーキテクチャには利点があります。VRAMとシステムメモリが共有されるため、より大きなモデルを実行できます。

MLXバックエンドが鍵です。MLXを有効にすると、速度はほぼ2倍になります。実測データ:7Bモデルが57.8 tok/sから111.4 tok/sに向上、93%の上昇です。

MLXを有効にする方法:

# MLXバージョンをインストール
OLLAMA_ORIGINS=MLX ollama serve

ただし、前提条件があります。Macには最低でも32GBの統合メモリが必要です。16GB以下では大規模モデルの実行は厳しいです。

ROCm:AMDの困難な道

AMD ROCmはLinux上ではまだ使えますが、Windows上ではかなり面倒です。公式はLinuxをサポートしており、Windows版はまだ実験段階で、バグが多く、互換性も低いです。

AMD GPU + Windowsを使用する場合、Vulkanへの切り替えをお勧めします。

OLLAMA_VULKAN=1 ollama serve

Vulkanはクロスプラットフォーム互換で、CUDAより少し遅いですが、少なくとも安定して動作します。

私のアドバイス:設定をいじりたくないなら、NVIDIA CUDAを選んでください。Macユーザーなら、Metal + MLXを使ってください。AMDユーザーは Linux + ROCm、または Windows + Vulkan で進めてください。

四、GPUモデル推奨:エントリーからフラッグシップまで

予算別のグレード推奨表です。

エントリーレベル(予算 $200-400)

モデルVRAM適合モデルパフォーマンス価格
RTX 3060 12GB12GB7B Q4, 13B Q440-60 tok/s$250
RX 6600 8GB8GB7B Q430-45 tok/s$200

RTX 3060 12GBはエントリー用の第一選択です。12GBのVRAMで7B Q4と13B Q4を実行でき、コスパは非常に高いです。多くの人が聞いてきます。RTX 4060 8GBとRTX 3060 12GB、どっちがLLM実行に適しているか?

答えは明確です。3060 12GB。4060は計算力が高いですが、8GBのVRAMが致命的です。13Bモデルを実行するとVRAM不足になり、体験は非常に悪いです。

RX 6600は予算が限られていて、7Bだけを実行するユーザーに適しています。ただし、AMDはWindows上でVulkanの設定が必要で、NVIDIAほど安定していません。

メインストリーム(予算 $400-800)

モデルVRAM適合モデルパフォーマンス価格
RTX 4060 Ti 16GB16GB13B Q4/Q8, 14B Q450-80 tok/s$400
RTX 4070 Super 12GB12GB7B Q8, 13B Q460-90 tok/s$600

RTX 4060 Ti 16GBは私が最も推奨するモデルです。16GBのVRAMがちょうどスイートスポットに位置しています。13B Q8を実行するのに十分、14B Q4も実行可能。価格は$400で、コスパは非常に高いです。

RTX 4070 Superは計算力が高いですが、12GBのVRAM制限により、13B Q4までしか実行できません。速度を追求するなら、4070 Superは良い選択です。モデルサイズを追求するなら、やはり4060 Ti 16GBを選んでください。

ハイエンド(予算 $1,200-2,000)

モデルVRAM適合モデルパフォーマンス価格
RTX 4090 24GB24GB32B Q4, 70B Q4*80-150 tok/s$1,800
RTX 5090 32GB32GB70B Q5/Q8150-200 tok/s$2,000
RX 7900 XTX 24GB24GB32B Q460-100 tok/s$900

*注:RTX 4090のシングルカードで70B Q4を実行するには、より積極的な量子化(Q4_K_S)またはデュアルカード構成が必要です。

RTX 4090は現在のフラッグシップの選択です。24GBのVRAMで32B Q4は問題なく実行可能、70Bはより積極的な量子化またはデュアルカード構成が必要です。

RTX 5090 32GBは2026年の新しいフラッグシップで、32GBのVRAMでちょうど70B Q5を実行できます。価格は$2,000ですが、頻繁に大規模モデルを実行するなら、投資価値があります。

RX 7900 XTXはコスパが良く、24GBのVRAMが$900で販売されています。ただし、AMD ROCmはWindows上で不安定なので、Linuxユーザーに推奨します。

Macユーザー向け推奨

チップ統合メモリ適合モデルパフォーマンス
M4 Pro24GB14B Q435-55 tok/s
M4 Max128GB70B Q428-30 tok/s
M3 Ultra192GB70B+, マルチモデル並列25-35 tok/s

Macの統合メモリアーキテクチャにより、より大きなモデルを実行できます。M4 Max 128GBは70B Q4を完全に実行でき、量子化の妥協が不要です。

ただし、Macの欠点は速度です。M4 Maxで70Bを実行すると28-30 tok/sしか出ず、RTX 4090よりかなり遅いです。速度を追求するなら、やはりNVIDIAを選んでください。モデルの完全性と使いやすさを追求するなら、Macは良い選択です。

コスパキング:中古 RTX 3090 24GB

ここに隠れたオプションがあります。中古 RTX 3090 24GB

現在、中古市場でRTX 3090は約$600です。24GBのVRAMで、32B Q4と70B Q4(積極的な量子化)を実行可能。計算力は4090より少し弱いですが、価格は半分です。

友人が中古の3090を購入し、1年以上問題なく動作しています。ただし、信頼できる販売者を見つけ、マイニングカードを避けることが前提です。

五、選択決定プロセス

上記の4章を読んで、まだ少し混乱しているかもしれません。表が多すぎて、モデルが多すぎて、どう選べばいいのでしょうか?

ここにシンプルなプロセスがあります。一歩一歩決定を支援します。

ステップ1:ターゲットモデルを決定

どのモデルを実行したいですか?これが核心的な質問です。

  • 日常会話、執筆支援:7Bで十分(Llama 3.1 8B、Qwen 2.5 7B)
  • コード支援、技術Q&A:13B-14Bが良い(Qwen 2.5 14B、DeepSeek Coder)
  • 複雑な推論、長文生成:32B-70B(DeepSeek V3、Qwen 2.5 72B)

ほとんどの人は7Bまたは13Bを選択します。70Bの大規模モデルは特別なニーズがない限り、必要ありません。

ステップ2:量子化の好みを決定

量子化はどう選びますか?

  • VRAMが限られている:Q4_K_M(デフォルトの選択)
  • VRAMに余裕がある:Q5_K_M(精度重視)
  • 研究比較:Q8_0またはFP16

まずQ4_K_Mを使うことをお勧めします。ほとんどのシーンで品質は十分で、VRAM要件も低いです。

ステップ3:表を確認してVRAMをマッチング

第1章の比較表に戻り、モデルと量子化の組み合わせに対応するVRAM要件を見つけてください。

例えば、Llama 3.1 8B Q4_K_Mを実行したい場合、表を見ると4-6GBです。最低でも8GBのVRAMを持つGPUが必要です(2GBの安全マージンを残す)。

ステップ4:予算に応じてGPUを選択

VRAM要件と予算を組み合わせ、第4章のグレード別推奨表を見てください。

  • 予算 $200-400:RTX 3060 12GB
  • 予算 $400-800:RTX 4060 Ti 16GB
  • 予算 $1,200+:RTX 4090 24GBまたはRTX 5090 32GB
  • Macユーザー:M4 Max 128GB

ステップ5:プラットフォームサポートを確認

最後に、システムプラットフォームを確認します。

  • Windows:NVIDIA CUDAが最も安定、AMDはVulkanを使用
  • Linux:NVIDIA CUDAとAMD ROCmの両方が安定
  • macOS:Apple Metal + MLX、93%の速度向上

決定例

例えば、Llama 3.3 70Bを実行したいと仮定します。

  1. ターゲットモデル:70B
  2. 量子化の好み:Q4_K_M(コスパ)
  3. VRAM要件:表を見ると40-48GB
  4. 予算:約$1,500
  5. プラットフォーム:Windows

結果分析:

  • RTX 4090 24GB:シングルカードでは不足、デュアルカードまたは積極的な量子化が必要
  • RTX 5090 32GB:シングルカードでギリギリ、Q4_K_Sで実行可能
  • 中古デュアル RTX 3090 24GB × 2:$1,200、48GB VRAM、コスパ良好
  • Mac M4 Max 128GB:完全に実行可能、ただし速度は遅い

最終提案:予算が限られているなら、中古デュアルRTX 3090を選んでください。安定性を追求するなら、RTX 5090 32GBを選んでください。Macユーザーなら、M4 Max 128GBは70Bを完全に実行できる唯一のシングル構成です。

まとめ

ハードウェア選定の核心ロジック、一言で表すと:VRAMが上限を決定し、量子化が下限を決定します

1つの比較表、1つの推奨リスト、3つのアクセラレーション技術比較。この記事が、あなたが悩んでいる問題を整理しました。

まだ迷っているなら、このゴールデンルールを覚えておいてください:

  • 予算が限られている:RTX 3060 12GB、エントリー用の第一選択、7Bと13Bを実行可能
  • パフォーマンスを追求:RTX 4090 24GBまたは4060 Ti 16GB、スイートスポットからフラッグシップまで揃う
  • Macユーザー:M4 Max 128GB、70Bを完全に実行できる唯一のシングル構成
  • コスパキング:中古 RTX 3090 24GB、$600で32Bと70Bを実行可能

より多くのOllama実践テクニックは、本シリーズの他の記事をご覧ください:Ollama GPU Acceleration GuideローカルLLMモデル選択比較

FAQ

7B モデルにはどのくらいのVRAMが必要?
Q4_K_M 量子化では 4-6GB が必要。KV Cacheと実行オーバーヘッドを加えると、最低でも8GBのVRAMを持つGPUを推奨。
RTX 3060 12GB と RTX 4060 8GB、どっちがLLM実行に適してる?
3060 12GB。4060は計算力が高いが、8GBのVRAMが致命的。13Bモデルを実行するとVRAM不足になる。VRAMは計算力より重要。
Q4 量子化はモデル品質に明らかな影響を与える?
いいえ。Q4_K_M の品質低下はわずか1-3%、ほとんどのシーンで違いはわかりません。モデル評価を行うのでなければ、Q4で十分です。
AMD GPUでOllamaを実行できる?
可能。LinuxではROCmが比較的安定、WindowsではVulkanの使用を推奨(OLLAMA_VULKAN=1を設定)。
Macユーザーが最高のパフォーマンスを得るには?
MLXバックエンドを有効化(OLLAMA_ORIGINS=MLX)、パフォーマンスが約2倍向上。前提として、Macには最低32GBの統合メモリが必要。
予算が限られているが70Bモデルを実行したい場合どうすれば?
中古のデュアル RTX 3090 24GB × 2 = 48GB VRAM、総額約$1200、最高のコスパ。または Mac M4 Max 128GB のシングル構成。

7 min read · 公開日: 2026年5月28日 · 更新日: 2026年5月31日

関連記事

コメント

GitHubアカウントでログインしてコメントできます