言語を切り替える
テーマを切り替える

API 請求書の不安を解消:モデルルーティングで OpenClaw コストを 80% 削減する方法

先月届いた Anthropic の請求書——$340。予想の 3 倍超えです。OpenClaw アシスタントはメール返信、メモ整理、たまにコード片の執筆といった日常の雑務しかしていないのに、なぜこんなに?

ログを掘ると原因が見えました。デフォルト設定では、すべてのリクエストが最も高価な Claude Opus 4.6 を通っていたのです。ハートビート、簡単なクエリ、ファイル操作——一律に高額モデル。サブエージェントが並列で動くたびに、それぞれが「お金を燃やす」状態でした。

週末を使って OpenClaw のモデルルーティングを調べると、賢く階層化すれば「安いモデル」に単純作業を任せ、本当に深い思考が必要なタスクだけ「高額モデル」に回せることがわかりました。1 ヶ月後、請求は $68 まで下がりました。

低コスト「エビ飼育」ガイド:ArkClaw で AI エージェントを身近に

話題の OpenClaw(ロブスタ)は便利ですが、設定のハードルが高い——そんな声も多いでしょう。バイトダンスの火山引擎が出した ArkClaw は、その敷居を一気に下げました。サーバーや Token 設定をいじらず、ワンクリックで 24 時間オンライン、ブラウザ操作・スクリプト実行・カレンダー管理ができる「AI 下請け」が手に入ります。

何より安い。月額 9.9 元、招待コード ZLKUK54M(こちらから登録)なら 8.9 元。プログラマーなら Coding Plan Pro に入ると無料で使える場合もあります。

OpenClaw のコストのブラックホールを理解する

なぜデフォルト設定はこんなに高いのか

まず、目を引く数字の一覧です。

モデル入力価格 ($/MTok)出力価格 ($/MTok)適した用途
Claude Opus 4.6$5.00$25.00複雑な推論、長文ドキュメント分析
Claude Sonnet 4.5$0.80$4.00一般タスク、コード生成
Claude Haiku 3.5$0.25$1.25簡単なクエリ、高速応答
Llama 3 (ローカル)$0$0ハートビート、ファイル操作、基本 Q&A

MTok = Million Tokens、100 万トークン

簡単な計算をしてみましょう。1 日 100 メッセージ、1 件あたり平均 500 トークンと仮定します。

すべて Opus なら、100 × 500 × $5 / 1,000,000 = $0.25/日、つまり $7.5/月

悪くないように聞こえますか?

問題は——この計算が甘すぎることです。OpenClaw のシステムプロンプトだけで 2k〜4k トークン。ツール呼び出しやリトライも加わると、実消費は素朴な計算の 3〜5 倍になります。

隠れたコストの落とし穴

落とし穴 1:ハートビートリクエスト(Heartbeat)

30 秒ごとのハートビートチェックは、1 日 2880 回。中身が空でも、毎回フルシステムプロンプトが付きます。

これがまさに「トークン税」です。

落とし穴 2:サブエージェント(Sub-agents)

並列タスクでは各サブエージェントもメインモデルを使用。「カレンダーを確認して」のような単純操作まで Opus——想像するだけで痛いです。

落とし穴 3:リトライ機構

ネットワークの揺らぎで自動リトライすると、失敗したリクエスト分のトークンは既に課金対象。結果は返ってこない。お金だけ消える。

3 層モデルルーティング戦略

核心理念:タスクの階層化

すべてのリクエストが最も高価なモデルに値するわけではありません。

3 層の体系を作ります。

┌─────────────────────────────────────────────┐
│  Layer 1: ローカルモデル(Llama 3 / Qwen など)      │
│  → ハートビート、ファイル操作、簡単な Q&A、状態確認        │
│  → コスト:$0                                 │
├─────────────────────────────────────────────┤
│  Layer 2: 軽量クラウド(Claude Haiku / GPT-4o-mini)│
│  → 日常会話、メール起草、簡単なコード              │
│  → コスト:$0.25/MTok                         │
├─────────────────────────────────────────────┤
│  Layer 3: 重量級(Claude Opus / GPT-4o)   │
│  → 複雑なアーキテクチャ設計、深い分析、クリエイティブ執筆          │
│  → コスト:$5/MTok(ただし使用量は極少)              │
└─────────────────────────────────────────────┘

要するに、適材適所です。

設定実践:OpenClaw + Ollama ローカルモデル

Step 1: Ollama のインストールと起動

# macOS/Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows はインストーラー取得後
ollama serve

# 適したモデルを pull
ollama pull llama3.2:latest      # 軽量、単純タスク向け
ollama pull qwen2.5:14b          # より強力、ツール呼び出し対応

Step 2: OpenClaw でローカルモデルを使う

~/.openclaw/openclaw.json を編集します。

{
  "models": {
    "defaults": {
      "model": "ollama/qwen2.5:14b",
      "fallbacks": [
        "anthropic/claude-sonnet-4-5",
        "anthropic/claude-opus-4-6"
      ]
    },
    "providers": {
      "ollama": {
        "type": "openai-compatible",
        "baseUrl": "http://127.0.0.1:11434/v1",
        "apiKey": "ollama"
      }
    }
  }
}

ポイントは次のとおりです。

  • baseUrl:Ollama はデフォルトで 11434 ポート
  • context window:OpenClaw は少なくとも 64k コンテキストが必要。モデル選びに注意
  • tool calling:すべてのローカルモデルが対応しているわけではない。qwen2.5 や mistral-nemo を推奨

高度なルーティング:タスク種別による賢い割り当て

OpenRouter Auto Model の利用

{
  "models": {
    "defaults": {
      "model": "openrouter/openrouter/auto",
      "fallbacks": [
        "anthropic/claude-sonnet-4-5"
      ]
    }
  }
}

OpenRouter の Auto モードは、プロンプトの複雑さに応じて最も安い適切モデルを自動選択。手間がかかりません。

カスタムルーティング(iblai-openclaw-router)

より細かく制御したい場合は、オープンソースの iblai-openclaw-router が使えます。

{
  "routing": {
    "enabled": true,
    "tiers": {
      "free": {
        "models": ["ollama/llama3.2"],
        "keywords": ["heartbeat", "status", "ping", "check"]
      },
      "cheap": {
        "models": ["anthropic/claude-haiku-3-5"],
        "maxCostPerRequest": 0.001
      },
      "standard": {
        "models": ["anthropic/claude-sonnet-4-5"]
      },
      "premium": {
        "models": ["anthropic/claude-opus-4-6"],
        "keywords": ["architect", "design", "analyze deeply", "complex"]
      }
    }
  }
}

実例:1 ヶ月のコスト比較

最適化前の請求内訳

ある開発者の典型的な月間利用(コミュニティの実データ):

用途リクエスト数推定トークンモデル費用
日常会話800400kOpus 4.6$10.00
コード補助200600kOpus 4.6$18.00
ハートビート86,400172MOpus 4.6$860.00
ファイル操作15075kOpus 4.6$1.88
サブエージェント300450kOpus 4.6$13.50
合計$903.38

ハートビートの $860、見えましたか?最大の元凶です。

最適化後の請求

3 層ルーティング導入後:

用途リクエスト数推定トークンモデル費用
日常会話800400kSonnet 4.5$1.60
コード補助200600kOpus 4.6$18.00
ハートビート86,400172MLlama 3 (ローカル)$0
ファイル操作15075kLlama 3 (ローカル)$0
サブエージェント300450kSonnet 4.5$1.80
合計$21.40
97.6%
節約率

極端な例です——この方のハートビート比率が異常に高かったから。実際の節約は利用パターンにより 70〜80% 程度が一般的です。

シナリオ別の想定節約

利用シーン元の月平均最適化後節約率
ライト(<100 メッセージ/日)$50-80$15-2570%
ミドル(100-500 メッセージ/日)$200-400$50-10075%
ヘビー(>500 メッセージ/日 + サブエージェント)$500-1000$100-25080%

避坑ガイド:よくある問題と対処

ローカルモデルが応答しない・エラーになる

症状:

Error: Connection refused
またはモデルが空内容を返す

確認手順:

  1. Ollama が動いているか:ollama list
  2. ポート確認:curl http://127.0.0.1:11434/api/tags
  3. モデル取得済みか:ollama pull qwen2.5:14b
  4. コンテキスト拡張:一部モデルはデフォルト 4k。OpenClaw は 64k 以上が必要

コスパの良い組み合わせ:

ollama pull qwen2.5:14b-instruct    # ツール呼び出し対応、多言語向き
ollama pull mistral-nemo:latest     # バランス型
ollama pull glm-4.7-flash           # 軽量・高速

ツール呼び出しが失敗する

原因:すべてのローカルモデルが function calling に対応しているわけではない。

対処:

  • tool use 対応と明記されたモデル(qwen2.5、mistral-nemo など)を使う
  • 特定モデルでツール呼び出しをオフにする:
{
  "models": {
    "ollama/llama3.2": {
      "supportsTools": false
    }
  }
}

Fallback チェーンの設定ミス

よくある誤り:

// 誤り:Anthropic レート制限時、Sonnet と Opus が同時に使えなくなる可能性
"fallbacks": [
  "anthropic/claude-sonnet-4-5",
  "anthropic/claude-opus-4-6"
]

// 正解:プロバイダーをまたぐ Fallback
"fallbacks": [
  "anthropic/claude-sonnet-4-5",
  "openai/gpt-4o",
  "google/gemini-pro"
]

品質が下がったら

ローカルモデルで処理しきれないタスクがある場合:

  1. 段階的アップグレード:ローカル → Haiku → Sonnet → Opus
  2. キーワードトリガー:プロンプトでタスクの複雑さを明示
  3. 人の確認:重要タスクは実行前に確認を求める

まとめとアクションリスト

要点は次の 4 つです。

  1. コストの主因はハートビートと単純クエリ——思い浮かぶ「大きなタスク」ではない
  2. 日常の雑務はローカルモデルで十分。Opus の枠を無駄にしない
  3. Fallback はプロバイダーをまたぐ——単一障害点を避ける
  4. 小さく始める:まずハートビートをローカルに。すぐ効果が見える

今週できる 3 つ

  • Ollama を入れ、軽量モデル(llama3.2 または qwen2.5:7b)を pull
  • ~/.openclaw/openclaw.json のデフォルトモデルをローカルに変更
  • 1 週間の請求を観察し、ルーティングを微調整

さらに進むなら

  • iblai-openclaw-router でインテリジェントなタスク階層化
  • Prompt Caching と組み合わせ、重複呼び出しコストをさらに削減
  • 各モデルの成功率・応答時間を監視し、設定を継続改善

OpenClaw の請求を最適化した経験はありますか?どんな戦略を使いましたか?コメントで共有いただくか、設定の疑問をどうぞ——できる限り返信します。

FAQ

OpenClaw のモデルルーティング設定は、応答品質に影響しますか?
適切に設定すれば品質への影響はありません。重要なのはタスクの複雑さに応じた階層化です。ハートビートやファイル操作などの単純タスクはローカルモデルで十分。複雑な推論やクリエイティブな執筆にだけ Claude Opus が必要です。まず単純タスクから移行し、徐々に自信をつけていくことをおすすめします。
ローカルモデルにはどのようなハードウェア構成が必要ですか?
軽量タスク(llama3.2、qwen2.5:7b)は 8GB メモリで快適に動きます。14b パラメータモデルは 16GB メモリを推奨。32b 以上を動かすなら専用 GPU を。純粋なハートビートチェックなら 3b クラスの超軽量モデルでも足ります。
Fallback チェーンの順序にはどんなコツがありますか?
コストと性能のバランスで並べるのがおすすめです:ローカルモデル → 軽量クラウド(Haiku)→ 標準クラウド(Sonnet/GPT-4o)→ 重量級(Opus)。Anthropic のレート制限でチェーン全体が止まらないよう、プロバイダーをまたいだ設定も忘れずに。
最適化後、通常どのくらいコストを節約できますか?
利用シーンによりますが、節約率は 70〜80% 程度です。ライトユーザー(&lt;100 メッセージ/日)は月 $50-80 から $15-25 へ。ヘビーユーザー(&gt;500 メッセージ/日)は $500-1000 から $100-250 へ。ハートビートの割合が高いほど、節約効果は大きくなります。

3分で読めます · 公開日: 2026年2月26日 · 更新日: 2026年6月8日

関連記事

コメント

GitHubアカウントでログインしてコメントできます