API 請求書の不安を解消:モデルルーティングで OpenClaw コストを 80% 削減する方法
先月届いた Anthropic の請求書——$340。予想の 3 倍超えです。OpenClaw アシスタントはメール返信、メモ整理、たまにコード片の執筆といった日常の雑務しかしていないのに、なぜこんなに?
ログを掘ると原因が見えました。デフォルト設定では、すべてのリクエストが最も高価な Claude Opus 4.6 を通っていたのです。ハートビート、簡単なクエリ、ファイル操作——一律に高額モデル。サブエージェントが並列で動くたびに、それぞれが「お金を燃やす」状態でした。
週末を使って OpenClaw のモデルルーティングを調べると、賢く階層化すれば「安いモデル」に単純作業を任せ、本当に深い思考が必要なタスクだけ「高額モデル」に回せることがわかりました。1 ヶ月後、請求は $68 まで下がりました。
低コスト「エビ飼育」ガイド:ArkClaw で AI エージェントを身近に
話題の OpenClaw(ロブスタ)は便利ですが、設定のハードルが高い——そんな声も多いでしょう。バイトダンスの火山引擎が出した ArkClaw は、その敷居を一気に下げました。サーバーや Token 設定をいじらず、ワンクリックで 24 時間オンライン、ブラウザ操作・スクリプト実行・カレンダー管理ができる「AI 下請け」が手に入ります。
何より安い。月額 9.9 元、招待コード ZLKUK54M(こちらから登録)なら 8.9 元。プログラマーなら Coding Plan Pro に入ると無料で使える場合もあります。
OpenClaw のコストのブラックホールを理解する
なぜデフォルト設定はこんなに高いのか
まず、目を引く数字の一覧です。
| モデル | 入力価格 ($/MTok) | 出力価格 ($/MTok) | 適した用途 |
|---|---|---|---|
| Claude Opus 4.6 | $5.00 | $25.00 | 複雑な推論、長文ドキュメント分析 |
| Claude Sonnet 4.5 | $0.80 | $4.00 | 一般タスク、コード生成 |
| Claude Haiku 3.5 | $0.25 | $1.25 | 簡単なクエリ、高速応答 |
| Llama 3 (ローカル) | $0 | $0 | ハートビート、ファイル操作、基本 Q&A |
MTok = Million Tokens、100 万トークン
簡単な計算をしてみましょう。1 日 100 メッセージ、1 件あたり平均 500 トークンと仮定します。
すべて Opus なら、100 × 500 × $5 / 1,000,000 = $0.25/日、つまり $7.5/月。
悪くないように聞こえますか?
問題は——この計算が甘すぎることです。OpenClaw のシステムプロンプトだけで 2k〜4k トークン。ツール呼び出しやリトライも加わると、実消費は素朴な計算の 3〜5 倍になります。
隠れたコストの落とし穴
落とし穴 1:ハートビートリクエスト(Heartbeat)
30 秒ごとのハートビートチェックは、1 日 2880 回。中身が空でも、毎回フルシステムプロンプトが付きます。
これがまさに「トークン税」です。
落とし穴 2:サブエージェント(Sub-agents)
並列タスクでは各サブエージェントもメインモデルを使用。「カレンダーを確認して」のような単純操作まで Opus——想像するだけで痛いです。
落とし穴 3:リトライ機構
ネットワークの揺らぎで自動リトライすると、失敗したリクエスト分のトークンは既に課金対象。結果は返ってこない。お金だけ消える。
3 層モデルルーティング戦略
核心理念:タスクの階層化
すべてのリクエストが最も高価なモデルに値するわけではありません。
3 層の体系を作ります。
┌─────────────────────────────────────────────┐
│ Layer 1: ローカルモデル(Llama 3 / Qwen など) │
│ → ハートビート、ファイル操作、簡単な Q&A、状態確認 │
│ → コスト:$0 │
├─────────────────────────────────────────────┤
│ Layer 2: 軽量クラウド(Claude Haiku / GPT-4o-mini)│
│ → 日常会話、メール起草、簡単なコード │
│ → コスト:$0.25/MTok │
├─────────────────────────────────────────────┤
│ Layer 3: 重量級(Claude Opus / GPT-4o) │
│ → 複雑なアーキテクチャ設計、深い分析、クリエイティブ執筆 │
│ → コスト:$5/MTok(ただし使用量は極少) │
└─────────────────────────────────────────────┘
要するに、適材適所です。
設定実践:OpenClaw + Ollama ローカルモデル
Step 1: Ollama のインストールと起動
# macOS/Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows はインストーラー取得後
ollama serve
# 適したモデルを pull
ollama pull llama3.2:latest # 軽量、単純タスク向け
ollama pull qwen2.5:14b # より強力、ツール呼び出し対応
Step 2: OpenClaw でローカルモデルを使う
~/.openclaw/openclaw.json を編集します。
{
"models": {
"defaults": {
"model": "ollama/qwen2.5:14b",
"fallbacks": [
"anthropic/claude-sonnet-4-5",
"anthropic/claude-opus-4-6"
]
},
"providers": {
"ollama": {
"type": "openai-compatible",
"baseUrl": "http://127.0.0.1:11434/v1",
"apiKey": "ollama"
}
}
}
}
ポイントは次のとおりです。
baseUrl:Ollama はデフォルトで 11434 ポートcontext window:OpenClaw は少なくとも 64k コンテキストが必要。モデル選びに注意tool calling:すべてのローカルモデルが対応しているわけではない。qwen2.5 や mistral-nemo を推奨
高度なルーティング:タスク種別による賢い割り当て
OpenRouter Auto Model の利用:
{
"models": {
"defaults": {
"model": "openrouter/openrouter/auto",
"fallbacks": [
"anthropic/claude-sonnet-4-5"
]
}
}
}
OpenRouter の Auto モードは、プロンプトの複雑さに応じて最も安い適切モデルを自動選択。手間がかかりません。
カスタムルーティング(iblai-openclaw-router):
より細かく制御したい場合は、オープンソースの iblai-openclaw-router が使えます。
{
"routing": {
"enabled": true,
"tiers": {
"free": {
"models": ["ollama/llama3.2"],
"keywords": ["heartbeat", "status", "ping", "check"]
},
"cheap": {
"models": ["anthropic/claude-haiku-3-5"],
"maxCostPerRequest": 0.001
},
"standard": {
"models": ["anthropic/claude-sonnet-4-5"]
},
"premium": {
"models": ["anthropic/claude-opus-4-6"],
"keywords": ["architect", "design", "analyze deeply", "complex"]
}
}
}
}
実例:1 ヶ月のコスト比較
最適化前の請求内訳
ある開発者の典型的な月間利用(コミュニティの実データ):
| 用途 | リクエスト数 | 推定トークン | モデル | 費用 |
|---|---|---|---|---|
| 日常会話 | 800 | 400k | Opus 4.6 | $10.00 |
| コード補助 | 200 | 600k | Opus 4.6 | $18.00 |
| ハートビート | 86,400 | 172M | Opus 4.6 | $860.00 |
| ファイル操作 | 150 | 75k | Opus 4.6 | $1.88 |
| サブエージェント | 300 | 450k | Opus 4.6 | $13.50 |
| 合計 | $903.38 |
ハートビートの $860、見えましたか?最大の元凶です。
最適化後の請求
3 層ルーティング導入後:
| 用途 | リクエスト数 | 推定トークン | モデル | 費用 |
|---|---|---|---|---|
| 日常会話 | 800 | 400k | Sonnet 4.5 | $1.60 |
| コード補助 | 200 | 600k | Opus 4.6 | $18.00 |
| ハートビート | 86,400 | 172M | Llama 3 (ローカル) | $0 |
| ファイル操作 | 150 | 75k | Llama 3 (ローカル) | $0 |
| サブエージェント | 300 | 450k | Sonnet 4.5 | $1.80 |
| 合計 | $21.40 |
極端な例です——この方のハートビート比率が異常に高かったから。実際の節約は利用パターンにより 70〜80% 程度が一般的です。
シナリオ別の想定節約
| 利用シーン | 元の月平均 | 最適化後 | 節約率 |
|---|---|---|---|
| ライト(<100 メッセージ/日) | $50-80 | $15-25 | 70% |
| ミドル(100-500 メッセージ/日) | $200-400 | $50-100 | 75% |
| ヘビー(>500 メッセージ/日 + サブエージェント) | $500-1000 | $100-250 | 80% |
避坑ガイド:よくある問題と対処
ローカルモデルが応答しない・エラーになる
症状:
Error: Connection refused
またはモデルが空内容を返す
確認手順:
- Ollama が動いているか:
ollama list - ポート確認:
curl http://127.0.0.1:11434/api/tags - モデル取得済みか:
ollama pull qwen2.5:14b - コンテキスト拡張:一部モデルはデフォルト 4k。OpenClaw は 64k 以上が必要
コスパの良い組み合わせ:
ollama pull qwen2.5:14b-instruct # ツール呼び出し対応、多言語向き
ollama pull mistral-nemo:latest # バランス型
ollama pull glm-4.7-flash # 軽量・高速
ツール呼び出しが失敗する
原因:すべてのローカルモデルが function calling に対応しているわけではない。
対処:
- tool use 対応と明記されたモデル(qwen2.5、mistral-nemo など)を使う
- 特定モデルでツール呼び出しをオフにする:
{
"models": {
"ollama/llama3.2": {
"supportsTools": false
}
}
}
Fallback チェーンの設定ミス
よくある誤り:
// 誤り:Anthropic レート制限時、Sonnet と Opus が同時に使えなくなる可能性
"fallbacks": [
"anthropic/claude-sonnet-4-5",
"anthropic/claude-opus-4-6"
]
// 正解:プロバイダーをまたぐ Fallback
"fallbacks": [
"anthropic/claude-sonnet-4-5",
"openai/gpt-4o",
"google/gemini-pro"
]
品質が下がったら
ローカルモデルで処理しきれないタスクがある場合:
- 段階的アップグレード:ローカル → Haiku → Sonnet → Opus
- キーワードトリガー:プロンプトでタスクの複雑さを明示
- 人の確認:重要タスクは実行前に確認を求める
まとめとアクションリスト
要点は次の 4 つです。
- コストの主因はハートビートと単純クエリ——思い浮かぶ「大きなタスク」ではない
- 日常の雑務はローカルモデルで十分。Opus の枠を無駄にしない
- Fallback はプロバイダーをまたぐ——単一障害点を避ける
- 小さく始める:まずハートビートをローカルに。すぐ効果が見える
今週できる 3 つ
- Ollama を入れ、軽量モデル(llama3.2 または qwen2.5:7b)を pull
-
~/.openclaw/openclaw.jsonのデフォルトモデルをローカルに変更 - 1 週間の請求を観察し、ルーティングを微調整
さらに進むなら
- iblai-openclaw-router でインテリジェントなタスク階層化
- Prompt Caching と組み合わせ、重複呼び出しコストをさらに削減
- 各モデルの成功率・応答時間を監視し、設定を継続改善
OpenClaw の請求を最適化した経験はありますか?どんな戦略を使いましたか?コメントで共有いただくか、設定の疑問をどうぞ——できる限り返信します。
FAQ
OpenClaw のモデルルーティング設定は、応答品質に影響しますか?
ローカルモデルにはどのようなハードウェア構成が必要ですか?
Fallback チェーンの順序にはどんなコツがありますか?
最適化後、通常どのくらいコストを節約できますか?
3分で読めます · 公開日: 2026年2月26日 · 更新日: 2026年6月8日
OpenClaw 導入と実践
検索からこのページに来た場合は、前後の記事もあわせて読むと同じテーマの理解がかなり早く深まります。
前の記事
OpenClaw 2026 完全インストールガイド:ゼロから始めるパーソナル AI アシスタント
Docker、npm、1 クリックスクリプトによる OpenClaw インストールを比較。Windows(ネイティブ/WSL2)、macOS、サーバー向けデプロイと、よくあるエラーのトラブルシューティングを解説。
第 25 / 36 記事
次の記事
OpenClaw リモートコントロール完全ガイド:スマホを個人 AI OS のリモコンに変える
OpenClaw ゲートウェイプロトコルで iOS/Android を AI リモコン化。スクリーンショット・カメラ・位置情報などのハードウェア機能をリモート制御し、真のクロスデバイス個人 AI オペレーティングシステムを構築する。
第 27 / 36 記事
関連記事
OpenClaw 改名の全貌:Clawdbot から Moltbot、そして OpenClaw への変遷
OpenClaw 改名の全貌:Clawdbot から Moltbot、そして OpenClaw への変遷
OpenClaw 完全インストールガイド:環境準備から初回実行まで
OpenClaw 完全インストールガイド:環境準備から初回実行まで
OpenClaw クラウド vs ローカル:最適なデプロイの選び方
コメント
GitHubアカウントでログインしてコメントできます