OpenClawのサブエージェント、Claude HaikuとローカルGemma 4 どっちが正解か実測した

Posted at 2026-04-08

はじめに

前回の記事で「OpenClawのサブエージェントにはHaikuを使え」と書きました。Opus $5に対してHaiku $1、コスト5分の1。理屈はわかる。

でも待ってください。ローカルLLMなら課金ゼロですよね？

RTX 4070にGemma 4を載せて、Ollama経由で回せば、APIに1円も払わなくていい。「ローカル = 無料 = 最強」。直感的にはそう思えます。私もそう思っていました。電気代の請求書を見るまでは。

結論から言うと、電気代を計算したらHaikuのほうが安かった。この記事はその検証記録です。

検証環境

項目	Haiku 4.5	Gemma 4
モデル	claude-haiku-4-5-20251001	gemma4:e4b (9.6GB)
実行環境	Anthropic API	Ollama + RTX 4070 (VRAM 12GB)
CPU	—	Intel Core i7-14700KF (28スレッド)
RAM	—	32GB DDR5
ネットワーク	API往復あり	ローカル（往復なし）
OpenClaw	2026.3.2	2026.3.2

クラウドの頭脳 vs 自宅の筋肉。条件はなるべく公平にしつつ、「サブエージェントとして実際に使う」状況を再現しています。

検証タスク

サブエージェントが実際にやりそうなタスクを5種類用意しました。どれも「本体のOpusにやらせるほどではないけど、自動化したい」レベルの仕事です。Opusに頼むのは、部長に経費精算を頼むようなものですから。

ファイル整理指示 — ファイル一覧を種類別に分類してディレクトリ構成を提案
gitコミットメッセージ生成 — diffからConventional Commits形式で1行生成
テキスト要約（日本語） — 技術文書を3行以内に要約
コード生成（簡易） — Pythonの関数を1つ書く
翻訳（日本語→英語） — 技術文の翻訳

速度比較

タスク	Gemma 4	Haiku 4.5	速い方
ファイル整理	12.51s	3.86s	Haiku（3.2倍速）
gitコミット	0.43s	1.78s	Gemma 4（4.1倍速）
テキスト要約	3.58s	2.22s	Haiku（1.6倍速）
コード生成	5.45s	3.48s	Haiku（1.6倍速）
翻訳	5.47s	3.02s	Haiku（1.8倍速）

5戦して4勝1敗でHaiku。 ただし、Gemma 4が勝った「gitコミットメッセージ」は出力がわずか20トークンの短文タスク。API往復のレイテンシが効かないローカルの得意分野です。短距離走ならホームグラウンドが有利、というだけの話。

Gemma 4のトークン生成速度は約110 tok/sで安定していますが、Haikuは出力量に応じて70-150 tok/sとばらつきがあります。短い出力ほどAPIオーバーヘッドの比率が上がるためです。マラソンは得意だけど100m走は苦手、みたいな特性。

品質比較

gitコミットメッセージ生成

Gemma 4: feat: APIリトライ回数とタイムアウト時間を増加し、バックオフ倍率を追加
Haiku: feat: リトライ回数とタイムアウト時間を増加、バックオフ乗数を追加

ほぼ互角。どちらもConventional Commits形式を守っていて、diffの内容を正確に要約しています。正直、PRレビューでどちらのメッセージが来ても何も思いません。

判定: 引き分け

テキスト要約（日本語）

Gemma 4（3行）:
OpenClawは、AIエージェントとメッセージングプラットフォーム（Telegram, Discordなど）を接続するオープンソースフレームワークです。
ClaudeやGPTなどの主要LLMを利用でき、ハートビート機能による自律的な通知や、二段構えのセッション管理で長時間会話のコンテキストを効率的に保持します。
これにより、多様なチャネルで高度なAIエージェント体験を実現します。

Haiku（2行に圧縮）:
OpenClawはAIエージェントをTelegram、Discord、WhatsApp、Slackなどのメッセージングプラットフォームに接続するオープンソースフレームワークです。Claude、GPT、Geminiなど複数のLLMに対応し、ハートビート機能で自律的なチェック・通知を行い、CompactionとPruningによる効率的なセッション管理を実現しています。

Gemma 4は律儀に3行。Haikuは「2行で十分でしょ」と勝手に圧縮しました。「3行以内」の指示には従っているので減点はしませんが、指示への忠実さではGemma 4に軍配。一方、Haiku版は固有名詞（Compaction, Pruning）を残しており、情報の取捨選択が的確です。優等生と要領のいい子、どちらを評価するかは好みの問題。

判定: 引き分け

ファイル整理指示

Haiku: 明確なディレクトリツリーを提示（docs/, src/components/, src/styles/, assets/, backup/ に分類）。提案としてそのまま使えるレベル。

Gemma 4: 512トークン上限で出力が途切れました。ディレクトリツリーの途中で力尽きた形。

判定: Haiku

コード生成

Haiku: docstring付き、エラーハンドリングあり、pathlib 使用の丁寧なコード。コードレビューに出しても恥ずかしくない品質。

Gemma 4: 同じく512トークン上限で出力途切れ。関数の途中で終わっていて、実行すると SyntaxError です。

判定: Haiku

翻訳（日本語→英語）

Haiku: メイン翻訳＋「より自然な表現」として別案を2パターン提示。聞いてないのに付加価値を付けてくる。

Gemma 4: 512トークン上限で途切れ。翻訳自体は始まっていましたが、完了前に打ち切り。

判定: Haiku

品質まとめ

タスク	Gemma 4	Haiku	判定
ファイル整理	△ 途切れ	◎ 明確	Haiku
gitコミット	◎ 的確	◎ 的確	引き分け
要約	◎ 3行	○ 2行	引き分け
コード生成	△ 途切れ	◎ 丁寧	Haiku
翻訳	△ 途切れ	◎ 別案付き	Haiku

Gemma 4の「途切れ」はmax_tokens=512の制約です。「じゃあ上限を上げればいいのでは？」と思うかもしれませんが、サブエージェントは省トークンで使いたい場面が多い。同じ512トークン枠でも、Haikuは情報を圧縮して収めてくる。限られた予算で最大限の仕事をする、経理部長のような能力です。

コスト比較 — ここが本題

「ローカルLLM = 無料」は本当か？電気代を含めて計算します。ここから先は電卓の時間です。

Haiku 4.5 API の月額

検証結果の平均: 入力~120トークン / 出力~280トークン / タスク

月間タスク数	入力コスト	出力コスト	合計	円換算
1,000	$0.12	$1.40	$1.52	約230円
5,000	$0.60	$7.00	$7.60	約1,140円
10,000	$1.20	$14.00	$15.20	約2,280円

月1,000タスクで230円。缶コーヒー1本分です。

Gemma 4 ローカルの月額

RTX 4070のTDP: 200W（推論時）/ アイドル: ~30W

項目	計算	月額
タスク実行	200W × 平均5秒 × 5,000回 = 1.4kWh	約42円
Ollamaアイドル待機（24h×30日）	30W × 720h = 21.6kWh	約650円
PC本体の常時稼働	~70W × 720h = 50.4kWh	約1,510円
合計		約2,200円

※ 電気代30円/kWhで計算

タスク実行そのものは42円。問題はOllamaが「いつでも推論できるように」待機している間の電気代です。コンビニの24時間営業みたいなもので、お客さんが来ない深夜も照明と空調は動き続けている。

比較

月5,000タスク	Haiku API	Gemma 4 ローカル
月額	約1,140円	約2,200円
品質	◎ 安定	○ 短文は互角、長文は途切れがち
速度	◎ 大半で速い	○ 短文で速い
依存	APIの可用性	ハードウェア稼働

Haiku、電気代より安い。

もちろん、RTX 4070を他の用途（モデル学習、画像生成、他の推論タスク）にも使っているなら電気代は按分できます。しかし「サブエージェント専用でGPUを回す」のであれば、API課金のほうがコスパが良い。「ローカル = 無料」の直感は、電気代のメーターを見ていないから成り立つ幻想でした。

見えないコストほど高くつく。エンジニアなら覚えがあるはずです。

OpenClawでの設定方法

Haiku をサブエージェントに設定する

{
  "agents": {
    "defaults": {
      "subagents": {
        "model": "anthropic/claude-haiku-4-5"
      }
    }
  }
}

3行で終わる設定変更。これだけでサブエージェントが全部Haikuになります。

Gemma 4（Ollama）をサブエージェントに設定する

それでもローカルを使いたい人向け。OpenClawはOllamaプロバイダーに対応しています。

{
  "models": {
    "providers": {
      "ollama-local": {
        "baseUrl": "http://localhost:11434",
        "api": "ollama",
        "models": [
          {
            "id": "gemma4:e4b",
            "name": "Gemma 4 E4B"
          }
        ]
      }
    }
  },
  "agents": {
    "defaults": {
      "subagents": {
        "model": "ollama-local/gemma4:e4b"
      }
    }
  }
}

使い分け設定

「全部Haikuにするのは不安」という人は、エージェント別に設定することもできます。

{
  "agents": {
    "list": [
      {
        "id": "main"
        // メインはOpusのまま
      },
      {
        "id": "reviewer",
        "subagents": {
          "model": "anthropic/claude-haiku-4-5"  // レビュー系はHaiku
        }
      }
    ]
  }
}

結論: タスク別の推奨

タスク特性	推奨モデル	理由
短文生成（コミットメッセージ等）	Gemma 4 でも可	API往復なし、品質互角
コード生成・翻訳	Haiku 4.5	品質安定、速度も速い
大量バッチ処理	Haiku 4.5	GPU待機コストがない
オフライン環境	Gemma 4	インターネット不要の一択
機密データ処理	Gemma 4	データが外に出ない安心感
月5,000タスク以上	Haiku 4.5	電気代より安い

最終的な私の設定はこうなりました。

"subagents": {
  "model": "anthropic/claude-haiku-4-5"
}

ローカルLLMの出番がないわけではありません。オフライン環境、機密データの処理、GPUを他の用途と共有している場合にはGemma 4が合理的です。ただ、「無料だからローカル」という理由だけで選ぶなら、電気代の明細を一度見てから決めたほうがいい。

無料に見えるものほど、実は高い。エンジニアリングの古い教訓が、LLMの世界でもそのまま通用しました。

検証環境:

OpenClaw 2026.3.2
Claude Haiku 4.5 (claude-haiku-4-5-20251001)
Gemma 4 E4B (Ollama, RTX 4070 12GB VRAM)
2026年4月時点の料金

関連記事:

OpenClawのトークン設計を理解して最適化する — 従量課金時代の10の設定

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up