1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

OpenClawのサブエージェント、Claude HaikuとローカルGemma 4 どっちが正解か実測した

1
Posted at

はじめに

前回の記事で「OpenClawのサブエージェントにはHaikuを使え」と書きました。Opus $5に対してHaiku $1、コスト5分の1。理屈はわかる。

でも待ってください。ローカルLLMなら課金ゼロですよね?

RTX 4070にGemma 4を載せて、Ollama経由で回せば、APIに1円も払わなくていい。「ローカル = 無料 = 最強」。直感的にはそう思えます。私もそう思っていました。電気代の請求書を見るまでは。

結論から言うと、電気代を計算したらHaikuのほうが安かった。この記事はその検証記録です。

検証環境

項目 Haiku 4.5 Gemma 4
モデル claude-haiku-4-5-20251001 gemma4:e4b (9.6GB)
実行環境 Anthropic API Ollama + RTX 4070 (VRAM 12GB)
CPU Intel Core i7-14700KF (28スレッド)
RAM 32GB DDR5
ネットワーク API往復あり ローカル(往復なし)
OpenClaw 2026.3.2 2026.3.2

クラウドの頭脳 vs 自宅の筋肉。条件はなるべく公平にしつつ、「サブエージェントとして実際に使う」状況を再現しています。

検証タスク

サブエージェントが実際にやりそうなタスクを5種類用意しました。どれも「本体のOpusにやらせるほどではないけど、自動化したい」レベルの仕事です。Opusに頼むのは、部長に経費精算を頼むようなものですから。

  1. ファイル整理指示 — ファイル一覧を種類別に分類してディレクトリ構成を提案
  2. gitコミットメッセージ生成 — diffからConventional Commits形式で1行生成
  3. テキスト要約(日本語) — 技術文書を3行以内に要約
  4. コード生成(簡易) — Pythonの関数を1つ書く
  5. 翻訳(日本語→英語) — 技術文の翻訳

速度比較

タスク Gemma 4 Haiku 4.5 速い方
ファイル整理 12.51s 3.86s Haiku(3.2倍速)
gitコミット 0.43s 1.78s Gemma 4(4.1倍速)
テキスト要約 3.58s 2.22s Haiku(1.6倍速)
コード生成 5.45s 3.48s Haiku(1.6倍速)
翻訳 5.47s 3.02s Haiku(1.8倍速)

5戦して4勝1敗でHaiku。 ただし、Gemma 4が勝った「gitコミットメッセージ」は出力がわずか20トークンの短文タスク。API往復のレイテンシが効かないローカルの得意分野です。短距離走ならホームグラウンドが有利、というだけの話。

Gemma 4のトークン生成速度は約110 tok/sで安定していますが、Haikuは出力量に応じて70-150 tok/sとばらつきがあります。短い出力ほどAPIオーバーヘッドの比率が上がるためです。マラソンは得意だけど100m走は苦手、みたいな特性。

品質比較

gitコミットメッセージ生成

Gemma 4: feat: APIリトライ回数とタイムアウト時間を増加し、バックオフ倍率を追加
Haiku: feat: リトライ回数とタイムアウト時間を増加、バックオフ乗数を追加

ほぼ互角。どちらもConventional Commits形式を守っていて、diffの内容を正確に要約しています。正直、PRレビューでどちらのメッセージが来ても何も思いません。

判定: 引き分け

テキスト要約(日本語)

Gemma 4(3行):
OpenClawは、AIエージェントとメッセージングプラットフォーム(Telegram, Discordなど)を接続するオープンソースフレームワークです。
ClaudeやGPTなどの主要LLMを利用でき、ハートビート機能による自律的な通知や、二段構えのセッション管理で長時間会話のコンテキストを効率的に保持します。
これにより、多様なチャネルで高度なAIエージェント体験を実現します。

Haiku(2行に圧縮):
OpenClawはAIエージェントをTelegram、Discord、WhatsApp、Slackなどのメッセージングプラットフォームに接続するオープンソースフレームワークです。Claude、GPT、Geminiなど複数のLLMに対応し、ハートビート機能で自律的なチェック・通知を行い、CompactionとPruningによる効率的なセッション管理を実現しています。

Gemma 4は律儀に3行。Haikuは「2行で十分でしょ」と勝手に圧縮しました。「3行以内」の指示には従っているので減点はしませんが、指示への忠実さではGemma 4に軍配。一方、Haiku版は固有名詞(Compaction, Pruning)を残しており、情報の取捨選択が的確です。優等生と要領のいい子、どちらを評価するかは好みの問題。

判定: 引き分け

ファイル整理指示

Haiku: 明確なディレクトリツリーを提示(docs/, src/components/, src/styles/, assets/, backup/ に分類)。提案としてそのまま使えるレベル。

Gemma 4: 512トークン上限で出力が途切れました。ディレクトリツリーの途中で力尽きた形。

判定: Haiku

コード生成

Haiku: docstring付き、エラーハンドリングあり、pathlib 使用の丁寧なコード。コードレビューに出しても恥ずかしくない品質。

Gemma 4: 同じく512トークン上限で出力途切れ。関数の途中で終わっていて、実行すると SyntaxError です。

判定: Haiku

翻訳(日本語→英語)

Haiku: メイン翻訳+「より自然な表現」として別案を2パターン提示。聞いてないのに付加価値を付けてくる。

Gemma 4: 512トークン上限で途切れ。翻訳自体は始まっていましたが、完了前に打ち切り。

判定: Haiku

品質まとめ

タスク Gemma 4 Haiku 判定
ファイル整理 △ 途切れ ◎ 明確 Haiku
gitコミット ◎ 的確 ◎ 的確 引き分け
要約 ◎ 3行 ○ 2行 引き分け
コード生成 △ 途切れ ◎ 丁寧 Haiku
翻訳 △ 途切れ ◎ 別案付き Haiku

Gemma 4の「途切れ」はmax_tokens=512の制約です。「じゃあ上限を上げればいいのでは?」と思うかもしれませんが、サブエージェントは省トークンで使いたい場面が多い。同じ512トークン枠でも、Haikuは情報を圧縮して収めてくる。限られた予算で最大限の仕事をする、経理部長のような能力です。

コスト比較 — ここが本題

「ローカルLLM = 無料」は本当か?電気代を含めて計算します。ここから先は電卓の時間です。

Haiku 4.5 API の月額

検証結果の平均: 入力~120トークン / 出力~280トークン / タスク

月間タスク数 入力コスト 出力コスト 合計 円換算
1,000 $0.12 $1.40 $1.52 約230円
5,000 $0.60 $7.00 $7.60 約1,140円
10,000 $1.20 $14.00 $15.20 約2,280円

月1,000タスクで230円。缶コーヒー1本分です。

Gemma 4 ローカルの月額

RTX 4070のTDP: 200W(推論時)/ アイドル: ~30W

項目 計算 月額
タスク実行 200W × 平均5秒 × 5,000回 = 1.4kWh 約42円
Ollamaアイドル待機(24h×30日) 30W × 720h = 21.6kWh 約650円
PC本体の常時稼働 ~70W × 720h = 50.4kWh 約1,510円
合計 約2,200円

※ 電気代30円/kWhで計算

タスク実行そのものは42円。問題はOllamaが「いつでも推論できるように」待機している間の電気代です。コンビニの24時間営業みたいなもので、お客さんが来ない深夜も照明と空調は動き続けている。

比較

月5,000タスク Haiku API Gemma 4 ローカル
月額 約1,140円 約2,200円
品質 ◎ 安定 ○ 短文は互角、長文は途切れがち
速度 ◎ 大半で速い ○ 短文で速い
依存 APIの可用性 ハードウェア稼働

Haiku、電気代より安い。

もちろん、RTX 4070を他の用途(モデル学習、画像生成、他の推論タスク)にも使っているなら電気代は按分できます。しかし「サブエージェント専用でGPUを回す」のであれば、API課金のほうがコスパが良い。「ローカル = 無料」の直感は、電気代のメーターを見ていないから成り立つ幻想でした。

見えないコストほど高くつく。エンジニアなら覚えがあるはずです。

OpenClawでの設定方法

Haiku をサブエージェントに設定する

{
  "agents": {
    "defaults": {
      "subagents": {
        "model": "anthropic/claude-haiku-4-5"
      }
    }
  }
}

3行で終わる設定変更。これだけでサブエージェントが全部Haikuになります。

Gemma 4(Ollama)をサブエージェントに設定する

それでもローカルを使いたい人向け。OpenClawはOllamaプロバイダーに対応しています。

{
  "models": {
    "providers": {
      "ollama-local": {
        "baseUrl": "http://localhost:11434",
        "api": "ollama",
        "models": [
          {
            "id": "gemma4:e4b",
            "name": "Gemma 4 E4B"
          }
        ]
      }
    }
  },
  "agents": {
    "defaults": {
      "subagents": {
        "model": "ollama-local/gemma4:e4b"
      }
    }
  }
}

使い分け設定

「全部Haikuにするのは不安」という人は、エージェント別に設定することもできます。

{
  "agents": {
    "list": [
      {
        "id": "main"
        // メインはOpusのまま
      },
      {
        "id": "reviewer",
        "subagents": {
          "model": "anthropic/claude-haiku-4-5"  // レビュー系はHaiku
        }
      }
    ]
  }
}

結論: タスク別の推奨

タスク特性 推奨モデル 理由
短文生成(コミットメッセージ等) Gemma 4 でも可 API往復なし、品質互角
コード生成・翻訳 Haiku 4.5 品質安定、速度も速い
大量バッチ処理 Haiku 4.5 GPU待機コストがない
オフライン環境 Gemma 4 インターネット不要の一択
機密データ処理 Gemma 4 データが外に出ない安心感
月5,000タスク以上 Haiku 4.5 電気代より安い

最終的な私の設定はこうなりました。

"subagents": {
  "model": "anthropic/claude-haiku-4-5"
}

ローカルLLMの出番がないわけではありません。オフライン環境、機密データの処理、GPUを他の用途と共有している場合にはGemma 4が合理的です。ただ、「無料だからローカル」という理由だけで選ぶなら、電気代の明細を一度見てから決めたほうがいい。

無料に見えるものほど、実は高い。エンジニアリングの古い教訓が、LLMの世界でもそのまま通用しました。


検証環境:

  • OpenClaw 2026.3.2
  • Claude Haiku 4.5 (claude-haiku-4-5-20251001)
  • Gemma 4 E4B (Ollama, RTX 4070 12GB VRAM)
  • 2026年4月時点の料金

関連記事:

1
1
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?