はじめに
前回の記事で「OpenClawのサブエージェントにはHaikuを使え」と書きました。Opus $5に対してHaiku $1、コスト5分の1。理屈はわかる。
でも待ってください。ローカルLLMなら課金ゼロですよね?
RTX 4070にGemma 4を載せて、Ollama経由で回せば、APIに1円も払わなくていい。「ローカル = 無料 = 最強」。直感的にはそう思えます。私もそう思っていました。電気代の請求書を見るまでは。
結論から言うと、電気代を計算したらHaikuのほうが安かった。この記事はその検証記録です。
検証環境
| 項目 | Haiku 4.5 | Gemma 4 |
|---|---|---|
| モデル | claude-haiku-4-5-20251001 | gemma4:e4b (9.6GB) |
| 実行環境 | Anthropic API | Ollama + RTX 4070 (VRAM 12GB) |
| CPU | — | Intel Core i7-14700KF (28スレッド) |
| RAM | — | 32GB DDR5 |
| ネットワーク | API往復あり | ローカル(往復なし) |
| OpenClaw | 2026.3.2 | 2026.3.2 |
クラウドの頭脳 vs 自宅の筋肉。条件はなるべく公平にしつつ、「サブエージェントとして実際に使う」状況を再現しています。
検証タスク
サブエージェントが実際にやりそうなタスクを5種類用意しました。どれも「本体のOpusにやらせるほどではないけど、自動化したい」レベルの仕事です。Opusに頼むのは、部長に経費精算を頼むようなものですから。
- ファイル整理指示 — ファイル一覧を種類別に分類してディレクトリ構成を提案
- gitコミットメッセージ生成 — diffからConventional Commits形式で1行生成
- テキスト要約(日本語) — 技術文書を3行以内に要約
- コード生成(簡易) — Pythonの関数を1つ書く
- 翻訳(日本語→英語) — 技術文の翻訳
速度比較
| タスク | Gemma 4 | Haiku 4.5 | 速い方 |
|---|---|---|---|
| ファイル整理 | 12.51s | 3.86s | Haiku(3.2倍速) |
| gitコミット | 0.43s | 1.78s | Gemma 4(4.1倍速) |
| テキスト要約 | 3.58s | 2.22s | Haiku(1.6倍速) |
| コード生成 | 5.45s | 3.48s | Haiku(1.6倍速) |
| 翻訳 | 5.47s | 3.02s | Haiku(1.8倍速) |
5戦して4勝1敗でHaiku。 ただし、Gemma 4が勝った「gitコミットメッセージ」は出力がわずか20トークンの短文タスク。API往復のレイテンシが効かないローカルの得意分野です。短距離走ならホームグラウンドが有利、というだけの話。
Gemma 4のトークン生成速度は約110 tok/sで安定していますが、Haikuは出力量に応じて70-150 tok/sとばらつきがあります。短い出力ほどAPIオーバーヘッドの比率が上がるためです。マラソンは得意だけど100m走は苦手、みたいな特性。
品質比較
gitコミットメッセージ生成
Gemma 4:
feat: APIリトライ回数とタイムアウト時間を増加し、バックオフ倍率を追加
Haiku:feat: リトライ回数とタイムアウト時間を増加、バックオフ乗数を追加
ほぼ互角。どちらもConventional Commits形式を守っていて、diffの内容を正確に要約しています。正直、PRレビューでどちらのメッセージが来ても何も思いません。
判定: 引き分け
テキスト要約(日本語)
Gemma 4(3行):
OpenClawは、AIエージェントとメッセージングプラットフォーム(Telegram, Discordなど)を接続するオープンソースフレームワークです。
ClaudeやGPTなどの主要LLMを利用でき、ハートビート機能による自律的な通知や、二段構えのセッション管理で長時間会話のコンテキストを効率的に保持します。
これにより、多様なチャネルで高度なAIエージェント体験を実現します。
Haiku(2行に圧縮):
OpenClawはAIエージェントをTelegram、Discord、WhatsApp、Slackなどのメッセージングプラットフォームに接続するオープンソースフレームワークです。Claude、GPT、Geminiなど複数のLLMに対応し、ハートビート機能で自律的なチェック・通知を行い、CompactionとPruningによる効率的なセッション管理を実現しています。
Gemma 4は律儀に3行。Haikuは「2行で十分でしょ」と勝手に圧縮しました。「3行以内」の指示には従っているので減点はしませんが、指示への忠実さではGemma 4に軍配。一方、Haiku版は固有名詞(Compaction, Pruning)を残しており、情報の取捨選択が的確です。優等生と要領のいい子、どちらを評価するかは好みの問題。
判定: 引き分け
ファイル整理指示
Haiku: 明確なディレクトリツリーを提示(docs/, src/components/, src/styles/, assets/, backup/ に分類)。提案としてそのまま使えるレベル。
Gemma 4: 512トークン上限で出力が途切れました。ディレクトリツリーの途中で力尽きた形。
判定: Haiku
コード生成
Haiku: docstring付き、エラーハンドリングあり、pathlib 使用の丁寧なコード。コードレビューに出しても恥ずかしくない品質。
Gemma 4: 同じく512トークン上限で出力途切れ。関数の途中で終わっていて、実行すると SyntaxError です。
判定: Haiku
翻訳(日本語→英語)
Haiku: メイン翻訳+「より自然な表現」として別案を2パターン提示。聞いてないのに付加価値を付けてくる。
Gemma 4: 512トークン上限で途切れ。翻訳自体は始まっていましたが、完了前に打ち切り。
判定: Haiku
品質まとめ
| タスク | Gemma 4 | Haiku | 判定 |
|---|---|---|---|
| ファイル整理 | △ 途切れ | ◎ 明確 | Haiku |
| gitコミット | ◎ 的確 | ◎ 的確 | 引き分け |
| 要約 | ◎ 3行 | ○ 2行 | 引き分け |
| コード生成 | △ 途切れ | ◎ 丁寧 | Haiku |
| 翻訳 | △ 途切れ | ◎ 別案付き | Haiku |
Gemma 4の「途切れ」はmax_tokens=512の制約です。「じゃあ上限を上げればいいのでは?」と思うかもしれませんが、サブエージェントは省トークンで使いたい場面が多い。同じ512トークン枠でも、Haikuは情報を圧縮して収めてくる。限られた予算で最大限の仕事をする、経理部長のような能力です。
コスト比較 — ここが本題
「ローカルLLM = 無料」は本当か?電気代を含めて計算します。ここから先は電卓の時間です。
Haiku 4.5 API の月額
検証結果の平均: 入力~120トークン / 出力~280トークン / タスク
| 月間タスク数 | 入力コスト | 出力コスト | 合計 | 円換算 |
|---|---|---|---|---|
| 1,000 | $0.12 | $1.40 | $1.52 | 約230円 |
| 5,000 | $0.60 | $7.00 | $7.60 | 約1,140円 |
| 10,000 | $1.20 | $14.00 | $15.20 | 約2,280円 |
月1,000タスクで230円。缶コーヒー1本分です。
Gemma 4 ローカルの月額
RTX 4070のTDP: 200W(推論時)/ アイドル: ~30W
| 項目 | 計算 | 月額 |
|---|---|---|
| タスク実行 | 200W × 平均5秒 × 5,000回 = 1.4kWh | 約42円 |
| Ollamaアイドル待機(24h×30日) | 30W × 720h = 21.6kWh | 約650円 |
| PC本体の常時稼働 | ~70W × 720h = 50.4kWh | 約1,510円 |
| 合計 | 約2,200円 |
※ 電気代30円/kWhで計算
タスク実行そのものは42円。問題はOllamaが「いつでも推論できるように」待機している間の電気代です。コンビニの24時間営業みたいなもので、お客さんが来ない深夜も照明と空調は動き続けている。
比較
| 月5,000タスク | Haiku API | Gemma 4 ローカル |
|---|---|---|
| 月額 | 約1,140円 | 約2,200円 |
| 品質 | ◎ 安定 | ○ 短文は互角、長文は途切れがち |
| 速度 | ◎ 大半で速い | ○ 短文で速い |
| 依存 | APIの可用性 | ハードウェア稼働 |
Haiku、電気代より安い。
もちろん、RTX 4070を他の用途(モデル学習、画像生成、他の推論タスク)にも使っているなら電気代は按分できます。しかし「サブエージェント専用でGPUを回す」のであれば、API課金のほうがコスパが良い。「ローカル = 無料」の直感は、電気代のメーターを見ていないから成り立つ幻想でした。
見えないコストほど高くつく。エンジニアなら覚えがあるはずです。
OpenClawでの設定方法
Haiku をサブエージェントに設定する
{
"agents": {
"defaults": {
"subagents": {
"model": "anthropic/claude-haiku-4-5"
}
}
}
}
3行で終わる設定変更。これだけでサブエージェントが全部Haikuになります。
Gemma 4(Ollama)をサブエージェントに設定する
それでもローカルを使いたい人向け。OpenClawはOllamaプロバイダーに対応しています。
{
"models": {
"providers": {
"ollama-local": {
"baseUrl": "http://localhost:11434",
"api": "ollama",
"models": [
{
"id": "gemma4:e4b",
"name": "Gemma 4 E4B"
}
]
}
}
},
"agents": {
"defaults": {
"subagents": {
"model": "ollama-local/gemma4:e4b"
}
}
}
}
使い分け設定
「全部Haikuにするのは不安」という人は、エージェント別に設定することもできます。
{
"agents": {
"list": [
{
"id": "main"
// メインはOpusのまま
},
{
"id": "reviewer",
"subagents": {
"model": "anthropic/claude-haiku-4-5" // レビュー系はHaiku
}
}
]
}
}
結論: タスク別の推奨
| タスク特性 | 推奨モデル | 理由 |
|---|---|---|
| 短文生成(コミットメッセージ等) | Gemma 4 でも可 | API往復なし、品質互角 |
| コード生成・翻訳 | Haiku 4.5 | 品質安定、速度も速い |
| 大量バッチ処理 | Haiku 4.5 | GPU待機コストがない |
| オフライン環境 | Gemma 4 | インターネット不要の一択 |
| 機密データ処理 | Gemma 4 | データが外に出ない安心感 |
| 月5,000タスク以上 | Haiku 4.5 | 電気代より安い |
最終的な私の設定はこうなりました。
"subagents": {
"model": "anthropic/claude-haiku-4-5"
}
ローカルLLMの出番がないわけではありません。オフライン環境、機密データの処理、GPUを他の用途と共有している場合にはGemma 4が合理的です。ただ、「無料だからローカル」という理由だけで選ぶなら、電気代の明細を一度見てから決めたほうがいい。
無料に見えるものほど、実は高い。エンジニアリングの古い教訓が、LLMの世界でもそのまま通用しました。
検証環境:
- OpenClaw 2026.3.2
- Claude Haiku 4.5 (claude-haiku-4-5-20251001)
- Gemma 4 E4B (Ollama, RTX 4070 12GB VRAM)
- 2026年4月時点の料金
関連記事: