設計まではClaude Codeに任せて、実装はローカルLLMにしたかった話

Last updated at 2026-05-20Posted at 2026-05-20

TL;DR

Claude Codeで設計、ローカルLLMで実装、という分業を試した
環境は RTX 3050 6GB + qwen2.5-coder:7b + Tsumiki + Goose
FizzBuzzくらいなら動いた。が、ちょっと複雑になると 応答が返ってこない
結局、ローカルLLMにちゃんと動いてもらうには丁寧な指示が必要で、それなら最初からClaude Codeで実装した方が早いという結論

やろうとしたこと

「Claude Codeめっちゃ便利なんだけど、実装の細かい部分まで全部任せると課金がね…」というよくある悩みから始まりました。

設計（要件定義・タスク分解）みたいな"頭脳が要る"工程はClaude Codeに任せて、コードを書くだけのところはローカルLLMに肩代わりさせれば、コスパ最強なんじゃないか？というのが今回の狙いです。

構成

検証環境はこんな感じ。

GPU: NVIDIA GeForce RTX 3050 6GB（私物マシン。会社支給じゃないです、悪しからず）
ローカルLLM: qwen2.5-coder:7b（Alibabaのコード特化モデル）
設計フェーズ: Claude Code の Tsumikiスキル（tsumiki:kairo-* 系）で要件定義→設計→タスク分解
実装フェーズ: Goose（Block社のオープンソースAIエージェント）からローカルLLMを呼び出し

流れとしては、

Claude Code + Tsumikiで要件・設計・タスクを出力
その成果物をGooseに食わせる
Gooseがqwen2.5-coderを呼んで実装

という、頭はクラウド・手はローカル、なハイブリッド分業作戦。

やってみた結果

FizzBuzzはギリ動く

まずはお試しでFizzBuzz。

「3の倍数ならFizz、5の倍数ならBuzz、15の倍数ならFizzBuzz」で投げたら、ちゃんとPythonで返ってきました。

…が、ここで私がやらかして、「それ以外なら元の数字を出力」という条件を指示し忘れていたんですね。qwen2.5-coderも素直にelseを省略してきた。あとから「else thenの条件抜けてました」と追記したら、ちゃんと修正版を出してくれた。健気。

つまり 指示を雑にすると、ローカルLLMは雑にしか返してこない。当たり前っちゃ当たり前ですが、Claude Codeの忖度に慣れてるとちょっと面食らいます。

でも複雑なのは無理

気を良くしてTsumikiで設計した本命タスクをGoose経由で投げてみた。

→ 応答が返ってこない。

タイムアウトしたのか、内部でこんがらがってるのか、6GB VRAMで7Bモデルに大きめのコンテキストを扱わせるのが厳しかったのか。とにかく音沙汰なし。
しかも丁寧に指示するようClaudeへ命令したら、ほぼコピペで動くような命令をgooseにしていて、その命令を書くのにかなりトークンを消費している気がする。

学んだこと

この検証で痛感したのは、

結局、ローカルLLMにちゃんと動いてもらうには指示を丁寧化する必要があって、その労力を払うなら最初からClaude Codeで実装してもらうのと変わらない

ということ。

「設計はクラウド、実装はローカル」というロマンは捨てがたいんですが、

6GB VRAM + 7Bモデルではコンテキスト的に複雑タスクが詰む
指示を丁寧化するコスト > 節約できる課金コスト

になりがちで、今のところは素直にClaude Codeで完結させた方が早い、というのが現時点の結論です。

VRAMが潤沢な環境（24GBクラス）で14B〜32Bモデルが回せれば景色が変わるかもしれないので、機材アップグレードしたらリベンジしたい。

…とはいえ、RTX 4090 は新品30万円弱、中古3090でも15万前後。「課金を渋ってローカルLLM」のはずが、ハード代でClaude Code数年分が吹き飛ぶ。本末転倒すぎる。

組織導入なら話が変わるかも？

個人検証だと撃沈でしたが、ふと「これ会社単位なら意外と現実解では？」と思って試算してみました。

たとえば100人にClaude Code Max（仮にUS$200/月）を配ると、ざっくり 年3,600万円。
一方、H100 80GB×8 のサーバーが約5,000万円で3年償却なら、年1,700万円＋運用500万円で 約2,200万円。ハード代だけ見れば普通にペイします。

ただし現実には以下が乗ります：

量子化したオープンモデル（70B〜DeepSeek-V3）は、コーディング体験でやはりClaude Sonnetに一歩及ばない
MLOps専任が必要
モデルは半年で陳腐化する（次のClaudeが出るたびにお気持ちが揺らぐ）
ピーク負荷時の並列度はAPIに敵わない

逆に 「コードを社外に出せない」業界（金融・医療・防衛など）なら、そもそも課金が選択肢にないので、オンプレ一択。この場合は3050で泣いてる場合じゃなく、真面目にH100を検討するフェーズに入ります。

つまり、

100人以上 × セキュリティ要件あり × MLOps人材いる
この3条件が揃うと、ローカルLLMは「ロマン」から「現実解」に化ける。

ということで、個人としては素直に課金。会社としては、要件次第で本気で検討する価値あり、という結論でした。

おわりに

ロマン駆動で検証して撃沈する系の記事でした。
「うちはこの構成で実装まで回せてるよ！」みたいな成功例があれば、ぜひコメントで教えてください。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up