TL;DR
- Claude Codeで設計、ローカルLLMで実装、という分業を試した
- 環境は RTX 3050 6GB + qwen2.5-coder:7b + Tsumiki + Goose
- FizzBuzzくらいなら動いた。が、ちょっと複雑になると 応答が返ってこない
- 結局、ローカルLLMにちゃんと動いてもらうには丁寧な指示が必要で、それなら最初からClaude Codeで実装した方が早いという結論
やろうとしたこと
「Claude Codeめっちゃ便利なんだけど、実装の細かい部分まで全部任せると課金がね…」というよくある悩みから始まりました。
設計(要件定義・タスク分解)みたいな"頭脳が要る"工程はClaude Codeに任せて、コードを書くだけのところはローカルLLMに肩代わりさせれば、コスパ最強なんじゃないか?というのが今回の狙いです。
構成
検証環境はこんな感じ。
- GPU: NVIDIA GeForce RTX 3050 6GB(私物マシン。会社支給じゃないです、悪しからず)
-
ローカルLLM:
qwen2.5-coder:7b(Alibabaのコード特化モデル) -
設計フェーズ: Claude Code の Tsumikiスキル(
tsumiki:kairo-*系)で要件定義→設計→タスク分解 - 実装フェーズ: Goose(Block社のオープンソースAIエージェント)からローカルLLMを呼び出し
流れとしては、
- Claude Code + Tsumikiで要件・設計・タスクを出力
- その成果物をGooseに食わせる
- Gooseがqwen2.5-coderを呼んで実装
という、頭はクラウド・手はローカル、なハイブリッド分業作戦。
やってみた結果
FizzBuzzはギリ動く
まずはお試しでFizzBuzz。
「3の倍数ならFizz、5の倍数ならBuzz、15の倍数ならFizzBuzz」で投げたら、ちゃんとPythonで返ってきました。
…が、ここで私がやらかして、「それ以外なら元の数字を出力」という条件を指示し忘れていたんですね。qwen2.5-coderも素直にelseを省略してきた。あとから「else thenの条件抜けてました」と追記したら、ちゃんと修正版を出してくれた。健気。
つまり 指示を雑にすると、ローカルLLMは雑にしか返してこない。当たり前っちゃ当たり前ですが、Claude Codeの忖度に慣れてるとちょっと面食らいます。
でも複雑なのは無理
気を良くしてTsumikiで設計した本命タスクをGoose経由で投げてみた。
→ 応答が返ってこない。
タイムアウトしたのか、内部でこんがらがってるのか、6GB VRAMで7Bモデルに大きめのコンテキストを扱わせるのが厳しかったのか。とにかく音沙汰なし。
しかも丁寧に指示するようClaudeへ命令したら、ほぼコピペで動くような命令をgooseにしていて、その命令を書くのにかなりトークンを消費している気がする。
学んだこと
この検証で痛感したのは、
結局、ローカルLLMにちゃんと動いてもらうには指示を丁寧化する必要があって、その労力を払うなら最初からClaude Codeで実装してもらうのと変わらない
ということ。
「設計はクラウド、実装はローカル」というロマンは捨てがたいんですが、
- 6GB VRAM + 7Bモデルではコンテキスト的に複雑タスクが詰む
- 指示を丁寧化するコスト > 節約できる課金コスト
になりがちで、今のところは素直にClaude Codeで完結させた方が早い、というのが現時点の結論です。
VRAMが潤沢な環境(24GBクラス)で14B〜32Bモデルが回せれば景色が変わるかもしれないので、機材アップグレードしたらリベンジしたい。
…とはいえ、RTX 4090 は新品30万円弱、中古3090でも15万前後。「課金を渋ってローカルLLM」のはずが、ハード代でClaude Code数年分が吹き飛ぶ。本末転倒すぎる。
組織導入なら話が変わるかも?
個人検証だと撃沈でしたが、ふと「これ会社単位なら意外と現実解では?」と思って試算してみました。
たとえば100人にClaude Code Max(仮にUS$200/月)を配ると、ざっくり 年3,600万円。
一方、H100 80GB×8 のサーバーが約5,000万円で3年償却なら、年1,700万円+運用500万円で 約2,200万円。ハード代だけ見れば普通にペイします。
ただし現実には以下が乗ります:
- 量子化したオープンモデル(70B〜DeepSeek-V3)は、コーディング体験でやはりClaude Sonnetに一歩及ばない
- MLOps専任が必要
- モデルは半年で陳腐化する(次のClaudeが出るたびにお気持ちが揺らぐ)
- ピーク負荷時の並列度はAPIに敵わない
逆に 「コードを社外に出せない」業界(金融・医療・防衛など)なら、そもそも課金が選択肢にないので、オンプレ一択。この場合は3050で泣いてる場合じゃなく、真面目にH100を検討するフェーズに入ります。
つまり、
100人以上 × セキュリティ要件あり × MLOps人材いる
この3条件が揃うと、ローカルLLMは「ロマン」から「現実解」に化ける。
ということで、個人としては素直に課金。会社としては、要件次第で本気で検討する価値あり、という結論でした。
おわりに
ロマン駆動で検証して撃沈する系の記事でした。
「うちはこの構成で実装まで回せてるよ!」みたいな成功例があれば、ぜひコメントで教えてください。

