0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

設計まではClaude Codeに任せて、実装はローカルLLMにしたかった話

0
Last updated at Posted at 2026-05-20

TL;DR

  • Claude Codeで設計、ローカルLLMで実装、という分業を試した
  • 環境は RTX 3050 6GB + qwen2.5-coder:7b + Tsumiki + Goose
  • FizzBuzzくらいなら動いた。が、ちょっと複雑になると 応答が返ってこない
  • 結局、ローカルLLMにちゃんと動いてもらうには丁寧な指示が必要で、それなら最初からClaude Codeで実装した方が早いという結論

やろうとしたこと

「Claude Codeめっちゃ便利なんだけど、実装の細かい部分まで全部任せると課金がね…」というよくある悩みから始まりました。

設計(要件定義・タスク分解)みたいな"頭脳が要る"工程はClaude Codeに任せて、コードを書くだけのところはローカルLLMに肩代わりさせれば、コスパ最強なんじゃないか?というのが今回の狙いです。

構成

検証環境はこんな感じ。

  • GPU: NVIDIA GeForce RTX 3050 6GB(私物マシン。会社支給じゃないです、悪しからず)
  • ローカルLLM: qwen2.5-coder:7b(Alibabaのコード特化モデル)
  • 設計フェーズ: Claude Code の Tsumikiスキル(tsumiki:kairo-* 系)で要件定義→設計→タスク分解
  • 実装フェーズ: Goose(Block社のオープンソースAIエージェント)からローカルLLMを呼び出し

流れとしては、

  1. Claude Code + Tsumikiで要件・設計・タスクを出力
  2. その成果物をGooseに食わせる
  3. Gooseがqwen2.5-coderを呼んで実装

という、頭はクラウド・手はローカル、なハイブリッド分業作戦。

やってみた結果

FizzBuzzはギリ動く

まずはお試しでFizzBuzz。

「3の倍数ならFizz、5の倍数ならBuzz、15の倍数ならFizzBuzz」で投げたら、ちゃんとPythonで返ってきました。

…が、ここで私がやらかして、「それ以外なら元の数字を出力」という条件を指示し忘れていたんですね。qwen2.5-coderも素直にelseを省略してきた。あとから「else thenの条件抜けてました」と追記したら、ちゃんと修正版を出してくれた。健気。

つまり 指示を雑にすると、ローカルLLMは雑にしか返してこない。当たり前っちゃ当たり前ですが、Claude Codeの忖度に慣れてるとちょっと面食らいます。

image (2).png
image (5).png

でも複雑なのは無理

気を良くしてTsumikiで設計した本命タスクをGoose経由で投げてみた。

応答が返ってこない

タイムアウトしたのか、内部でこんがらがってるのか、6GB VRAMで7Bモデルに大きめのコンテキストを扱わせるのが厳しかったのか。とにかく音沙汰なし。
しかも丁寧に指示するようClaudeへ命令したら、ほぼコピペで動くような命令をgooseにしていて、その命令を書くのにかなりトークンを消費している気がする。

学んだこと

この検証で痛感したのは、

結局、ローカルLLMにちゃんと動いてもらうには指示を丁寧化する必要があって、その労力を払うなら最初からClaude Codeで実装してもらうのと変わらない

ということ。

「設計はクラウド、実装はローカル」というロマンは捨てがたいんですが、

  • 6GB VRAM + 7Bモデルではコンテキスト的に複雑タスクが詰む
  • 指示を丁寧化するコスト > 節約できる課金コスト

になりがちで、今のところは素直にClaude Codeで完結させた方が早い、というのが現時点の結論です。

VRAMが潤沢な環境(24GBクラス)で14B〜32Bモデルが回せれば景色が変わるかもしれないので、機材アップグレードしたらリベンジしたい。

…とはいえ、RTX 4090 は新品30万円弱、中古3090でも15万前後。「課金を渋ってローカルLLM」のはずが、ハード代でClaude Code数年分が吹き飛ぶ。本末転倒すぎる。

組織導入なら話が変わるかも?

個人検証だと撃沈でしたが、ふと「これ会社単位なら意外と現実解では?」と思って試算してみました。

たとえば100人にClaude Code Max(仮にUS$200/月)を配ると、ざっくり 年3,600万円
一方、H100 80GB×8 のサーバーが約5,000万円で3年償却なら、年1,700万円+運用500万円で 約2,200万円。ハード代だけ見れば普通にペイします。

ただし現実には以下が乗ります:

  • 量子化したオープンモデル(70B〜DeepSeek-V3)は、コーディング体験でやはりClaude Sonnetに一歩及ばない
  • MLOps専任が必要
  • モデルは半年で陳腐化する(次のClaudeが出るたびにお気持ちが揺らぐ)
  • ピーク負荷時の並列度はAPIに敵わない

逆に 「コードを社外に出せない」業界(金融・医療・防衛など)なら、そもそも課金が選択肢にないので、オンプレ一択。この場合は3050で泣いてる場合じゃなく、真面目にH100を検討するフェーズに入ります。

つまり、

100人以上 × セキュリティ要件あり × MLOps人材いる
この3条件が揃うと、ローカルLLMは「ロマン」から「現実解」に化ける。

ということで、個人としては素直に課金。会社としては、要件次第で本気で検討する価値あり、という結論でした。

おわりに

ロマン駆動で検証して撃沈する系の記事でした。
「うちはこの構成で実装まで回せてるよ!」みたいな成功例があれば、ぜひコメントで教えてください。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?