TL;DR
- HackerNewsで「Claude/GPTをローカルモデルに完全に置き換えて日常のコーディングをしている人はいるか?」という質問が780ptsを集め、約50件の実務者報告が集まった。
- 2026年6月時点の結論は 「全面置換はまだ早いが、用途を切れば常用ドライバーになる」。報告者の多くが
Qwen3.6 27B(dense)または35B-A3B(MoE)、Gemma 4 31B、DeepSeek V4 Flashをllama.cpp+OpenCodeで回している。 - 鍵は「dense と MoE のどちらを選ぶか」「ハーネス(エージェント実行基盤)の出来」「フロンティアとの役割分担」の3点。本記事はこの生の議論を、日本のエンジニアの意思決定フレームに再構成する。
1. 導入:なぜ今「ローカルでコーディング」を真剣に検討するのか
「ローカルLLMでコーディング」は2024〜2025年には趣味の領域だった。動くには動くが、フロンティアモデル(Claude / GPT / Gemini)との差が大きすぎて、本番業務の常用ドライバーにはならない——というのが共通認識だった。
その前提が2026年に入って静かに崩れ始めている。象徴的なのが、2026年6月15日にHackerNewsで780ptsを集めた次の質問だ。
Has anyone here fully swapped Claude/GPT for a local model as their main coding tool, not just for side experiments?(実験ではなくメインのコーディングツールとしてClaude/GPTをローカルモデルに完全に置き換えた人はいるか?)
集まった約50件の回答は「Yes」が予想外に多い。しかも「動かしてみた」レベルではなく、月100ドルのClaudeサブスクを解約した、自動車向けC/C++の本番コードを3〜4ヶ月書いているといった、生活と業務に組み込んだ報告が並ぶ。
日本のエンジニアにとってこれは3つの理由で重要だ。
- コスト:フロンティアの従量課金・サブスクは円安下で重い。チーム全員分となると無視できない固定費になる。
- データ主権/コード非送信:受託・金融・公共・製造など、ソースコードや設計情報を外部APIに送れない現場は日本に多い。ローカル実行は「コードがマシンから出ない」を技術的に担保できる。
- 可用性リスク:特定モデル・特定ベンダーへの依存は、料金改定・モデル廃止・レート制限で業務が止まるリスクを抱える。
問題は「ローカルで動く」と「フロンティアを置き換えられる」の間にある巨大な溝だ。本記事は、Qiitaに多い「VRAM◯GBで動かしてみた」「課金ゼロ円にできるか」とは別の角度——実務の常用ドライバーとして置き換えられる境界線はどこか——を、HNの実務者報告という一次情報から実証的に引く。
2. 何が起きているか:実務者reportのスペクトラムを統合する
HNの回答を整理すると、構成は驚くほど収斂している。
使われているモデル
| モデル | 種別 | 報告者の評価(要約) |
|---|---|---|
| Qwen3.6 27B | dense | 「遅いが精度が一段上」。本番C/C++・Pythonに使う声が複数 |
| Qwen3.6 35B-A3B | MoE(活性3B) | 「速い」。手軽さで人気だが「dense版の方が正確」との指摘も多い |
| Gemma 4 31B | dense | Qwen と並ぶ常用候補。31Bクラスの2強 |
| DeepSeek V4 Flash | 大規模/推論 | 「APIで95%の品質を5%の価格で」(厳密にはローカルではない) |
| Kimi 2.6 / GLM 5.1 | 大規模 | 難問(AVX512へのbit行列転置)では「惨敗」との報告も |
使われているハードウェア
-
中古GPU2枚差し:
RTX 3090 ×2(5年前のゲーミング機に増設)で 150 tok/s、300kコンテキストをVRAM内に収める例。 -
単一GPU:
RTX 3090 ×1で Qwen3.6-35B を「多くのクラウドより速い」と評する例。 -
統合メモリ機:
Mac Studio 128GB/512GB、Strix Halo 128GB(ラップトップ系チップ、アイドル消費ほぼゼロ)。 -
新世代:
RTX Pro 6000 Blackwellで Gemma 4 31B / DeepSeek を高速駆動。
tok/s は構成次第で 25〜160 に散る。「速さ=快適さ」ではない点も繰り返し指摘される(後述)。
使われているハーネス(エージェント実行基盤)
OpenCode、llama.cpp、Ollama、LM Studio、そして "Pi" と呼ばれるハーネスが頻出する。多くが 「llama.cpp でモデルをサーブし、OpenCode などのエージェントから OpenAI 互換APIで叩く」 という同じ構成だ。
評価のスペクトラム(ここが本質)
報告は単純な礼賛ではなく、明確な対立軸を含む。
- 肯定派:「Claudeのサブスクを解約した」「本番で常用している」(Qwen3.6 27B / Gemma 4 31B)。
- 懐疑派:「最新最良モデルを使わない機会損失が大きすぎる。毎月調べているが、ローカルをClaude Code(Sonnet/Opus)並みに仕上げる手間・コストは今は見合わない」。
- 核心を突く声:「今のボトルネックはモデルではなく、代替ハーネスのぎこちなさだ——キュー管理・割り込み・サブエージェント・ゴール管理といった機能や使い勝手が弱い」。
この3つ目が、本記事で最も注目すべき指摘である。
3. 技術的な核心:3つの分岐点を理解する
3.1 dense か MoE か——「速さ」と「正確さ」のトレードオフ
2026年のローカルコーディングで最初に直面する選択がこれだ。
- MoE(例:Qwen3.6 35B-A3B):総パラメータは大きいが、推論時に活性化するのは一部(3B)。速い・省VRAM。
- dense(例:Qwen3.6 27B):全パラメータが毎トークン計算に関与。遅いが精度が高い。
HNでは複数の独立した報告者が「35B-A3B(MoE)より 27B(dense)の方がコーディング精度が明確に上」と述べている。自動車向けソフトを書く報告者は dense を選び、25〜40 tok/s の遅さを精度で正当化している。
教訓:ベンチマークのトークン速度に釣られて MoE を選ぶと、エージェント的な多段タスクで「速いが間違える」状態に陥りやすい。コーディングは正確さがレイテンシより効く領域だと、現場の選択は語っている。
3.2 量子化とコンテキスト長——VRAMの綱引き
ローカルでは GGUF 形式の量子化モデル(Q4_K_M、UD-Q4_K_XL、Q6_K、Q8 など)を使う。量子化を下げるほど省メモリだが品質は落ちる。さらにコンテキスト長がVRAMを大きく食う。エージェントは大量のファイル・ツール出力を文脈に積むため、ここがボトルネックになりやすい。
llama.cpp でサーブする典型構成はこうだ(OpenAI互換サーバとして起動)。
# Qwen3.6-35B-A3B(MoE) を 4bit量子化・256kコンテキストでサーブ
# --n-gpu-layers でGPUに載せる層数、-c でコンテキスト長を制御
./llama-server \
-m ./models/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf \
--n-gpu-layers 99 \
-c 262144 \
--host 0.0.0.0 --port 8080 \
--api-key local-only
エージェント側(OpenCode)からはローカルサーバを「プロバイダ」として指すだけでよい。
// opencode の設定例:ローカルの llama.cpp を OpenAI 互換エンドポイントとして登録
{
"provider": {
"local": {
"npm": "@ai-sdk/openai-compatible",
"options": { "baseURL": "http://localhost:8080/v1" },
"models": { "qwen3.6-35b-a3b": {} }
}
}
}
VRAMが厳しい場合の定番テクが「MoEのエキスパート層をあえてGPUに載せずCPU/RAMに逃がす」配置だ。Qiitaにも「VRAM 12GBでQwen 35Bを動かす」系の記事があるが、本記事の関心は「動かす」ではなく「業務で使えるコンテキスト長を確保しつつ精度を保てるか」にある。
3.3 なぜ「8〜12ヶ月前のフロンティア相当」なのか
最も冷静な評価がこれだ。ある報告者は Qwen3.6-35B + OpenCode の品質を 「8〜12ヶ月前のエッジ(最先端)モデル相当」 と表現した。
これは重要な相対化だ。2026年の31Bクラスのローカルモデルは、2025年のフロンティア級に追いついた。だがフロンティア自身も進み続けているため、最前線との差(約1年)は埋まらない。つまり——
- 「1年前のClaude/GPTで十分だった作業」はローカルで置き換え可能。
- 「最前線でないと解けなかった難問」(複雑なSIMD最適化など)は依然フロンティアが必要。HNでもKimi 2.6/GLM 5.1がAVX512のbit行列転置で「惨敗」した例が挙がる。
3.4 ボトルネックは「モデル」から「ハーネス」へ
そして核心。複数の報告が口を揃えるのは、詰まるのはもはやモデルの賢さではなく、エージェント実行基盤(ハーネス)の成熟度だという点だ。割り込み、キュー管理、サブエージェント、ゴール駆動ループ——Claude CodeやCodexが磨き込んだUXを、OSSハーネス(OpenCode等)はまだ完全には再現できていない。
裏を返せば、ローカルモデルの実力を引き出せるかどうかは 「どのモデルを選ぶか」以上に「どのハーネスでどう運用設計するか」 にかかっている。
4. 日本の実務への示唆:全面置換ではなく「役割分担」で設計する
ここまでを踏まえると、日本の現場が取るべきは「全部ローカル」でも「全部フロンティア」でもなく、ハイブリッド設計だ。HNでも実際にこのパターンが最多だった。
4.1 勝ちパターン:フロンティアが「設計・検証」、ローカルが「実装」
報告で繰り返し現れた構成がこれだ。
[Opus/Codex] 計画を立てる(設計・タスク分解・受け入れ条件)
│ プランを渡す
▼
[ローカルモデル] 計画に沿って実装(コードがマシンから出ない)
│ 差分を返す
▼
[Opus/Codex] 計画通りか検証・レビュー
- フロンティアに送るのは「計画」「レビュー対象の差分」など抽象度の高い情報に限定し、コード全文の流出を抑える。
- 反復実装というトークンを最も食う工程をローカルに寄せ、コストを劇的に下げる。
- 別の報告者は「複数のエージェントを連鎖させ、ローカルモデルが書いたコードを別ロールがレビューし、Playwrightでエラーを検出、エラーのない差分だけを次工程に渡す」というオーケストレーションで品質を底上げしている。
4.2 「ローカルに置くもの/フロンティアに残すもの」判断表
| 観点 | ローカル(Qwen/Gemma 31Bクラス)向き | フロンティア向き |
|---|---|---|
| タスクの型 | スコープが明確・定義済みの実装、リファクタ、定型 | 曖昧な仕様からの設計、最前線の難問、UI仕上げ |
| データ機密度 | 社外秘コード・顧客データを含む(外部送信不可) | 公開情報・抽象的な計画のみ |
| 量・反復 | 大量・反復が多い(コスト効く) | 単発・少量 |
| レイテンシ許容 | バッチ/夜間実行も可(dense採用しやすい) | 対話的に即応が要る |
4.3 導入チェックリスト(日本の組織向け)
- 要件の切り分け:「外部送信禁止のコード」を棚卸しし、ローカル必須領域を定義する。これが投資対効果の根拠になる。
- モデル選定:まず dense の 27〜31Bクラス(Qwen3.6 27B / Gemma 4 31B)を基準に。速度が要る局面だけ MoE を併用。
-
ハードウェア:単一
RTX 3090(中古)でも 31Bクラス+実用コンテキストは現実的。チーム共用なら統合メモリ機(Mac Studio / Strix Halo)や複数GPUも選択肢。 -
ハーネス:
llama.cpp(サーブ)+OpenCodeを起点に。ハーネスの権限設定を必ず確認(OpenCodeは自律的にファイル削除など破壊的操作を行いうると公式手順でも警告。権限要求・バックアップを設定する)。 - ガバナンス:ローカルでも「何を外部APIに出すか」のポリシーを明文化。ハイブリッド運用では境界の管理が肝。
- 撤退ライン:「最新最良を使わない機会損失」を定期的に再評価する。懐疑派の指摘通り、状況は毎月動く。
なお、サプライチェーンの観点は別途警戒したい。モデルやGGUF、量子化済みウェイト、ハーネスのプラグインを出所不明な配布元から取得しない——IPAの「情報セキュリティ10大脅威 2026」でもサプライチェーン攻撃は組織向けの上位に位置する。ローカル化は外部送信リスクを下げる一方、導入物の検証責任は自分に移る。
5. まとめ:エンジニアへのアクションアイテム
2026年6月時点の現実解は、「フロンティアか、ローカルか」の二択ではなく、両者の役割分担をどう設計するかだ。
-
今すぐ試す:手元に
RTX 3090クラスがあるなら、llama.cpp+Qwen3.6 27B(dense)+OpenCodeで「定義済みの実装タスク」を1つ任せてみる。「8〜12ヶ月前のフロンティア相当」がどこまで通用するか体感する。 - dense を基準にする:速度に釣られて MoE から入らない。コーディングは正確さが効く。
- ハイブリッドで組む:設計・検証はフロンティア、反復実装はローカル。コストとデータ主権を同時に取りに行く。
- ハーネスに投資する:ボトルネックはモデルではなくハーネス。権限・割り込み・サブエージェントの運用設計が成否を分ける。破壊的操作の権限は最初に絞る。
- 機密領域から逆算する:「外部に出せないコード」を起点にローカル化のスコープを決めると、投資判断がぶれない。
ローカルモデルは「フロンティアの完全な代替」ではない。だが「送れないコードを、止まらない環境で、十分な品質で書く」という、日本の多くの現場が抱える固有の制約に対しては、2026年にしてようやく実用解になった。境界線を正しく引けるかどうかが、これからのエンジニアの差になる。
参考ソース
- Ask HN: Has anyone replaced Claude/GPT with a local model for daily coding?(HN議論・本記事の一次情報)
- pierotofy/LocalCodingLLM(llama.cpp + Qwen + OpenCode のローカル構成手順・破壊的操作の警告)
- OpenCode 公式(ローカル/セルフホストモデル対応のOSSコーディングエージェント)
- llama.cpp 公式リポジトリ(OpenAI互換サーバ・GGUF推論エンジン)
- Ollama 公式(ローカルモデル実行ランタイム)
- LM Studio 公式(ローカルLLM実行GUI)
- Qwen 公式リポジトリ(Qwenシリーズ)
- IPA 情報セキュリティ10大脅威 2026(サプライチェーン攻撃の位置づけ)