📝 本記事について:この記事は AI(Claude)と共同で執筆しています。構成案・調査・下書きを AI と壁打ちしながらまとめ、最終的な編集・事実確認は人間(筆者)が行っています。ベンチマーク数値や価格情報は2026年4月時点の公開情報に基づき、出典リンクを各セクションに明記していますが、最新の値は必ず一次ソースでご確認ください。なおモデル名(例:Qwen3.6-35B-A3B など)は記事執筆時点のロードマップ・公開情報に基づいた呼称を使用しており、実際の正式リリース名と異なる可能性があります。検索時は各社公式サイト・Hugging Face を併せてご確認ください。
はじめに:「これ、ネットに繋がってないんですよ」
知人の家で、新調した Mac Studio が AI モデルを使ってすらすらと長文を生成しているのを見せられました。
「すごいですね、回線速いんですね」
「いや、これ、最初から Wi-Fi 切ってあるんですよ。全部、この箱の中だけで動いてます」
そう言って画面を指差す知人の対話ログを見て、軽くめまいがしました。ここ1年、自分はクラウド経由の AI にしか触れていなかったので、「自分のPCの中だけで AI が動く」という事実が、頭ではわかっていても体感として全然なかった。「できる」と「やってる」の間には、ものすごく深い溝があります。
「自分でも、これ、できる?」
そう思って調べはじめたのが、いわゆる ローカルLLM という世界です。
ChatGPT、Claude、Gemini といったクラウドAI は本当に便利で、自分も日常的にお世話になっています。ただ、便利すぎて気にしなくなっていたものが3つありました — データの行方、ネット接続への依存、そしてサービス側の都合(料金・ポリシー・障害)。「自分のPCで全部完結する AI」を持っておくことは、それらをぜんぶ、自分の手元に戻すことでもあります。
本記事では、
- ローカルLLM とは何で、クラウドとどう違うのか
- 2026年4月時点でどのモデルを選べばいいか
- 動かすマシンは NVIDIA GPU か Apple Silicon か
- 結局、用途ごとにどう使い分けるべきか
を1本にまとめました。長いので、目次から興味のあるパートにジャンプしてもらってもOKです。
TL;DR
時間がない人向けに、結論から。
- ローカルLLM = 自分のPCの中だけで完結するAI。クラウドに送らないのでプライバシーリスクもネット遅延もほぼゼロ、ランニングコストは電気代のみ(初期投資は別途)。
- 2026年4月時点では、性能はまだクラウド最上位(Claude Opus 4.7、GPT-5.5 など)に及ばない場面が多い。ただし 「1〜2年前のクラウド最強」が「今年のローカルで動く」 ペースで進化中。
- GitHub Copilot もトークン従量課金へ段階移行と報じられている。「定額サブスクで重いエージェント利用までカバーする」モデルは現実的でなくなりつつあり、「予算を固定したいならローカル」の比重が一段上がる(ChatGPT Plus・Claude Pro 等の上限付き定額サブスクは引き続き存在)。
- 個人で動かすなら Gemma 3 12B(軽量帯)か Qwen3.6-35B-A3B(中量帯)から。オープン最強級は DeepSeek V4 / Kimi K2.6 / GLM-5.1(ベンチマークによって首位が入れ替わる)が、いずれもマシン要件が非常に重い。
- ハードは NVIDIA GPU(速度・最新ツール)vs Apple Silicon(容量・静音・統合メモリ) の2択。動かしたいモデルのサイズで決まる。
- 「全部クラウド」も「全部ローカル」も極端。用途ごとに切り分けるのが2026年の現実解。
- 機密データ・個人チャット・文章添削はいますぐローカル化を検討してOK。大規模コーディング・マルチモーダル生成は当面クラウド継続が無難。
Part 1:ローカルLLM とは何か
LLM のおさらい
まず用語のおさらいです。LLM(Large Language Model:大規模言語モデル)は、ものすごく大量の文章を読み込んで、「次にどんな言葉が来そうか」を確率で予測する仕組み。ChatGPT も Claude も Gemini も、中身はすべて LLM です。「賢い文章補完エンジン」と思っておけば、最初はだいたい合っています。
ローカルLLM = 自分のPCの中だけで動くAI
クラウドLLM とローカルLLM の関係は、自分はよく 車のレンタル vs 自家用車 にたとえています。
| 観点 | クラウドLLM | ローカルLLM |
|---|---|---|
| イメージ | レンタカー(必要なときに借りる) | 自家用車(自宅の駐車場に置いてある) |
| お金の流れ | 乗った分だけ払う(従量課金) | 最初に車を買う+ガソリン代(電気代) |
| どこで使える? | ネットがある場所 | 完全オフラインでも動く |
| 整備(更新) | お店がやってくれる | 自分でやる |
ローカルLLM とは、ざっくり言えば 「自分のパソコンの中だけで動く AI」 のこと。インターネットも、API キーも、月額課金も、原理的には不要。電源さえ入っていれば、深夜の山小屋でも動きます。
クラウドLLM とローカルLLM、ガチ比較表
もう少し細かく並べてみます。
| 比較項目 | クラウドLLM(例:GPT-5.5、Claude Opus 4.7) | ローカルLLM(例:Llama 4、Qwen 3、Gemma 3) |
|---|---|---|
| コスト構造 | 従量課金。使うほど青天井 | PC初期投資+電気代。固定費に近い |
| プライバシー | 入力内容は外部サーバーへ送信 | データは自分のPC外に出ない |
| 生成速度(同サイズ比) | データセンターGPUで一般に高速 | ハードに依存。最上位GPUにはほぼ届かない |
| 応答ラグ | ネット遅延あり。混雑時は数秒待つことも | ネット遅延ゼロ。オフラインでも安定 |
| ネット接続 | 必須 | 不要(最初のモデルダウンロード時だけ必要) |
| モデル性能 | 最新最強。複雑な推論・コーディングが得意 | 動かせるモデルはハード性能に依存 |
| セットアップ | ブラウザかAPIキーですぐ使える | ツール導入+モデルDL+環境構築が必要 |
| アップデート | 自動。気づいたら賢くなっている | 自分で新モデルをDLし直す |
| 障害時 | サービス側のダウンに引きずられる | 自分のPCが動けば動く |
「最強の性能でとにかく成果を出したい」のがクラウド、「コスト・プライバシー・自律性を取りたい」のがローカル、と整理できます。
Part 2:なぜいま 2026 年に話題なのか
「ローカルLLM」という言葉自体は数年前からあります。なのにここ最近、急に界隈がざわついている理由は3つあります。
理由1:クラウドAIの料金、地味に上がっている
2026年4月時点の主要クラウドモデルの API 料金を並べてみます。
| モデル | 入力(100万トークンあたり) | 出力(100万トークンあたり) |
|---|---|---|
| Claude Opus 4.7 | 💲5 | 💲25 |
| Claude Sonnet 4.6 | 💲3 | 💲15 |
| Claude Haiku 4.5 | 💲1 | 💲5 |
| GPT-5.5(標準) | 💲5 | 💲30 |
| GPT-5.5 Pro | 💲30 | 💲180 |
| Gemini 3 Pro(≤200K) | 💲2 | 💲12 |
| Gemini 3 Flash | 💲0.5 | 💲3 |
出典:Anthropic 公式 Pricing、OpenAI API Pricing、Google AI Gemini Pricing(補足:BenchLM、apidog、pricepertoken)。
数字だけ見ると「100万トークンで数ドル」と安く見えますが、エージェント的に AI を回すと 1セッションで数百万トークン平気で消費する ことがあります。Claude Opus 4.7 は「価格は据え置きだがトークナイザーが変わって、同じ入力で1.0〜1.35倍のトークンを消費するケースがある」という報告も出ています(finout.io 解説)。
サブスクリプションも上限が地味に上がっています。
| プラン | 月額 |
|---|---|
| ChatGPT Plus | 💲20 |
| ChatGPT Pro(中位) | 💲100 |
| ChatGPT Pro(最上位) | 💲200 |
| Claude Pro | 💲20 |
| Claude Max 5x(Pro の5倍利用枠) | 💲100 |
| Cursor Pro | 💲20(一定の使用枠込み、超過分は従量) |
| Cursor Ultra | 💲200 |
※「Claude Max 5x / 20x」は Pro の5倍/20倍の利用上限を提供する上位プラン名(Anthropic 公式呼称)。
出典:Anthropic 公式 — Plans & Pricing、OpenAI ChatGPT Pricing、Cursor 公式。
API のトークン単価そのものは、過去2年で 30〜50%/年で下落しているという調査もあります(IntuitionLabs 2025)。それでも実際の支出は逆に増えやすい。理由は3つ:
- エージェント的利用でトークン消費が爆発:1セッション数百万トークン消費が珍しくない
- サブスク上位プランが💲100〜💲200に高止まり:単価は下がっても固定費は上がる構造
- マルチモーダル(画像・動画)API が高額:1動画で数ドル単位
つまり「単価は下がるが総額は上がる」という、消費者にとってクセの強いマーケットです。
さらに地味な圧力:そもそもクラウドAI各社は赤字でモデルを提供している
目に見える値上げに加えて、事業者側の赤字構造そのものも、将来の値上げ圧力になります。Anthropic の最近の数字を見てみると:
- 2025年通期のキャッシュバーンは 約30〜52億ドル(売上を上回る支出ペース)
- 2025年通期の粗利率予測を 50% → 40% に下方修正(Google・Amazon の推論コストが想定より23%上振れしたため。出典:The Information / Techmeme まとめ、Investing.com 報道)
- 黒字化見込みは2028年まで持ち越し。2026年中はキャッシュバーンが売上の1/3程度に縮小する想定(TechCrunch 報道、Cybernews 解説)
OpenAI もほぼ同じ状況で、2025年の粗利は約46%(推論コスト込み)、規模はさらに大きい赤字を継続中です。つまり今のクラウドAI料金は、本来の運用コストを十分に回収できておらず、VCマネーで補填されている価格水準だということ。
IPO 準備や黒字化フェーズに本格的に入れば、 「単価据え置きでトークナイザーを変える(実質値上げ)」「サブスク上限の引き締め」「重い使い方の別料金化」 といった形で値上げ圧力が顕在化する可能性があります。先ほどの Opus 4.7 トークナイザー変更や、2026年4月に観測されたと報じられた Claude Code(コーディングエージェント機能)を Claude Pro プランの同梱対象から一時的に外すテスト(BigGo Finance、※単一ソース・Anthropic 公式声明なし)は、その兆候の一例として参考程度に見ておくぐらいが安全です。なお Claude Pro サブスク自体(チャット利用)が廃止されるという話ではなく、重いエージェント機能だけ別建て課金にする可能性を観測したテストです。
「今のクラウド料金は底値かもしれない」 と一度疑っておくのは、無駄ではありません。ローカルLLM を選択肢に持っておく価値は、ここで一段上がります。
追い打ち:GitHub Copilot も「回数制」から「トークン消費制」へ段階移行と報じられている
そして開発者にとって大きい変化が公式アナウンスされました。GitHub Copilot は2026年6月1日から、Premium Request(プレミアムリクエスト)の月間枠制を廃止し、トークン消費ベースの "AI Credits" による usage-based billing に全プランで移行します(出典:GitHub Blog — GitHub Copilot is moving to usage-based billing、GitHub Docs — Models and pricing)。
新料金体系では Copilot Pro 💲10/月=💲10 分の AI Credits、Pro+ 💲39/月=💲39 分の AI Credits、Business 💲19/月=💲19 分の AI Credits(1 AI Credit = 💲0.01)と、月額にぴったり同額のクレジットしか含まれず、超過分は従量で API 単価準拠となります。これまで Copilot Pro(💲10)では「月◯◯回までは Claude / GPT-5 などのプレミアムモデルが使い放題」という回数制でしたが、エージェント機能(Copilot Coding Agent、MCP連携)の普及で 1リクエストあたりのトークン消費が読めない状況になり、GitHub 側の原価が爆発したのが背景です。
- 旧モデル:1ユーザーが Claude Sonnet にどれだけ重いコンテキストを投げても「1リクエスト」とカウント
- 新モデル:実消費トークンに応じて月間 AI Credits を消費し、超過分は API 単価準拠で従量請求
開発者目線では、「軽いオートコンプリートはほぼ無料のままだが、エージェント的に丸投げすると Cursor 並みに金がかかる」 構造への変化です。OpenAI の Codex CLI、Anthropic の Claude Code が同じ流れで「使えば使うほど青天井」化しており、主要ベンダーが揃ってトークン従量に収斂してきたのが2026年Q2のトレンドです(The Register — Microsoft's GitHub shifts to metered AI billing)。
これが何を意味するか。 「定額サブスクのみで重いエージェント的利用までカバーする」モデルは現実的でなくなりつつある ということ。Copilot Pro の月💲10 で安心していた開発者が、使い方次第で月 💲50〜💲100 規模の超過請求を受ける可能性も指摘されています。 「予算を固定したいならローカル」 という選択肢の重要度は、ここで一段上がります。
理由2:オープンソースモデルが「無料なのにヤバい」
2025〜2026年は、オープンウェイトのモデルがゴリゴリ進化した年でした。代表的なものを表にまとめます。
| モデル | 提供元 | 注目ポイント |
|---|---|---|
| DeepSeek V4 Pro | DeepSeek | 1.6Tパラメータ MoE、ネイティブ100万トークンコンテキスト、MITライセンス。2026年4月24日プレビュー公開(CNBC 報道) |
| Llama 4 Scout | Meta | 業界トップの 1000万トークンコンテキスト。17Bアクティブ/109Bトータル。2025年4月リリース(Meta AI 公式) |
| Qwen 3.5 / 3.6 | Alibaba | 「思考モード」搭載。コーディング・数学が強い |
| Gemma 3 / 4 | 軽量・効率重視。8GB RAM 級でも動く | |
| Mistral Small 4 / Mistral Large 3 | Mistral AI | ヨーロッパ発、Small 4・Large 3 ともに Apache 2.0 で商用利用可(Mistral 公式) |
注目してほしいのは 「ローカルでも動く小型モデル」と「最高峰級の巨大モデル」が両方揃ってきた こと。手元のPCで動く軽いやつから、お金をかければデータセンタークラスのものまで、自分の予算でグラデーションを選べる時代になりました。
理由3:ハードウェアが「ローカル前提」を許してくれる
ここ1年で、ローカルLLM の体感を変えたのが Apple Silicon の統合メモリ と NVIDIA RTX 5090 という二大選択肢です。
| ハード | メモリ容量 | 帯域幅 | 強み |
|---|---|---|---|
| NVIDIA RTX 5090(デスクトップGPU) | 32GB GDDR7 | 1,792 GB/s | 32GB に収まるモデルなら爆速 |
| Apple M4 Max | 最大128GB(CPU/GPU共有) | 約546 GB/s | 大容量モデルがそのまま載る |
| Apple M5 Max(2026年3月発売) | 最大128GB(CPU/GPU共有) | 約614 GB/s | M4 Max比+28%の高速化、MacBook Pro 搭載 |
| Apple M3 Ultra | 最大256GB(CPU/GPU共有)※ | 約819 GB/s | 70B〜100B級モデルも余裕で読み込める |
※ M3 Ultra は2025年発売。2026年3月までは最大512GB構成も選べたが、Apple がそのオプションを販売停止し、現行カタログ最上位は256GB。価格・販売停止経緯は Part 5 で詳述。
ざっくり言えば、「速さで勝つ NVIDIA」 vs 「容量で勝つ Apple」 という構図です。詳細は Part 5 で深掘りします。
Part 3:用語のおさらい
各モデル・各ハードを比べる前に、共通用語を5つだけ揃えます。ここを押さえると、あとの表が一気に読めるようになります。
1. パラメータ数 = 「脳のサイズ」みたいなもの
7B(70億)、32B(320億)、1T(1兆)といった数字は、モデルの内部にある「重み(パラメータ)」の数です。人間で言えば脳の神経細胞の数みたいなイメージで、多いほど一般に賢くなりますが、その分メモリも喰います。
2. Dense vs MoE — 全員出社か、専門家会議か
ここ1年でローカルLLM界が大きく変わったのが MoE(Mixture of Experts、専門家混合) の普及です。
- Dense(密)モデル:質問のたびに全パラメータがフル稼働する「全員出社型」
- MoEモデル:専門家(Expert)を多数抱えていて、必要な人だけ呼び出す「専門家会議型」
たとえば Qwen3.6-35B-A3B は、全体は35Bだけど、毎回動くのは3Bだけ。専門家会議で必要な人だけ発言する仕組みです。メモリには全員載せるけど、計算は一部だけなので、速くて電気代も安い。これが2026年の主流です(出典:Qwen公式ブログ)。
3. 量子化(Quantization)= JPEG圧縮みたいなもの
「Q4_K_M」「Q8_0」「F16」みたいな呪文が出てきますが、これは画像のJPEG圧縮と考えるとスッキリします。
- F16(フル品質):画像で言えばRAW・PNG。きれいだがファイル巨大
- Q8_0(高品質圧縮):高画質JPEG。ほぼ劣化なし、サイズ半分
- Q4_K_M(実用圧縮):標準JPEG。よく見ると違うけど普段使いに十分。サイズはF16の約3割
- Q2_K(極限圧縮):低画質JPEG。ノイズが目立つが、とにかく軽い
Q4_K_M は F16のおよそ1/3〜1/4のVRAMで載り(理論値は1/4、実装上のオーバーヘッドで実測は1/3前後)、品質低下はわずかなので、ローカル運用の標準です(出典:SitePoint Quantization Guide 2026)。
4. コンテキスト長=「一度に読める文章の長さ」
8K、128K、10M といった数字は、モデルが一度に把握できるトークン数です。トークンと文字数の関係はモデル・言語によって変わり、英語で 1トークン ≒ 4文字程度、日本語は文字あたりのトークン消費が多く 1文字 ≒ 1〜2トークン になることもあります(OpenAIトークナイザー基準)。長い社内文書や巨大なソースコードを読ませたいなら、コンテキスト長は要チェックです。
5. SWE-Bench の「Verified」と「Pro」は別物
本記事ではコーディング能力の指標として SWE-Bench をよく引きますが、SWE-Bench Verified と SWE-Bench Pro は別ベンチマークです。
- SWE-Bench Verified:人手で「解ける」と検証された500問のサブセット。比較的高スコアが出やすい。
- SWE-Bench Pro:より難しい新セット。スコアは Verified より大幅に低くなる傾向。
同じモデルでも Verified で 73% 超え、Pro では 50% を切る、ということが普通に起きます。本記事では数字を出すときに必ずどちらかを明示します。
注意:本記事で引いているベンチマーク数値の多くはベンダーの自社発表値を含みます。Artificial Analysis、LMArena などの第三者評価とは数ポイント単位で差が出ることがあるため、モデル選定時は複数ソースで照らし合わせるのを推奨します。
用語まとめ表
| 用語 | 例 | 一言で言うと |
|---|---|---|
| パラメータ数 | 7B, 35B, 1T | 脳のサイズ。多いほど賢いが重い |
| Dense | Llama 3, Gemma 3 | 全員出社型。シンプルで安定 |
| MoE | Qwen3.6, DeepSeek V4 | 専門家会議型。速くて省エネ |
| 量子化 | Q4_K_M, F16 | JPEG圧縮みたいなもの |
| コンテキスト長 | 128K, 10M | 一度に読める文章の量 |
| SWE-Bench Verified / Pro | 73.4% / 49.5% | コーディング能力の指標。Pro のほうが難しい |
Part 4:主要モデルファミリー
ここからは2026年4月時点で押さえておきたいファミリーを順番に見ていきます。
Llama 4(Meta)— 老舗の安心感、超ロングコンテキスト
Meta が2025年4月に投入した Llama 4 ファミリーは、Scout / Maverick の2モデルが公開済みで、最大の Behemoth(教師モデル用途)は2026年4月時点でも未リリース・ステータス不確定です(SiliconANGLE — Meta postpones Behemoth、Computerworld — Meta hits pause on Behemoth)。なかでも公開済みで特徴的なのが Scout で、コンテキスト長10Mトークン(=1000万トークン) という業界最長級を実現しています(出典:Meta AI Llama 4 公式)。
Scout(軽量・超ロングコンテキスト寄り)
- 総パラメータ:109B(うちアクティブ17B、エキスパート16基のMoE)
- コンテキスト長:10M トークン(1000万トークン。Llama 3 の128Kから約78倍の拡張)
- ライセンス:Llama 4 Community License(商用可、ただし月間アクティブユーザー7億超は制限)
10Mトークンというと、本100冊分くらい一気に読めるレベルです。「巨大な技術ドキュメントを丸ごと読ませたい」用途で他の追随を許しません。
ただしローカル運用のハードルは高めで、Q4量子化でも約 55GB VRAM必要です(出典:Unsloth公式ドキュメント)。さらに10Mトークンの長コンテキストをフルに使う場合は KVキャッシュ(Key-Valueキャッシュ:すでに読み込んだ会話履歴・長文の中間状態を保持しておく作業メモリ。長文を読ませるほど線形に膨らむ)で追加メモリが大量に必要(数十〜数百GB級)になり、表面の「10Mトークン」を額面通りに使うのは個人マシンではほぼ不可能です。Mac Studio 64GB クラスでは Scout 本体すらデフォルトのGPU割り当て(約48GB)に収まらないため、sudo sysctl iogpu.wired_limit_mb で割り当てを拡張する必要があります。実用的に動かしたいなら128GB以上推奨、コンシューマGPU単体ではきついラインです。
Maverick(汎用・チャット/マルチモーダル寄り)
- 総パラメータ:約400B(うちアクティブ17B、128エキスパート + 共有1のMoE)
- コンテキスト長:1M トークン
- 多言語:12言語対応、ネイティブマルチモーダル(画像・テキスト)
- ライセンス:Llama 4 Community License
Maverick は Scout と同じ「アクティブ17B」設計ながら、エキスパート数が16→128と8倍で総パラメータが400B級。多言語チャット・マルチモーダル理解の汎用ハイエンドポジションです。ローカル運用は Scout 以上に重く、フル品質ではデータセンターGPU環境向け(出典:Hugging Face — Llama-4-Maverick-17B-128E-Instruct)。「個人マシンで動かす」前提なら Scout、「APIで最高品質を引き出す」なら Maverick、と棲み分けるとわかりやすいです。
Qwen 3.x(Alibaba)— MoEで「軽くて強い」を実現
個人的に2026年いちばんの推しファミリーです。Alibaba は2026年に入ってから Qwen 3.5(中量〜上位)と Qwen 3.6(中上位 MoE) の2世代を投入しています。
Qwen 3.5 Small Series(2026年3月2日リリース、Apache 2.0)
オンデバイス向けの軽量ラインで、0.8B / 2B / 4B / 9B の4サイズが揃いました(出典:MarkTechPost — Qwen 3.5 Small models、Qwen公式ブログ)。なかでも Qwen 3.5-9B はネイティブマルチモーダル・思考モード搭載で、16GBクラスのMacBookやノートPCで日本語チャットが快適に回るスイートスポット。Qwen 3.5-Pro(397B-A17B) が同シリーズのフラッグシップですが、こちらはAPI/ハイエンドGPU環境向けです。
Qwen 3.6-35B-A3B(2026年4月16日リリース、Apache 2.0)
中量帯のエース。総35B / アクティブ3BのMoEで、 SWE-Bench Verified 73.4% を叩き出しました(出典:Qwen公式ブログ、Hugging Face)。
- 総パラメータ:35B(256エキスパート中8つ+共有1がアクティブ、約3B)
- コンテキスト長:256K
- ライセンス:Apache 2.0(最も自由)
- VRAM目安:Q4_K_M で約21GB(Will It Run AI VRAM Guide)。24GB以上のGPU(RTX 4090 24GB / RTX 5090 32GB)/32GB以上の統合メモリのMacで快適
3Bしか毎回動かないのに、前世代の Qwen 3-32B(32Bフル稼働)に匹敵する性能を、計算量1/9で達成しているのがミソ。「個人で動かせて、それなりに賢い」帯のスイートスポットです。
DeepSeek V4(DeepSeek)— オープンソース最強級、ただし要マシン規模大
2026年4月24日にプレビュー公開された DeepSeek V4 は、現時点でオープン最強と言って差し支えありません(出典:DeepSeek API Docs)。
- DeepSeek-V4-Pro:1.6Tパラメータ(アクティブ49B)
- DeepSeek-V4-Flash:284Bパラメータ(アクティブ13B)
- コンテキスト長:1M トークン
- SWE-Bench Verified:約80.6%(出典:NxCode benchmarks)
- HumanEval:約96.4%(同上)
- ライセンス:MIT
SWE-Bench Verified では Claude Opus 4.7 など最上位クラウドモデルに肉薄する位置にいますが1、1.6Tをローカルで動かす個人はほぼいません。Pro は Q4_K_M でも理論サイズ800GB級になり、Mac Studio M3 Ultra 256GB ですらそもそも乗りません。実用上は Pro は API 経由、ローカルは Flash(284B-A13B)の量子化版を狙うのが現実解です。Flash であれば Q4 で約160GB前後、M3 Ultra 256GB で何とか動かせる重量級ラインです。
Gemma 3 / Gemma 4(Google DeepMind)— 個人マシンに最適なバランス型
Googleの Gemma 3(2025年公開、4サイズ展開:1B/4B/12B/27B)は、Gemma 3 12Bが128Kコンテキストで個人運用に最適化されています(出典:Google DeepMind Gemma 3)。
その後継として Gemma 4 が2026年4月2日にリリースされました(出典:Google Blog)。
- E2B / E4B(オンデバイス向け、Gemma 3n で導入された Per-Layer Embeddings (PLE) を継承。各デコーダ層に専用の小さな埋め込みを持たせ、メモリ効率を上げる手法)
- 26B MoE(アクティブ3.8B、低レイテンシ重視)
- 31B Dense(Arena AI Text Leaderboard で オープンウェイトモデル中 第3位(スコア 1452) を獲得。出典:Google公式ブログ)
Gemma 4 31Bは「400Bクラスのライバルに勝つ31Bモデル」と話題で、RTX 3090級のコンシューマGPUでもQ4量子化版が動きます。 「個人マシンで触れるGoogleの本気モデル」 として要チェックです。
補足:本記事では入門の推奨に Gemma 3 12B を据えています。Gemma 4 のほうが新しいですが、2026年4月時点で Ollama Library・LM Studio などへの統合と日本語コミュニティ情報の蓄積が Gemma 3 のほうが充実しているためです。慣れてきたら Gemma 4 31B にステップアップするのが無難です。
Mistral Small 4(Mistral AI)— 単一GPUで動く品質/リソース比のチャンピオン
2026年3月16日に公開された Mistral Small 4 は、Magistral(推論)/ Pixtral(Vision)/ Devstral(コード)の3製品をひとつに統合した意欲作です(出典:Mistral AI公式)。
- 総パラメータ:119B MoE(アクティブ20B級)
- AA-LCR(Artificial Analysis Long Context Reasoning:100Kトークン規模の実務文書を横断推論する評価指標。スコアは0〜1で高いほど良い、フロンティアモデルの上限が現状0.75前後)で 0.72(Qwen系の1/3〜1/4の出力長で同等品質。出典:Artificial Analysis AA-LCR Leaderboard)
- LiveCodeBench で GPT-OSS 120B(OpenAI が公開したオープンウェイトモデル、120B 総パラメータの MoE)を上回り、出力は20%短い
補足:従来の Mistral Small は22B級でしたが、Small 4 から MoE 化し、総パラメータが大きくなった一方でアクティブ部分は据え置き〜微増。「Small」の名はアクティブ規模/推論コスト基準で残されています。
「短く的確に答える」設計が特徴で、API代やVRAMの消費を抑えたい運用にハマります。ただし119B級のフル品質ローカル運用には A100 80GB クラス以上が必要で、個人マシンでの常用は厳しめ。商用APIまたは量子化版+ハイエンドGPU環境向けです。
番外:Kimi K2.6 / GLM-5.1 — 中国発の新星たち
2026年4月、Moonshot AI の Kimi K2.6(1T MoE、アクティブ32B、SWE-Bench Pro 58.6%)と、Z.ai(2025年7月に Zhipu AI からリブランド、2026年1月に香港 IPO)の GLM-5.1(同 SWE-Bench Pro 58.4%)が、リリース当時の最上位だった Claude Opus 4.6(53.4%)や GPT-5.5(57.7%)を超える スコアを出して話題になりました(出典:Kimi公式、GLM-5.1 Hugging Face、TechStartups — Zhipu rebrands as Z.ai)。なお Claude Opus 4.7 リリース後の再評価値は2026年4月末時点で未公表です。
ライセンスはどちらも商用利用可(Modified MIT / MIT)。ただし Kimi K2.6 は1T、GLM-5.1 は745B 級なので、いずれもローカル運用は超ハイエンド向け です。
比較表(用途×推奨マシン×ライセンス)
| ファミリー | 代表モデル | 用途のハマり度(チャット/コード/推論/Vision) | 推奨マシン目安 | ライセンス |
|---|---|---|---|---|
| Llama 4 | Scout 109B-A17B / Maverick 400B-A17B | 〇 / 〇 / △ / 〇 | Scout: Mac 128GB+ / Maverick: API推奨 | Llama 4 Community |
| Qwen 3.x | Qwen 3.5-9B(軽量) / Qwen3.6-35B-A3B(中量) | 〇 / ◎ / 〇 / 〇 | 16GBノート〜RTX 4090 | Apache 2.0 |
| DeepSeek V4 | V4-Flash 284B-A13B | ◎ / ◎ / ◎ / △ | Mac Studio 192GB+ / H100 | MIT |
| Gemma 3/4 | Gemma 3 12B / Gemma 4 31B | 〇 / 〇 / 〇 / 〇 | RTX 3090 / Mac 32GB | Gemma Terms |
| Mistral Small 4 | Small 4 119B MoE | 〇 / ◎ / 〇 / 〇 | A100 80GB / 4×H100 | Apache 2.0 |
| Kimi K2.6 | K2.6 1T-A32B | ◎ / ◎ / ◎ / 〇 | API推奨/超ハイエンドのみローカル | Modified MIT |
| GLM-5.1 | GLM-5.1 745B-A44B | ◎ / ◎ / ◎ / 〇 | API推奨 | MIT |
※ 2026年4月時点の各社公式情報・Hugging Faceモデルカードに基づく自分まとめ
用途別おすすめ
机上の比較だけだと選びきれないので、用途ベースでさらに絞ります。
| やりたいこと | おすすめ第一候補 | 必要マシン感 |
|---|---|---|
| 雑談・要約・翻訳 | Gemma 3 12B | ノートPC〜ミドルレンジ |
| 日本語チャット | Qwen 3.5-9B | ノートPC〜ミドルレンジ |
| コード補助 | Qwen 3.6-35B-A3B | M3 Max 64GB / RTX 4090 |
| 長文ドキュメント分析 | Llama 4 Scout | Mac Studio 128GB+(実用域) |
| 最高性能の研究用途 | DeepSeek V4 Pro | API or 超ハイエンド |
モデルの入手先と動かし方
「どこで実際に入手するの?」という質問もよく受けます。2026年現在の主要な入手先・実行ツールはそれぞれ3つです。
入手先:
| サイト | 特徴 | 向いている人 |
|---|---|---|
| canirun.ai | GPU/Apple Siliconを選ぶと、100以上のモデルを6段階で評価してくれる。量子化別ファイルサイズも表示 | 自分のマシンで何が動くか知りたい人 |
| Hugging Face | モデル本体・ライセンス・ベンチマークが集約。GGUF版(GGUF=llama.cpp 系のローカル推論で使われる単一ファイル形式。量子化済みの重みをまとめて配布できる)も多数 | 詳細スペックを確認したい人 |
| Ollama Library |
ollama pull モデル名 で即実行できる公式リスト |
とにかく動かしてみたい人 |
実行ツール:
| ツール | こんな人向け | 特徴 |
|---|---|---|
| Ollama | コマンドラインに抵抗がない人 | 2026年現在、ローカルLLM のデファクト的存在。ollama run llama4 のようにワンコマンドで起動可能 |
| LM Studio | GUI が好きな人、Windows ユーザー | デスクトップアプリでモデル管理・チャットが完結 |
| llama.cpp | こだわりたい人 | Ollama や LM Studio の内部でも使われている、低レベル推論エンジン |
参考までに、Ollama の起動コマンドはこんな感じです。
# モデルをダウンロードして起動
ollama run gemma3:12b
たったこれだけ。これで自分のPC内でAIとの対話が始まります。初めて動いたときは、地味に感動します。canirun.ai の詳しい使い方は Part 5 で取り上げます。
Part 5:ハードウェア選び — NVIDIA GPU vs Apple Silicon
ここからはハードの話。「Mac Studio 買えばいい?それともゲーミングPC を組めばいい?」という、自分も半年迷っていたテーマです。
なぜ「NVIDIA GPU か Apple Silicon」の2択になっているのか
「AMD は? Intel Arc は? Google の TPU は?」と思った方、鋭いです。実は他にも選択肢はあるのですが、2026年4月時点で個人ユーザー目線だと、以下のような理由で主流から外れています。
| 候補 | 現状(2026年4月時点) |
|---|---|
| AMD Radeon | ROCm(AMD 版 CUDA)が改善中だが、NVIDIA より速度が25〜30%遅く、セットアップに5〜10時間かかることも2 |
| Intel Arc | ipex-llm リポジトリが2026年1月にアーカイブされ、ソフトウェアスタックが分裂状態3 |
| Google TPU | 基本クラウド専用。個人で買って机に置けるものではない |
| 専用 ASIC(Groq 等) | クラウドサービスとして提供。手元には来ない |
要は、「机の上に置けて、すぐ動いて、コミュニティのサポートが厚い」という条件で絞ると、NVIDIA GPU か Apple Siliconの2択にほぼ収束します4。
NVIDIA GPU の強み
強み1:CUDA という10年もののお堀
CUDA(クーダ:Compute Unified Device Architecture) は、NVIDIA が10年以上かけて育てた、ディープラーニング向けの独自プラットフォームです。「GPU で計算するときの共通言語」だと思ってください。
PyTorch、TensorFlow、llama.cpp、vLLM、ComfyUI——機械学習まわりのほぼ全ツールは、まず CUDA で動くように作られ、そのあと(運がよければ)他の環境にも対応します5。新しいモデルや新しい高速化手法が出たとき、最初に動くのは NVIDIA。これが CUDA というお堀の正体です。
強み2:帯域幅の暴力
LLM の「答えを生成する速度」は、ほぼメモリ帯域幅で決まります。重み(モデルの中身)をメモリから読み出す速さがそのまま tok/s(毎秒トークン数)に効くからです。
- RTX 5090:1,792 GB/s(GDDR7、512-bit バス)6
- RTX 4090:1,008 GB/s7
- A100 80GB:約 2,000 GB/s(HBM2e)8
- H100 SXM:3,350 GB/s(HBM3)8
- B200:8,000 GB/s(HBM3e)8
桁が違いますね。RTX 5090 は、Apple Silicon 最強帯域の M3 Ultra(819 GB/s)と比べても 2 倍超、コンシューマー Mac で帯域上位の M4 Max(546 GB/s)に対しては 3 倍以上です。
強み3:拡張性(増設できる)
PCIe スロットが空いていれば、GPU は2枚、3枚と増やせます。実際、RTX 5090 を2枚積むと、Llama 3.3 70B(4bit 量子化)で 27 tok/s を出し、H100 の単体性能に並びつつコストは約1/4で済むという報告もあります9。
NVIDIA GPU の弱み
弱み1:VRAM 容量が頭打ち
最大の弱点はここです。コンシューマー GPU の VRAM(ブイラム:Video RAM、GPU 専用メモリ) は、最新の RTX 5090 でも 32GB までしかありません。70B クラスのモデルを 4bit 量子化してようやく載るかどうかのライン。100B 超のモデルは単体ではまず動きません。
弱み2:消費電力・発熱・騒音
- RTX 5090 の TDP:575W(瞬間ピークは650W)10
- 推奨電源:1000W 以上
- 排熱:部屋がサウナ化する報告多数
ワンルームに置くと夏が地獄です。電気代も無視できません(後述)。
弱み3:価格と入手性
RTX 5090 は MSRP(希望小売価格)💲1,999 で出たものの、需要過多で実売は 💲2,500〜💲3,400、空冷強化版は 💲5,000 超えも珍しくありません11。日本の代理店経由だと40万〜50万円コースです。
Apple Silicon の強み
強み1:統合メモリ(UMA)の革命
Apple Silicon の最大の武器が 統合メモリ(Unified Memory Architecture:UMA) です。CPU・GPU・Neural Engine(AI 専用処理エンジン)が同じ RAM プールを共有する仕組みで、データのコピー(PCIe バス転送)が発生しません。
普通のPCだと「メインメモリ → PCIe 経由で GPU の VRAM へコピー → 計算」という工程が入りますが、Apple Silicon はこのコピーが不要。同じモデルを CPU+dGPU 構成で動かすより5〜10倍速いという報告もあります12。
強み2:とにかく大容量メモリが選べる
これが2026年現在の Apple Silicon 最大の現実的アドバンテージです。
- M4 Max:最大 128GB 統合メモリ13
- M3 Ultra(Mac Studio 上位機):最大 512GB 統合メモリだったが、2026年3月に Apple が512GBオプションを静かに販売停止14
- M3 Ultra 256GB 構成:現行カタログ最上位15
VRAM 32GB が天井の RTX 5090 と比べると、4倍〜8倍のモデルが「とりあえず動く」世界です。
強み3:消費電力・静音・サイズ
Mac Studio は デスクの上に置ける小さな箱です。消費電力は数十〜200W 程度、ファンの音もまず聞こえません。RTX 5090 機が 700W 級の轟音マシンなのと真逆です。
強み4:環境構築がとにかくラク
- MLX(Apple 純正の機械学習フレームワーク)
- llama.cpp(Apple Silicon 向け Metal 実装あり)
-
Ollama(Mac で
brew install ollama一発) - LM Studio(GUI で完結)
特に MLX 対応モデルは、Ollama や LM Studio より 20〜30% 速いという報告もあります12。
Apple Silicon の弱み
弱み1:メモリは購入時に固定。後から絶対に増やせない
これは何度でも強調したいポイントです。Apple Silicon の統合メモリはチップに半田付けされていて、後から1GBも増設できません。最初に64GBで買って、あとで128GB の統合メモリを必要とするモデル(70B クラス以上)を動かしたくなったら、本体ごと買い替えです。「とりあえず安いやつ買って様子見」が一番危険な選択になります。
弱み2:帯域幅は GPU に劣る
- M4 Max:546 GB/s
- M5 Max(2026年3月発売):614 GB/s16
- M3 Ultra:819 GB/s
- RTX 5090:1,792 GB/s
補足:Ultra は Max の上位ティア(Max を2基ブリッジしたチップ)で、世代が古くても帯域は Max より高くなります。M3 Ultra > M5 Max なのはそのためです。
同サイズのモデルなら tok/s は GPU に負けます。
弱み3:CUDA が使えない
最新の研究実装や、CUDA カーネルでガチガチに最適化されたツール(vLLM の一部機能、TensorRT-LLM など)は、Apple Silicon ではそもそも動かないことがあります。「世に出たばかりの新モデルをすぐ試したい」人にとっては、地味に痛いです。
数字で比較する
ここから数字で殴り合います。
スペック比較(コンシューマー機)
| 機種 | メモリ容量 | 帯域幅 | 消費電力 | 価格目安(2026年4月時点) | CUDA |
|---|---|---|---|---|---|
| RTX 4090 | 24GB GDDR6X | 1,008 GB/s | 450W | 約💲1,500〜💲1,800(新品)7 | ◎ |
| RTX 5090 | 32GB GDDR7 | 1,792 GB/s | 575W | 約💲2,500〜💲3,400(実売)11 | ◎ |
| MacBook Pro M4 Max | 36〜128GB UMA | 546 GB/s | 約140W | 💲3,499〜(16-inch ベース)/128GB構成で約💲5,199〜 | × |
| MacBook Pro M5 Max | 36〜128GB UMA | 614 GB/s | 約140W | 💲3,899〜(16-inch ベース、2026年3月発売)/128GB+4TB+nano-textureで約💲6,14917 | × |
| Mac Studio M4 Max | 36〜128GB UMA | 546 GB/s | 最大145W18 | 💲1,999〜(128GBで約💲3,699)19 | × |
| Mac Studio M3 Ultra | 96〜256GB UMA | 819 GB/s | 最大270W18 | 💲3,999〜(256GB/1TB構成で約💲5,999、最上位(32C/80C+256GB+16TB SSD)で約💲14,099)20 | × |
データセンター級GPU(参考)
個人用ではないですが、よく比較対象に出るので。
| 機種 | メモリ容量 | 帯域幅 | 用途 |
|---|---|---|---|
| A100 80GB | 80GB HBM2e | 約2,000 GB/s | 業務・研究の定番8 |
| H100 SXM | 80GB HBM3 | 3,350 GB/s | 大規模学習8 |
| H200 | 141GB HBM3e | 4,800 GB/s | 長コンテキスト推論8 |
| B200 | 192GB HBM3e | 8,000 GB/s | 最新フロンティア8 |
クラウドで時間貸しするのが現実的な領域です。
実測 tok/s ベンチマーク
用語注記:プリフィル(prefill) =プロンプトを最初に丸ごと読み込む段階の速度。生成(decode/生成 tok/s) =そのあと1トークンずつ書き出していく速度。体感速度に直結するのは「生成」のほうです。同じ tok/s でも、プリフィル数千 vs 生成数十は別物として読んでください。
| 構成 | モデル | 量子化 | 速度(tok/s) | 出典 |
|---|---|---|---|---|
| RTX 5090 単体 | Qwen 2.5 Coder 7B | バッチ処理 | 5,841(プリフィル=プロンプト処理。生成速度ではない)21 | CloudRift計測 |
| RTX 5090 単体 | Llama 3.3 70B 4bit | — | 単体では VRAM 不足で動作不可9 | — |
| RTX 5090 ×2 | Llama 3.3 70B 4bit | — | 27(生成)9 | Database Mart |
| M4 Max(128GB) | Llama 3.3 70B 4bit | Q4_K_M | 約 8〜10(生成) | コミュニティ報告 |
| M3 Ultra | Llama 3.3 70B 4bit | Q4_K_M | 8〜15(短文寄り)22 | Sergey Nog |
| M3 Ultra | Llama 3 8B | Q4_K_M | 約 76(生成)23 | llama.cpp Discussions |
| M5 Max | LLM 全般 | — | M4 Max 比 +28%16 | Apple/LLMCheck |
ポイントを言葉でまとめると:
- 小さめモデル(7B 程度):RTX 5090 が圧倒的。プロンプト処理 5,841 tok/s は生身では体感できない速度です。
- 70B クラス:単体 RTX 5090 では VRAM が足りずそもそも動かない。デュアルにすれば速い(27 tok/s)。M3 Ultra なら単体で 8〜15 tok/s で動く(人間の読み速度はだいたい 5〜10 tok/s と言われるので、実用ライン)。
- M5 Max(2026年3月発売) は M4 Max 比で +28%、絶対値はまだ控えめですが、Apple は世代ごとにきっちり伸ばしています。
5年保有での雑なコスト試算
| 構成 | 本体価格 | 電気代(5年・1日4時間想定) | 合計目安 |
|---|---|---|---|
| RTX 5090 PC(電源1000W、本体総額) | 約60万円 | 約12.6万円(575W × 1,460h × 5年 × 30円/kWh) | 約73万円 |
| Mac Studio M4 Max 128GB | 約56万円 | 約3.2万円(145W × 1,460h × 5年 × 30円/kWh) | 約59万円 |
| Mac Studio M3 Ultra 256GB | 約90万円〜(💲5,999) | 約5.9万円(270W × 1,460h × 5年 × 30円/kWh) | 約96万円〜 |
※ 電気代は東京電力スタンダードプラン相当のざっくり試算。各機種の最大消費電力(Apple/NVIDIA 公式値)を1日4時間フル稼働させた場合の上限値で、実際の推論時平均消費電力はピーク値の60〜70%程度・アイドル時間も多いため、現実の電気代はこれより安くなることが多いです。Part 6 の損益分岐表とも期間を揃えています。
ここから見える事実:RTX 5090 機は購入時は安いが、電気代と熱で「ランニングコスト」が地味に効く(5年で本体差+電気代差は十数万円)。Mac Studio は購入時にやや高めだが、ランニングはほぼ電気代のみで静か。長期保有で見ると本体価格差が縮まります。
「メモリ容量 vs 帯域幅」のトレードオフ
ここまでの数字を、もう一度別の角度で整理します。
| シナリオ | 効くのは? | 強い陣営 |
|---|---|---|
| 7B〜32B モデルを高速で回す | 帯域幅 | NVIDIA GPU |
| 70B 以上のモデルを「乗せる」 | メモリ容量 | Apple Silicon |
| 70B モデルを高速で回す | 帯域幅+容量(両方) | デュアル GPU or H100/B200 |
| 100B〜400B の MoE モデルを試す | メモリ容量(圧倒的に) | M3 Ultra 256GB+ |
ちなみに、量子化(Q4_K_M、Q3_K_M など)でモデルを圧縮して、無理やり RTX 5090 の 32GB に詰め込むという裏技もあります。ただし量子化を強くすると精度が落ちるので、「Q4 ぎりぎり」あたりが実用ラインです。
canirun.ai:自分のPCで動くモデルを一発判定
ここで超便利なツールを紹介します。canirun.ai は、ブラウザ上で自分のマシンが動かせる LLM を判定してくれる無料サイトです。
何ができる?
- ブラウザAPIで GPU・VRAM・RAM・帯域幅・CPU を自動検出
- 100以上の LLM を 6段階でランク付け:
- S:Runs great(優秀)
- A:Runs well(良好)
- B:Decent(妥当)
- C:Tight fit(厳しい)
- D:Barely runs(ぎりぎり)
- F:Too heavy(不可)
- タスク別フィルタ:Chat、Code、Reasoning、Vision
- 提供元フィルタ:Meta、Google、Microsoft、Alibaba ほか
- ライセンスフィルタ:商用可・非商用・Apache 2.0・MIT 等
- ソート:スコア/パラメータ数/リリース日/コンテキスト長/速度/VRAM
- 量子化情報(Q2_K、Q4_K_M、F16)も表示
- 評価データのソースは llama.cpp、Ollama、LM Studio24
使い方の手順
- サイトを開く:canirun.ai
- 自動検出を許可:ブラウザが GPU 情報を取りに行きます(プライバシー懸念は最小限。サーバーにデータは送られません)
- 欲しい用途でフィルタ:「Chat だけ」「Code だけ」などタスクを絞る
- グレード S または A から選ぶ:これがそのまま「快適に動くモデル」候補
Tier List ページ(canirun.ai/tier)では、自分のマシンで全モデルを S〜F でランク付けした表を画像エクスポートまでできます。SNS にシェアしたり、相談相手に見せたりするのに便利です。
注意点
公式表記にもあるとおり、「Estimates based on browser APIs. Actual specs may vary.」(ブラウザAPI ベースの推定値。実際のスペックと異なる場合あり)。特に Apple Silicon は GPU コア数の検出がうまくいかず、実機より低めに評価されることが多いです。Mac でテストして「F だらけ」になっても落ち込まないでください。実機ではもう少し動きます。
用途別マシン選びチートシート
予算別の現実的な選択肢を置いておきます。
「とにかく試したい予算20万円」
- MacBook Pro M4 16GB or 32GB
- 動かせるモデル:Gemma 3 12B、Qwen 3.5-9B、Llama 3.1 8B あたり
- メリット:持ち運べる、静か、本業マシン兼用OK
- デメリット:70B 以上は無理。あとから増設不可
「ガチで遊びたい予算50万円」
選択肢が割れます。
| 選択肢 | 向いている人 | できる/できないの目安 |
|---|---|---|
| RTX 5090 自作PC | 自作経験あり、ゲーム兼用、CUDA 最新ツールを触りたい、騒音OK | 〜32B級は爆速、70Bは単体不可(要デュアル) |
| Mac Studio M4 Max 64GB | 静音重視、本業も Mac、中量帯メインで使う | Qwen 3.6-35B-A3B が快適。70B は Q4でぎり、Llama 4 Scout は実用域に入りづらい |
| Mac Studio M4 Max 128GB | 静音重視、70B級も常用したい | 70B Q4を実用速度で。Llama 4 Scout も実用域 |
| MacBook Pro M5 Max 64GB or 128GB | 持ち運び重視、最新Apple Siliconで20〜30%速い体感が欲しい人 | M4 Max とほぼ同等の動作レンジ+持ち運び |
「企業/研究用途100万円超」
- Mac Studio M3 Ultra 256GB:100B〜400B の MoE モデルが乗る唯一の現実的個人機
- RTX 5090 ×2 自作PC:70B を 27 tok/s で叩き出す爆速マシン
- A100/H100 クラウド + ローカル:最強モデルはクラウド、日常はローカルというハイブリッド
自分の現時点の暫定結論は「ガチで遊びたい予算50万円コース → Mac Studio M4 Max 64GB」です。理由は単純で、夏に GPU 単体で 575W(システム合計700W級)のヒーターを部屋に置きたくないから。エアコン代込みで考えると消費電力差が地味に効きます。ただし 64GB は Llama 4 Scout など100B級MoEには手が届かないラインで、そこを常用したいなら最初から128GB(差額約20万円)を選ぶ方が、後から本体ごと買い替えるより安上がりです。
Part 6:クラウドかローカルか — 用途別の使い分け
最後に、「結局、どっちにお金を払うの?」を整理します。
損益分岐点をざっくり試算する
「自分はクラウド継続が得? ローカル移行が得?」を、5年スパンで雑に計算してみます。Mac Studio M4 Max 128GB は2026年4月時点で約💲3,699(≒約56万円)、M3 Ultra 256GB(28コアCPU/60コアGPU, 1TB SSD 構成)は約💲5,999〜(≒約90万円〜) を本体価格として、電気代込みのローカル総額を Part 5 の試算(M4 Max 128GB なら本体56万円+5年電気代3.2万円=合計59万円)と揃えています。
| 利用パターン | クラウド5年総額 | ローカル5年総額(M4 Max 128GB) | 差分 |
|---|---|---|---|
| ライト(月5千円) | 30万円 | 約59万円 | クラウド有利(差29万円) |
| ミドル(月3万円) | 180万円 | 約59万円 | ローカル有利(差121万円) |
| ヘビー(月10万円) | 600万円 | 約59万円 | ローカル圧倒的有利 |
| 超ヘビー(月30万円) | 1,800万円 | M3 Ultra 256GB でも約96万円 | ローカル圧倒的有利 |
ただしこの計算には重要な落とし穴があります。
同じ性能ではない。
クラウド月10万円使う人は、Claude Opus 4.7 や GPT-5.5 Pro の最先端推論能力を享受しています。それを M4 Max ローカルの Qwen3.6-35B-A3B に置き換えたとき、「7〜8割のタスクは置き換え可、残り2〜3割は明確にクオリティが落ちる」 というのが2026年4月の正直な肌感です。
つまり損益分岐点は「価格のみで見れば月3万円ライン」、ただし「性能差を価値換算するなら月5〜8万円ライン」あたりが現実的な境目になります。
用途別スイッチング戦略(本記事のメイン)
ここが本題。「全部クラウド」でも「全部ローカル」でもなく、用途ごとにスイッチするという発想です。下の表を骨格にしながら、ひとつずつ見ていきます。
| 用途 | 2026年4月の現状 | 3年後(2029年)予測 | 推奨スタンス |
|---|---|---|---|
| A. 個人チャット・雑談 | ローカル実用域 | ローカル圧倒 | ローカル移行 |
| B. 文章添削・要約・翻訳 | ローカル十分 | ローカル圧倒 | ローカル移行 |
| C. コード補助(補完) | ローカル実用域 | ローカル優勢 | 段階的にローカル |
| D. 大規模コーディング | クラウド圧倒 | クラウド優勢継続 | クラウド継続 |
| E. 機密データ処理 | ローカル必須 | ローカル必須 | ローカル一択 |
| F. マルチモーダル生成 | クラウド優勢 | 用途次第 | クラウド or 専用GPU |
| G. 業務エージェント | クラウド+ガバナンス | ハイブリッド | クラウド継続+準備 |
用途A:個人チャット・雑談・相談
Gemma 3 12B(Ollama 公式、ダウンロードサイズ約8GB)や Qwen 3.5-9B など、軽量モデルでも雑談・相談用途なら十分実用です。M4 Max なら Qwen3.6-35B-A3B(Hugging Face)まで動き、軽〜中タスク(要約・翻訳・日常会話・短いコード補助)の体感では ChatGPT Plus に遜色ないレベルまで来ています。長文推論や複雑な計画立案など最先端推論を求めるタスクでは依然として差が残ります。
機微な相談(健康・人間関係・お金)はローカルに、難問はクラウドに、という振り分けがおすすめ。ローカル移行に向くカテゴリです。月💲20の Plus サブスクを止めるところから始めるのがいい入口。
用途B:文章添削・要約・翻訳
Gemma 3 12B が GSM8k 94.4%、IFEval 88.9%、HumanEval 85.4%(Galaxy.ai 比較)と、定型タスクではクラウドミドル級に肉薄。要約・翻訳・誤字修正はもうローカルで十分です。社内文書の要約は特にローカル化するメリット大。
用途C:コード補助(補完・小修正)
Qwen3.6-35B-A3B が SWE-Bench Verified 73.4% を24GB Mac で実現(Build Fast with AI)。Simon Willison氏も「ローカルの Qwen3.6 が Claude Opus 4.7 より良いペリカンを描いた」と報告(simonwillison.net)。日常の補完・小修正レベルなら完全にローカル可能領域に入りました。
補完・リネーム・小修正はローカル、設計議論や大規模リファクタはクラウド最上位、というハイブリッドが現実解。Cursor Pro の補完部分を Continue + Ollama に逃がすと、月💲20が浮きます。
用途D:大規模コーディング・エージェント
Claude Opus 4.7 や GPT-5.5 Pro 級の長期計画立案・複数ファイル横断修正は、ローカルではまだ厳しい。DeepSeek V4 Pro は SWE-Bench Verified 80.6% で肉薄するものの、フル品質で動かすには H100/H200 級GPU 4枚以上が必要との分析もあります(NxCode)。
ここは当面クラウド継続。お金を払う価値が一番ある領域です。
用途E:機密データ処理(医療/法務/個人情報)
これは性能議論以前の問題で、法令・規約上の理由でクラウド送信が許されないケースが多い。患者カルテ、未公開契約書、社内人事情報、未発表の原稿——こういうデータはローカル一択です。性能不足は「短く区切る」「モデレーション層を別に挟む」などで吸収可能。
用途F:マルチモーダル(画像・動画生成、音声)
動画生成は Veo 3.1 がクラウドで圧倒的。OpenAI 側は2026年3月24日に Sora アプリと API のシャットダウンを発表(TechCrunch — OpenAI's Sora was the creepiest app on your phone, now it's shutting down、TechCrunch — Why OpenAI really shut down Sora)。アプリは2026年4月26日に終了済み、APIは2026年9月24日終了予定。ただし Sora 2 モデル自体は ChatGPT 有料プランの内側に統合されて引き続き利用可能、というのが本記事執筆時点の状況です。背景は「動画生成は1日💲1M級の運用コスト」「ピーク約100万→50万人未満へのユーザー減少」「OpenAI のエンタープライズ寄せの戦略転換」と報じられており、動画生成は『クラウド側ですら採算が厳しい』カテゴリであることを示しました。画像生成は Stable Diffusion 系がローカルで実用域、ただし動画はまだ厳しい。クラウド or 自前専用GPUの二択。中途半端にローカルで動画やろうとすると、時間とお金の両方を失います。
用途G:リアルタイム業務利用(社内エージェント)
監査ログ・ガバナンス・SLAの観点で、クラウド API(適切な契約付き)が現実解。ローカル化はコスト超過時の選択肢。クラウド継続、ただしローカル化の準備は始めておくのが安全策です。
「現状ローカルは使い物にならない」の正確な意味
ネット上では「ローカルLLM?まだ使い物にならないでしょ」という声をよく見ます。半分正しくて、半分間違いです。
正確に言うと:
- 使い物にならない:複雑な長期推論、巨大リポジトリ全体改修、最先端ベンチで上位を狙う用途
- すでに使い物になる:個人チャット、文章添削、軽量コード補助、機密データ処理
「使い物にならない」と「全く使えない」は違います。ハイエンド用途では確かに差が残るが、軽用途では既に置換可能——これが2026年4月の正しい解像度です。
GPT-5.5 Pro の SWE-Bench Verified スコアと、Qwen3.6-35B-A3B の73.4%との差は、確かに数字としては大きい。でも、自分の日常タスク全体の何%がそのトップ性能を必要とするか?を考えると、答えは多くの人にとって「せいぜい2〜3割」です。
進化スピードの見立て
過去2年の進化を、ざっくり並べてみます。
| 時期 | クラウド最強級 | ローカルで動く最強級 |
|---|---|---|
| 2024春 | GPT-4 / Claude 3 Opus | Llama 2 70B(性能はGPT-3.5並) |
| 2025春 | GPT-4o / Claude 3.7 Sonnet | Llama 3 70B(GPT-4初期並) |
| 2026春 | GPT-5.5 / Claude Opus 4.7 | Qwen 3.6 / DeepSeek V4 系(GPT-4o級) |
「1〜2年前のクラウド最強」が「今年のローカルで動く」。表で言えば、2026年春のローカル最強級は2025年春のクラウド最強級(GPT-4o級)に追いつきつつある段階で、1年遅れで追走しているイメージです。このペースが続けば:
- 2029年春:「2026年の GPT-5級」が16GBノートで動く可能性が見える
- ただし「最先端の差」は埋まらない可能性が高い:クラウド側も並行して進化するため
つまり「ローカルが追いつく」のではなく、「ローカルが必要十分なラインに先に到達する用途が増える」というのが正しい未来予測かなと思います。
Part 7:今やっておくべきアクションリスト
「で、自分は来週から何やればいい?」という人のための実行リストです。
| アクション | 所要時間 | コスト |
|---|---|---|
| A. 自分のAPI支出を可視化する(最低3ヶ月集計) | 30分 | 無料 |
| B. Ollama + Gemma 3 12B でローカル試運転 | 1時間 | 無料 |
| C. 機密用途を棚卸しし、ローカル化候補を1つ決める | 1時間 | 無料 |
| D. canirun.ai で手持ちマシンの能力を把握 | 5分 | 無料 |
| E. 半年〜1年で見直す習慣を作る | カレンダー登録1分 | 無料 |
特に A と B はノーリスクで今日できます。Ollama は無料、Gemma 3 12B も無料、ダウンロードサイズは約8GB(Google AI for Developers)。試して肌感を持つだけでも、1年後の意思決定の精度が大きく変わります。
# Ollama インストール後、たった1コマンドで起動
ollama run gemma3:12b
この体験を一度しておくのが、2026年に出来るいちばんコスパの良い学習投資だと自分は思います。
⚠️ ローカル運用時のセキュリティ注意:「ローカル=自動的に安全」ではありません。Ollama などはデフォルトで
127.0.0.1にバインドされていますが、環境変数OLLAMA_HOST=0.0.0.0を設定すると LAN 全体に公開されてしまいます。社内 Wi-Fi や共有ネットワークで動かす場合は、リッスン先・ファイアウォール・認証設定を必ず確認してください。「機密データを守るためにローカル化したのに、社内に丸見えだった」は典型的な事故パターンです。
おわりに:哲学的視点
最後にちょっとだけメタな話を。
「クラウドLLMコスト高騰」が来たからといって、全員一斉にローカル移行にはなりません。たぶん起きるのは、
- 個人レベルで「クラウド/ローカルの最適配分」を意思決定する時代
- 配分が下手な人は払い続け、上手い人は半額で同等の生産性を出す
- その差が長期的には年間数十万円の格差になる
という現象です。
そして、本当に重要なのは「何を AI に任せるか」を考えること。Why(なぜ AI に任せるのか)を持っている人は、クラウドかローカルかの選択も自然に決まります。逆に Why が曖昧な人ほど「全部最新最強モデルでいいや」となり、財布が薄くなる。
ローカルLLM は技術選定の話に見えて、実は「自分はAIに何を期待しているか」を棚卸しする良い機会だったりします。
「2026年は、AI への課金を“設計”できる人間になるべき年」。 クラウド一択思考から脱出し、ローカルという選択肢を持つ。それだけで、来年・再来年の支払いが大きく変わります。
問いかけ
最後に問いかけさせてください。
- 皆さんの AI の月額支出はいくらですか?
- A〜G のどの用途から、ローカル化を試してみますか?
- GPU 派ですか? Apple 派ですか? 決め手はなんでしたか?
コメント欄や引用ポストで、ぜひ教えてください。ここまで読んでくれてありがとうございました。
参考文献
価格・コスト
- Claude Opus 4.7 API Pricing 2026 - pricepertoken.com
- Claude Opus 4.7 Pricing: The Real Cost Story Behind the "Unchanged" Price Tag - finout.io
- Claude API Pricing: Haiku 4.5, Sonnet 4.6, and Opus 4.7 (April 2026) - BenchLM.ai
- Plans & Pricing - Claude by Anthropic
- GPT-5.5 Pricing: Full Breakdown - apidog.com
- Introducing GPT-5.5 - OpenAI 公式
- OpenAI API Pricing
- ChatGPT Pricing - OpenAI
- Gemini 3 Pro Preview API Pricing 2026 - pricepertoken.com
- Gemini API Pricing 2026 - aifreeapi.com
- 2026 AI Subscription Prices: Gemini vs ChatGPT vs Claude - Sentisight
- Claude Max vs ChatGPT Pro 2026 - NxCode
- Cursor Pricing - Cursor 公式
- LLM API Pricing Comparison 2025 - IntuitionLabs
- Complete LLM Pricing Comparison 2026 - CloudIDR
- Local LLMs vs Cloud APIs: 2026 TCO Analysis - SitePoint
クラウドAI事業者の財務状況
- Anthropic Lowers Gross Margin Projection as Revenue Skyrockets — The Information / Techmeme まとめ
- Anthropic trims profit margin outlook as AI operating costs rise — Investing.com
- Anthropic projects 💲70B in revenue by 2028 — TechCrunch
- OpenAI will rack up massive losses but Anthropic is about to turn a profit — Cybernews
- Anthropic Quietly Tests Removing Claude Code from 💲20 Pro Plan — BigGo Finance
モデル情報
- Meta AI — The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation
- Llama 4 公式モデルページ
- Llama 4 Scout Model Card - prompthub.us
-
Unsloth — Llama 4: How to Run & Fine-tune
25-2. Hugging Face — Llama-4-Maverick-17B-128E-Instruct
25-3. Hugging Face Blog — Welcome Llama 4 Maverick & Scout -
Qwen公式ブログ — Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All
26-2. Qwen公式ブログ — Qwen 3.5: Towards Native Multimodal Agents
26-3. MarkTechPost — Alibaba just released Qwen 3.5 Small models (0.8B〜9B) - Hugging Face — Qwen/Qwen3.6-35B-A3B
- Qwen3.6-35B-A3B: 73.4% SWE-Bench Verified, Runs Locally - Build Fast with AI
- Will It Run AI — Qwen3.6-35B-A3B VRAM Requirements (April 2026)
- Qwen3.6 beats Opus on pelican drawing - Simon Willison
- DeepSeek V4 Preview Release - DeepSeek API Docs
- DeepSeek V4 Preview Release - CNBC
- Hugging Face — deepseek-ai/DeepSeek-V4-Pro
- NxCode — DeepSeek V4 (2026): 1T Parameters, 81% SWE-bench, Full Specs
- Google DeepMind — Gemma 3
- Google Blog — Gemma 4: Byte for byte, the most capable open models
- Google AI for Developers — Gemma 4 model overview
- Google Developers Blog — Introducing Gemma 3n: developer guide(PLE 解説)
- Hugging Face Blog — Welcome Gemma 3
- Hugging Face Blog — Welcome Gemma 4
- Mistral AI — Introducing Mistral Small 4
- Moonshot AI — Kimi K2.6 Tech Blog
- Hugging Face — moonshotai/Kimi-K2.6
- Hugging Face — zai-org/GLM-5.1
- Gemma 3 12B vs Qwen3 8B (Comparative Analysis) - Galaxy.ai
- Gemma 3 vs Qwen 3: In-Depth LLM Comparison - codersera.com
- Spheron — DeepSeek V3.2 vs Llama 4 vs Qwen 3
- Run Gemma with Ollama - Google AI for Developers
- gemma3:12b - Ollama Library
-
TechCrunch — OpenAI's Sora was the creepiest app on your phone, now it's shutting down
50-2. TechCrunch — Why OpenAI really shut down Sora
50-3. TechCrunch — Sora's shutdown could be a reality check moment for AI video - Claude Opus 4.7 - Anthropic 公式
量子化・推論ツール
- SitePoint — Quantization Explained: Q4_K_M vs AWQ vs FP16 for Local LLMs
- Local LLM Mastery: Ollama, LM Studio, llama.cpp Guide 2026
- Top 5 Local LLM Tools and Models in 2026 - Pinggy
- Best Local LLM Models 2026 - sitepoint.com
ハードウェア
- RunPod — Nvidia RTX 5090 Review: Specs, VRAM, Benchmarks, and AI Performance
- RunPod — Nvidia RTX 4090 Review: Specs, VRAM, Price, and AI Performance
- Tom's Hardware — RTX 5090 power draw revised to 575W
- Best Value GPU — RTX 5090 Price Tracker US, April 2026
- Leaks Predict 💲5000 RTX 5090 GPUs in 2026 - TechPowerUp
- BentoML — NVIDIA Data Center GPUs Explained: From A100 to B200
- Apple Newsroom — Apple introduces M4 Pro and M4 Max (2024)
- Apple Newsroom — Apple introduces MacBook Pro with M5 Pro and M5 Max (2026)
- Apple Support — Mac Studio (2025) Tech Specs
- Apple Support — Mac Studio power consumption and thermal output (BTU) information
- Tom's Hardware — Apple debuts M3 Ultra in refreshed Mac Studio with up to 512GB memory
- Tom's Hardware — Apple pulls 💲4,000 512GB Mac Studio upgrade option
- Buy Mac Studio - Apple
- SitePoint — Local LLMs Apple Silicon Mac 2026
- Julien Simon — What to Buy for Local LLMs (April 2026)
- LLMCheck — Apple Silicon LLM Benchmarks
ベンチマーク
- GitHub ggml-org/llama.cpp Discussion #4167 — Performance on Apple Silicon
- GitHub ggml-org/llama.cpp Discussion #19890 — RTX 5090 vs Radeon AI PRO R9700
- Database Mart — 2×RTX 5090 Ollama Benchmark
-
Sergey Nog — Mac M3 vs 2x NVIDIA 4090: A Performance Showdown
75-2. Artificial Analysis — Long Context Reasoning (AA-LCR) Leaderboard
75-3. Artificial Analysis — Announcing AA-LCR
NVIDIA 以外のGPU
- CraftRigs — NVIDIA vs AMD vs Intel for Local AI 2026
- XDA Developers — Intel's 💲949 GPU has 32GB VRAM but Nvidia keeps winning
- Compute Market — Best AMD GPU for Local LLM Inference 2026
- Droid4x — CUDA vs Alternatives for Local LLMs: 2026 Guide
- RTX 5090 vs Mac Studio M4 Max for AI — 2026 Compared - compute-market.com
- The Great Hardware Dilemma: RTX 5090 vs. Mac Studio for Local Inference - dasroot.net
- I Almost Bought an RTX 5090. Then Apple's Unified Memory Changed My Mind - Medium
ツール
※ ベンチマーク数値は各社公開時点の値であり、その後のリビジョンで変動する可能性があります。本記事のスペック情報・価格情報はすべて2026年4月時点の公開情報に基づきます。
-
Opus 4.7 の最新公式 SWE-Bench Verified スコアは Anthropic の Claude Opus 公式ページ を参照。 ↩
-
XDA Developers: Intel's 💲949 GPU has 32GB of VRAM for local AI, but the software is why Nvidia keeps winning ↩
-
Droid4x: CUDA vs Alternatives for Local LLMs: Complete Guide 2026 ↩
-
BentoML: NVIDIA Data Center GPUs Explained ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7
-
Tom's Hardware: Apple pulls 💲4,000 512GB Mac Studio upgrade ↩
-
Tom's Hardware: Apple debuts M3 Ultra in refreshed Mac Studio with up to 512GB memory ↩
-
Apple Newsroom: Apple introduces MacBook Pro with M5 Pro and M5 Max ↩ ↩2
-
16-inch M5 Max ベース価格は 💲3,899(36GB/2TB 構成)。最上位(128GB/4TB/nano-texture)は 💲6,149。出典:BigGo Finance — Apple's 2026 MacBook Pro M5 Max Review、Macworld — MacBook Pro M5 Pro & Max 2026 complete guide ↩
-
最大消費電力は Apple 公式値。M4 Max は最大145W/アイドル6W、M3 Ultra は最大270W/アイドル9W。出典:Apple Support — Mac Studio power consumption and thermal output (BTU) information ↩ ↩2
-
Mac Studio M3 Ultra 28C/60C ベースは 💲3,999(96GB/1TB)。96GB→256GB アップグレードは2026年3月に 💲1,600 → 💲2,000 へ値上げされ、256GB/1TB 構成で約 💲5,999 に。32C/80C + 256GB + 16TB SSD など最上位構成では約 💲14,099。出典:Tom's Hardware — Apple pulls 💲4,000 512GB Mac Studio upgrade option、Apple Support: Mac Studio (2025) Tech Specs ↩
-
GitHub: ggml-org/llama.cpp Discussion #19890 — RTX 5090 vs Radeon AI PRO R9700 ↩