ローカルLLM（Ollama）vs Gemini API、個人開発で使い分けた結果【2026年版】

Posted at 2026-05-05

「AIをアプリに組み込みたいけど、ローカルで動かすべき？クラウドAPI使うべき？」

この記事では、実際に両方をアプリに組み込んで使い続けた経験から、使い分けの基準をまとめます。

結論（先に知りたい人向け）

	Ollama（ローカル）	Gemini API（クラウド）
費用	完全無料・無制限	無料枠500回/日
プライバシー	◎ 完全ローカル	△ Googleに送信
推論品質	△ 7Bモデル相当	◎ 最高品質
速度（初回）	△ モデル読み込み数秒	○ 2〜5秒
インターネット	不要	必要
セットアップ	brew install + pull	APIキー取得のみ
Intel Mac対応	△ 重いモデルは遅い	◎ 端末スペック不問

私の使い分け

契約書・医療書類のPDF処理 → Ollama（外部送信NG）
Androidログのエラー診断  → Gemini API（推論品質重視）
コード補完（毎日の作業）  → Ollama qwen2.5-coder:1.5b（無制限）
複雑なRustエラーの相談   → Gemini / Claude（品質重視）

Ollamaのセットアップ（5分でできる）

# インストール
brew install ollama

# モデルを引っ張ってくる
ollama pull qwen2.5-coder:1.5b  # 軽量コード補完用（約1GB）
ollama pull gemma2               # 汎用（約5GB）

# 起動確認
ollama run qwen2.5-coder:1.5b

VS Codeで使うなら Continue.dev 拡張を入れると補完が使えるようになります。

Intel Mac（8GB RAM）での実態

私の検証環境は**2017年製MacBook Air（Intel・8GB RAM）**です。

qwen2.5-coder:1.5b → 快適。コード補完用として毎日使っている
gemma2（9B） → 初回レスポンス8秒程度。使えるが少し待つ
13B以上のモデル → 実用的な速度が出ない

Apple Silicon（M1/M2/M3）なら体感がかなり改善します。

Gemini APIをローカルで使う「ハイブリッド」構成

実は両方を組み合わせると最強です。

コード補完（毎回）     → Ollama（無制限・ゼロコスト）
デバッグ相談（随時）   → Gemini API（品質重視・無料枠）
機密ファイル処理       → Ollama（クラウド送信なし）

Geminiの無料500回/日は「本当に詰まったとき」用に温存して、日常の補完はOllamaで賄う。これが一番コスパがいい構成です。

まとめ

プライバシーが重要な処理 → Ollama（ローカル）
品質が重要な推論 → Gemini API（クラウド）
コスト最優先 → Ollama（無制限・無料）
どちらか1つだけ選ぶなら → Gemini API（品質・手軽さで勝る）

Hiyoko PDF Vault → https://hiyokoko.gumroad.com/l/HiyokoPDFVault_jp
X → @hiyoyok

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up