「AIをアプリに組み込みたいけど、ローカルで動かすべき?クラウドAPI使うべき?」
この記事では、実際に両方をアプリに組み込んで使い続けた経験から、使い分けの基準をまとめます。
結論(先に知りたい人向け)
| Ollama(ローカル) | Gemini API(クラウド) | |
|---|---|---|
| 費用 | 完全無料・無制限 | 無料枠500回/日 |
| プライバシー | ◎ 完全ローカル | △ Googleに送信 |
| 推論品質 | △ 7Bモデル相当 | ◎ 最高品質 |
| 速度(初回) | △ モデル読み込み数秒 | ○ 2〜5秒 |
| インターネット | 不要 | 必要 |
| セットアップ | brew install + pull | APIキー取得のみ |
| Intel Mac対応 | △ 重いモデルは遅い | ◎ 端末スペック不問 |
私の使い分け
契約書・医療書類のPDF処理 → Ollama(外部送信NG)
Androidログのエラー診断 → Gemini API(推論品質重視)
コード補完(毎日の作業) → Ollama qwen2.5-coder:1.5b(無制限)
複雑なRustエラーの相談 → Gemini / Claude(品質重視)
Ollamaのセットアップ(5分でできる)
# インストール
brew install ollama
# モデルを引っ張ってくる
ollama pull qwen2.5-coder:1.5b # 軽量コード補完用(約1GB)
ollama pull gemma2 # 汎用(約5GB)
# 起動確認
ollama run qwen2.5-coder:1.5b
VS Codeで使うなら Continue.dev 拡張を入れると補完が使えるようになります。
Intel Mac(8GB RAM)での実態
私の検証環境は**2017年製MacBook Air(Intel・8GB RAM)**です。
-
qwen2.5-coder:1.5b→ 快適。コード補完用として毎日使っている -
gemma2(9B) → 初回レスポンス8秒程度。使えるが少し待つ - 13B以上のモデル → 実用的な速度が出ない
Apple Silicon(M1/M2/M3)なら体感がかなり改善します。
Gemini APIをローカルで使う「ハイブリッド」構成
実は両方を組み合わせると最強です。
コード補完(毎回) → Ollama(無制限・ゼロコスト)
デバッグ相談(随時) → Gemini API(品質重視・無料枠)
機密ファイル処理 → Ollama(クラウド送信なし)
Geminiの無料500回/日は「本当に詰まったとき」用に温存して、日常の補完はOllamaで賄う。これが一番コスパがいい構成です。
まとめ
プライバシーが重要な処理 → Ollama(ローカル)
品質が重要な推論 → Gemini API(クラウド)
コスト最優先 → Ollama(無制限・無料)
どちらか1つだけ選ぶなら → Gemini API(品質・手軽さで勝る)
Hiyoko PDF Vault → https://hiyokoko.gumroad.com/l/HiyokoPDFVault_jp
X → @hiyoyok