ChatGPTやClaudeなどのAIサービスはとても便利ですが、「データをクラウドに送りたくない」「料金が気になる」「オフラインでも使いたい」と感じたことはありませんか?
そんな悩みを解決してくれるのが 「ローカルLLM」 です。そしてローカルLLMをもっとも手軽に試せるツールとして、今エンジニアの間で急速に広まっているのが Ollama(オラマ) です。
この記事では、「ローカルLLMって何?」というところからOllamaの基本的な使い方まで、やさしく解説します。
ローカルLLMとは?
まず用語を整理しましょう。
LLM(Large Language Model:大規模言語モデル) とは、ChatGPTやClaudeの中核となっているAIの仕組みです。通常、これらはクラウド上のサーバーで動いています。
【通常のクラウドLLM】
あなたのPC →(インターネット)→ クラウドサーバー(AI) → 回答
一方、ローカルLLM は、このAIモデルを 自分のPC上で直接動かす 方法です。
【ローカルLLM】
あなたのPC(AI込み) → 即座に回答
↑ データはここから出ない!
インターネット不要、データがPC外に出ない、課金ゼロ。これがローカルLLMの最大の特徴です。
Ollamaとは?
Ollama は、ローカルLLMを誰でも手軽に動かせるようにした オープンソースのツール です。2023年7月にGitHubで公開され、MITライセンスのもと開発が続けられています。リリースから短期間で世界中のエンジニアに広まり、2026年現在も活発に開発が続いています。
通常、AIモデルをローカルで動かすには、専門的な環境構築や複雑な設定が必要でした。Ollamaはそのハードルを大幅に下げ、コマンド1行でAIが起動する 体験を実現しました。
対応OS は macOS・Windows・Linux の3つ。macOSのApple Silicon(M1〜M4チップ)との相性が特に良く、GPUを効率的に活用した高速な推論が可能です。
Ollamaの3つのメリット
① プライバシーが守られる
入力したテキストや会話内容がクラウドサーバーに送信されません。社内の機密情報や個人情報を含む作業でも、安心して使えます。
② 完全無料・API費用ゼロ
ChatGPT APIなどは使った分だけ課金されますが、ローカルLLMは一度モデルをダウンロードすれば追加費用は不要です。大量の処理を試したいときにも気兼ねなく使えます。
③ インターネット不要・オフライン対応
モデルさえダウンロードしてあれば、ネットワークのない環境でも動作します。出張先や、セキュアな閉域網環境でも利用できます。
インストールしてみよう(3ステップ)
ステップ1:Ollamaをインストール
https://ollama.com にアクセスし、お使いのOSのインストーラーをダウンロードして実行します。
Macの場合はターミナルで以下のコマンドでもインストールできます:
curl -fsSL https://ollama.com/install.sh | sh
ステップ2:モデルをダウンロードして起動
ターミナルを開き、使いたいモデル名を指定して実行するだけです。
# Metaの Llama 3.2(3Bパラメータ版)を起動
ollama run llama3.2
# Googleの Gemma 3を起動
ollama run gemma3
# Mistral AIのMistralを起動
ollama run mistral
初回はモデルのダウンロードが始まり、完了するとそのままチャットできます。
ステップ3:話しかける
ダウンロードが終わると、こんな画面になります:
>>> Send a message (/? for help)
ここに日本語で話しかけるだけです!
>>> Pythonで「Hello, World!」を出力するコードを書いて
どのモデルを選べばいい?
Ollamaで使えるモデルは多数ありますが、初心者が迷いがちなのがモデルの選び方です。以下を目安にしてください。
| モデル | サイズ | 必要RAM目安 | 特徴 |
|---|---|---|---|
llama3.2 |
3B | 8GB〜 | 軽量・日本語もそこそこ |
gemma3 |
4B | 8GB〜 | Googleが開発、バランス良好 |
mistral |
7B | 16GB〜 | コーディング向きで人気 |
llama3.1 |
8B | 16GB〜 | 汎用性が高くQiitaでも人気 |
deepseek-r1 |
7B〜 | 16GB〜 | 推論・数学タスクに強い |
まず試すなら llama3.2(3B) がおすすめです。RAM 8GB程度のPCでも動き、日本語にも対応しています。
クラウドLLM vs ローカルLLM
どちらを使うべきか迷ったときの判断基準をまとめます。
| クラウドLLM(ChatGPT等) | ローカルLLM(Ollama等) | |
|---|---|---|
| 性能 | 最高レベル | モデルによる(やや劣る) |
| 速度 | ネット速度に依存 | PCスペックに依存 |
| コスト | 従量課金 | 無料(電気代のみ) |
| プライバシー | データが外部に出る | データは手元に残る |
| オフライン | 不可 | 可能 |
| セットアップ | すぐ使える | 少し手間がかかる |
用途によって使い分けるのがベストで、「精度重視の本番用途はクラウド、試験的な検証やプライバシー重視の業務はローカル」という使い方が広まっています。
RAGやMCPとの組み合わせも
Ollamaは OpenAI互換のAPIサーバー として動作するため、以前紹介した RAG や MCP と組み合わせることもできます。
# OllamaはデフォルトでAPIサーバーとして起動している
# エンドポイント:http://localhost:11434
たとえばLangChainでOllamaを呼び出す場合は、以下のように書けます:
from langchain_ollama import ChatOllama
llm = ChatOllama(model="llama3.2")
response = llm.invoke("RAGとは何ですか?")
print(response.content)
クラウドAPIのコードをほぼそのまま使いつつ、コストゼロで実験できます。
まとめ
| キーワード | 一言で言うと |
|---|---|
| ローカルLLM | 自分のPCの上でAIを動かす方法 |
| Ollama | ローカルLLMを1コマンドで起動できるツール |
| プライバシー | データがPC外に出ないのが最大の強み |
| モデル選び | まずは llama3.2(3B)から試すのがおすすめ |
Ollamaを使ったローカルLLMは、「AIを自分でコントロールしたい」「費用をかけずに試したい」というエンジニアにとって、2026年の必須ツールになりつつあります。
まずは ollama run llama3.2 の1コマンドを打ってみてください!
参考: