はじめに
Ollamaは知ってるけど「あのコマンドなんだっけ?」となりがちな人向けの早見表です。
コマンド操作・API利用・Docker運用をまとめました。
目次
コマンド早見表
| コマンド | 用途 |
|---|---|
ollama --version |
バージョン確認 |
ollama run <model> |
モデルを起動してチャット |
ollama list |
ダウンロード済みモデルの一覧 |
ollama pull <model> |
モデルを取得(ダウンロード) |
ollama rm <model> |
モデルを削除 |
ollama show <model> |
モデルの詳細情報を表示 |
使用例
# モデルを起動(未取得の場合は自動でpullされる)
ollama run gemma3
# ダウンロード済みモデルを確認
ollama list
# モデルの情報を確認
ollama show gemma3
利用可能なモデルの一覧はOllama公式ライブラリで確認できます。
API利用
OllamaはWindows起動時にバックグラウンドで自動起動し、http://localhost:11434 でAPIを公開します。
わざわざサーバーを立ち上げる操作は不要です。
APIの詳細は公式ドキュメントを参照してください。
モデルを事前に ollama pull <model> で取得していないとAPIコールがエラーになります。先にpullしておきましょう。
curl
curl http://localhost:11434/api/generate -d '{
"model": "gemma3",
"prompt": "Why is the sky blue?",
"stream": false
}'
Python
import requests
url = "http://localhost:11434/api/generate"
data = {
"model": "gemma3",
"prompt": "Why is the sky blue?",
"stream": False
}
res = requests.post(url, json=data)
print(res.json()["response"])
stream: false を指定すると、生成が完了してからまとめてレスポンスが返ります。
デフォルトは true(ストリーミング)なので、シンプルに使いたい場合は明示的に false にするのが楽です。
Dockerで動かす
ローカル環境を汚したくない場合や、CI環境・サーバーで動かしたい場合はDockerイメージが便利です。
Ollama公式がDockerイメージを提供してくれているので利用しましょう。
CPU版
docker run -d \
-v ollama:/root/.ollama \
-p 11434:11434 \
--name ollama \
ollama/ollama
GPU版(NVIDIA)
docker run -d \
--gpus=all \
-v ollama:/root/.ollama \
-p 11434:11434 \
--name ollama \
ollama/ollama
Windows上でGPUを使う場合は、NVIDIA Container Toolkit のセットアップが別途必要です。
コンテナ起動後、モデルのpullと実行は次のように行います。
# コンテナ内でモデルをpull
docker exec -it ollama ollama pull gemma3
# コンテナ内でチャット
docker exec -it ollama ollama run gemma3
APIのエンドポイントはネイティブ版と同じく http://localhost:11434 で利用できます。
コンテナを再起動してもモデルデータは ollama ボリュームに永続化されます。
まとめ
用途に応じて使い分けるとスムーズです。手元でざっと動作確認したいなら ollama run、アプリやスクリプトに組み込むならAPI、環境を分離して管理したいならDockerが適しています。
| 用途 | 方法 |
|---|---|
| サクッと試す | ollama run |
| アプリに組み込む | REST API(/api/generate) |
| 環境を分離したい | Docker(ollama/ollama) |