はじめに
こんにちは、ひよこです。
2025 年 3 月に、ローカル環境で LLM を動かす入門としてollama に関する記事を書きました。
最新 LLM を超簡単に試しちゃおう! ollama を使ってみた
あの記事では、ollama の基本コマンドと Llama 3 系モデルを中心に触れましたが、この半年でエンジンもモデル群も劇的に進化しています。
この記事ではこれまでの更新として以下の内容をまとめてみます。
- ollama とは何かをあらためて整理
- ノート PC でも動かすメリットとハードウェアの目安
- 2025 年末時点の ollama 本体の更新ポイント
- オンプレ一推し
gemma3:4bをローカル常用モデルにする話 - 用途別のおすすめモデル(日英翻訳 / コーディング / 画像認識)
🐣 ノート PC ローカルでちゃんと動く LLM を一つは確保しておきたいですよね
ollama とは?
すでにご存じの方も多いと思いますが、ollama は「ローカル LLM ランタイム+モデルカタログ+API サーバ」です。公式 GitHub の説明どおり、ローカルマシンでモデルを管理して実行するための軽量フレームワークになっています。(GitHub)
細かい内部構造はさておき、押さえておきたいのは次の三つです。
-
推論エンジン層
- llama.cpp 系のエンジンをベースに、CPU だけでも動き、GPU があれば自動で使ってくれる
-
モデルライブラリ層
-
ollama pull llama3のようにモデル名だけで簡単にモデルを取得可能 - Llama、Mistral、Gemma、Qwen、DeepSeek などが簡単に試せる
-
-
API 層(OpenAI 互換)
-
http://localhost:11434で REST API を提供 -
/v1/chat/completionsなど OpenAI 互換エンドポイントがあり、既存のクライアントからbase_urlを変えるだけで利用できる
-
🐣 とにかくお手軽無料でパパっと LLM を試したいときに便利なんです
まずは ollama をインストール
まだ ollama を入れていない人は以下を参考にして入れてみましょう。
1. アプリ本体を入れる
-
ブラウザで https://ollama.com/download を開く
-
自分の OS をクリック
- Windows の人は「Download for Windows」
- Mac の人は「Download for macOS」
-
ダウンロードしたインストーラをダブルクリックして、表示される案内どおりに進める
ここまでで、Windows ならスタートメニュー、Mac ならアプリケーションフォルダに「Ollama」が入ります。
2. 起動してみる
-
GUI 派
- Windows / Mac ともに「Ollama」アプリを起動すると、チャット画面が出ます
- 画面の上の方にモデル名が出ているはずなので、そのまま日本語で話しかければ OK
-
ターミナル派
- Windows なら PowerShell、Mac / Linux ならターミナルを開いて次を打ちます
ollama --version
バージョン番号が表示されればインストール成功です。
3. 初めてのモデルを動かしてみる
まずはこの記事で取り上げるモデル gemma3:4b をそのまま動かしてみます。
ollama run gemma3:4b
初回はモデルのダウンロードが走るので少し時間がかかりますが、完了すると >>> のようなプロンプトが出てチャットできるようになります。
4. モデルの探し方
どのモデルを使えば良いか分からない場合は、公式のライブラリページを見るのが一番手っ取り早いです。Ollama Library を開くと、人気モデルやカテゴリごとのモデル一覧が表示されます。ページ上部の検索ボックスに gemma や qwen, coder, translate などのキーワードを入れると、目的に近いモデルを絞り込めます。
同じモデル名でも gemma3:4b や gemma3:12b のようにサイズ違いがあるので、Library ページの説明でパラメータ数や容量を必ず確認しましょう。サイズを指定せずに ollama run gemma3 とするとデフォルトサイズがダウンロードされますが、意外と大きい場合があるので注意が必要です。gemma3:latest のように :latest を付けると、そのモデルファミリの最新バージョンを使えます。
試してみたいモデルが見つかったら、そのページに ollama run xxx や ollama pull xxx の形でコマンドが載っているので、そのままターミナルに貼り付ければ簡単に動かせます。
5. モデルの保存場所
ダウンロードしたモデルは、デフォルトではユーザーごとのフォルダ配下に自動で保存されます。
代表的なパスは次のようになります。
-
Windows
C:\Users\<ユーザー名>\.ollama\models
-
macOS / Linux
/Users/<ユーザー名>/.ollama/models- または
~/.ollama/models
フォルダごとバックアップしておくと、再インストール時にもモデルを入れ直さずに済みます。
保存場所を変えたい場合は、環境変数 OLLAMA_MODELS でモデルディレクトリを指定できます。
例(Linux / macOS)
export OLLAMA_MODELS=/mnt/fastssd/ollama-models
ollama run gemma3:4b
例(PowerShell)
$env:OLLAMA_MODELS="D:\ollama-models"
ollama run gemma3:4b
この設定をシェルの初期化ファイル(.bashrc や PowerShell プロファイル)に書いておくと、毎回自動でその場所が使われます。
6. モデルの削除方法
ストレージを圧迫してきたり間違えて巨大なモデルを落としてしまったときは削除しましょう。
まず、現在インストールされているモデルを確認します。
ollama list
一覧に表示された中から削除したいモデル名を指定して、次のように削除できます。
ollama rm gemma3:4b
:4b のようなタグまで含めて指定する点に注意してください。タグを省略すると、デフォルトタグのモデルだけが削除されます。
もし依存関係などで削除できない場合は、コマンドに -f(force)を付けると強制削除も可能です。
ollama rm -f gemma3:4b
🐣 くれぐれも巨大モデルのダウンロードには注意してください!
ノート PC で動かすメリット
ローカル LLM の利点
クラウドの API と比較した場合のメリットは以下の通りです。
- プライバシー:個人情報が外部に送信されない
- コスト:モデルをダウンロードすれば API 課金が発生しない
- 独立性:ダウンロード済のモデルならネットに繋がっていなくても動作可能
- レイテンシ:ネットワーク遅延が無く、トークン生成が体感速度に直結する
- 実験のしやすさ:複数モデルの入れ替えや、ローカルでの RAG 構築が容易
- 環境制約の回避:外部 API が制限された社内ネットワーク環境でもフル機能を維持できる
ノート PC でのハードウェア目安
2025 年時点での動作目安は以下のようになります。
| 構成 | RAM | 推奨モデルサイズ | 想定用途 |
|---|---|---|---|
| 最小構成 | 8GB | 1B - 3B | テキスト生成実験、軽量コーディング |
| 快適構成 | 16GB | 4B - 8B | 開発補助、ドキュメント要約、RAG |
| ハイエンド | 32GB+ | 14B - 30B+ | 本格的な推論、複雑なエージェント |
GPU がない場合でも、1B〜4B クラスのモデルであれば CPU のみで十分に実用的です。
🐣 私の体感だと GPU 無しでも 4B クラスなら普通に開発用途で使えちゃいます
2025 年の ollama アップデート
前回の記事を書いた 2025 年 3 月時点では v0.5 系でしたが、執筆時点(2025 年 12 月)の最新は v0.13 系 まで進んでいます。(Ollama Releases)
この期間で変化したポイントを三つだけ押さえておきます。
エンジンと GPU 周り
- DeepSeek-V3.1 や GPT-OSS などの最新アーキテクチャに対応
- CUDA / ROCm 周りの GPU 検出と VRAM 情報取得が改善され、マルチ GPU や Docker 環境で安定
-
deepseek-ocrなど vision・OCR 系モデルやbenchツールが追加され、計測もしやすくなった
OpenAI 互換 API とツール呼び出し
-
/v1/chat/completionsを中心とした OpenAI 互換 API が整備 - ストリーミング、JSON モード、seed、logprobs などが利用可能
- ツール呼び出し(function calling)も OpenAI 互換となり、ローカルだけで簡易エージェント構成が組みやすくなった
アプリとクライアント関連
- Windows 公式アプリがリリースされ、GUI でチャットや画像解析ができるようになった
- Python クライアント
ollamaが PyPI からインストール可能になり、次のようなコードですぐ試せるようになった
pip install ollama
import ollama
res = ollama.chat(
model="gemma3:4b",
messages=[{"role": "user", "content": "ローカル LLM のメリットを三つ教えて"}],
)
print(res["message"]["content"])
埋め込みと RAG 向け機能
Embedding 用の軽量モデル(例: embeddinggemma)が公式ライブラリに追加され、RAG 用のベクトル生成もローカルで完結しやすくなりました。これにより、「埋め込み生成+ベクタ DB」から「応答生成」までをノート PC 一台で閉じた構成にできます。
注意点
しかしながら ollama も完全ではありません。特にモデルの学習は全くできないと考えておいた方が良いでしょう。あくまでも効率よく推論をするツールということを忘れないようにして下さい。
gemma3:4b はどれくらい「使える」のか
今回は私のお気に入りモデルの一つである gemma3:4b を取り上げます。
Google の Gemma 3 ファミリ(2025 年 3 月リリース)は、Gemini 系技術を元にした軽量オープンモデルで、マルチモーダル対応、コンテキスト長 128K、140 以上の言語対応といったスペックを持ちます。(Google Developers)
Ollama のライブラリでは 270M、1B、4B、12B、27B など複数サイズがありますが、ノート PC で現実的に使いやすいのは 4B クラスです。
常用モデルとしての使い勝手
gemma3:4b をローカルの「とりあえず」モデルに据えた印象は以下の通りです。
- 4B かつ量子化モデルなので、16GB RAM クラスのノート PC でも余裕を持って動作する
- 一般的な日本語テキスト生成、要約、説明タスクを素直にこなす
- 英語に比べると日本語は若干弱めな部分もあるが、プロンプトを工夫すれば日常タスクレベルでは十分
- 画像入力に対応しており、簡単な図やスクリーンショットの説明にも利用可能
実行コマンドはシンプルです。
ollama pull gemma3:4b
ollama run gemma3:4b
実は gemma3:4b はある程度は画像を理解してくれます。例えば実行ディレクトリに sample.jpg としてこの画像をおいておきます。(Gemini で作ったラマです) その上で以下を実行すると…
$ ollama run gemma3:4b
>>> これはなに? ./sample.jpg
Added image './sample.jpg'
これはアルパカのイラストです。可愛らしいですね!
まあアルパカとラマの間違いは許容範囲ではないでしょうか? 4b でここまでできるのは驚きですよね。
用途別おすすめモデル
最後に、2025 年末時点で「これを入れておくと便利」なモデルを挙げておきます。すべて Ollama ライブラリに登録されているので、そのまま ollama pull できます。
日英翻訳
日本語↔英語に特化した翻訳モデルです。
-
モデル:
7shi/gemma-2-jpn-translate:2b-instruct-q8_0 -
ポイント
- Gemma 2 2B 日本語特化モデルをベースに、翻訳用の system prompt で調整済み
- 2B なので軽量かつ、旧世代 7B クラスに近い翻訳品質という報告がある
ollama pull 7shi/gemma-2-jpn-translate:2b-instruct-q8_0
ollama run 7shi/gemma-2-jpn-translate:2b-instruct-q8_0
コーディング(Coder)
コーディングタスク向けの定番モデルです。
-
モデル:
qwen2.5-coder(0.5B〜32B) -
ポイント
- 多数のプログラミング言語に対応し、コード補完やリファクタリング、テスト作成などに強い
- GPU 無しなら 3B 以下、GPU ありなら 7B〜14B あたりがノート PC では現実的
ollama pull qwen2.5-coder:3b
ollama run qwen2.5-coder:3b
おわりに
前回の記事から約半年で、ollama がかなり進化していて驚きました。
ローカル LLM の「開発用プラットフォーム」として成熟しており、ノート PC でも 4B クラスのモデルであれば十分に実用的になりそうですね。
ではまた次の記事でお会いしましょう。
🐣 実は ollama って LLM の llama とは関係ないらしいですよ!?