More than 1 year has passed since last update.

Phi-3をOllamaを使ってローカルで動作させる

Posted at 2024-05-01

はじめに

Microsoftによって開発された小型言語モデルであるPhi-3と、大規模言語モデルをローカルで簡単にセットアップし実行できるツールOllamaについてまとめます。Phi-3はその軽量ながら高性能な特性を持ち、Ollamaはこれらのモデルを手軽に活用するためのインターフェースを提供します。この組み合わせにより、開発者はパワフルなAIツールを手元で直接コントロールすることが可能になります。記事では、これらの技術の基本的な特徴、セットアップ方法、そして具体的な使用例までをカバーします。

イントロダクション

Phi-3モデルとは何か？

Phi-3はMicrosoftによって開発されたオープンな小型言語モデル（SLM）です。このモデルは、パラメータ数が小さく非常に軽量でありながら、さまざまな言語、推論、コーディング、数学のベンチマークで類似サイズの他のモデルを凌駕する優れた性能を提供します。
小型言語モデル（SLM）は、リソースに制約のある環境 (デバイス上およびオフライン環境での推論など)での利用、超低レイテンシが求められるシナリオなど、これまで大規模言語モデルでは適用が難しかったユースケースに対して柔軟に対応できることが期待されています。

最新リリースであるPhi-3-miniは、3.8Bのパラメータを持つ言語モデルで、Azure AI Studio、Hugging Face、そしてOllamaプラットフォームで利用可能です。このモデルは、4Kトークンと128Kトークンのコンテキスト長をサポートする2つのバリアントを提供し、長いコンテキストウィンドウでも品質を維持する能力を備えています。

また、ONNX Runtimeで最適化されており、Windows DirectMLを含むクロスプラットフォームでGPU、CPU、モバイルデバイスに対応しています。NVIDIA GPUに最適化されたこのモデルは、標準APIインターフェースを持つNVIDIA NIMマイクロサービスとしても利用可能です。

Ollamaの紹介とその重要性

Ollama は、ユーザーが大規模言語モデルをローカルで簡単にセットアップして実行できる非常に便利なツールです。Ollama を使用すると、ユーザーは Llama 2 などの言語モデルをローカルで実行でき、より高速で効率的な処理機能を提供できます。セットアップとインターフェイスも非常にシンプルで、ユーザーが選択した言語モデルをすばやく簡単に立ち上げて実行できます。

記載時点では、macOS, Linux が対応しており、Windows版もプレビューとなっています。

ちなみに、Ollamaは、llama.cpp というローカルLLMフレームワークをバックエンドで利用しています。llama.cppは、CPU だけでLLMを動作させるように最適化してくれるプラットフォームでこちらも非常によく利用されているツールかと思います。

環境構築

実行環境

PC: Surface Laptop 5
OS: Windows 11
CPU: 12th Gen Intel(R) Core(TM) i7-1265U 2.70 GHz
メモリ: 32GB

Ollamaのインストール方法

OSごとにインストール方法が異なりますが、どれも非常に簡単です。こちらにインストール方法が記載されています。
私のPCはWindowsですが、Windowsは現在プレビュー版のため、WSLを使ってLinux版を利用する手順を記載します。

curl -fsSL https://ollama.com/install.sh | sh

Phi-3の基本的な使い方

チャットインターフェースでの実行

以下のコマンドを実行するだけで、モデルのダウンロードし、CLIでチャットセッションを開始することができます。

ollama run phi3

Phi モデルは、主に英語のテキストでトレーニングされているため、英語以外の言語では、パフォーマンスが低下するようですが、日本語のプロンプトにも対応はしています。

マシンスペックには当然依存すると思いますが、ローカル実行でも十分使えるくらいのレイテンシになっていました。

APIでの実行

Ollamaにはモデルを実行・管理するためのREST APIもあります。前の手順で実施した ollama run phi3 を実行すると裏でAPIエンドポイントが作成され、APIで様々な操作を行えるようになります。本番運用においてはAPIで実行したいというケースもあると思うので非常にありがたいです。

以下は、Chat CompletionのAPIです。

curl http://localhost:11434/api/chat -d '{
  "model": "phi3",
  "messages": [
    { "role": "user", "content": "大規模言語モデルの代表的なユースケースは？" }
  ]
}'

デフォルトで、Streaming 形式になっています。

Streaming を無効にしたい場合は、"stream": false を指定します。

curl http://localhost:11434/api/chat -d '{
  "model": "phi3",
  "messages": [
    { "role": "user", "content": "大規模言語モデルの代表的なユースケースは？" }
  ],
  "stream": false
}'

プロンプトのカスタマイズ

Ollamaライブラリのモデルはプロンプトをカスタマイズすることができます。

任意のディレクトリに Modelfile を作成します。ここでは、AIに関する質問にのみ回答をさせるようにシステムメッセージを指定します。

FROM phi3

# set the temperature to 0 [higher is more creative, lower is more coherent]
PARAMETER temperature 0

# set the system message
SYSTEM """
You are an expert on AI; answer only questions about AI. Do not answer any other questions.
"""

個人的な感想ですが、Ollama は Docker の思想によく似ています。モデルをプルして実行したり、Modelfile によってモデルをカスタマイズ可能な点も Dockerfile に似ています。

次に、Modelfileで定義したモデルを作成します。ai-expert の部分が新しく作成するモデル名で任意の名前を指定できます。

ollama create ai-expert -f ./Modelfile

あとはモデル名を指定して run するだけです。

ollama run ai-expert

プロンプトで「所得税についてわかりやすく教えて」とAIに関連しない質問をしてみると、英語の回答ですがある程度期待した回答をしてくれました。（実際に使う分にはもう少しプロンプトは工夫する必要がありそうです。）

Ollama-UI

Ollamaには、「ollama-ui」というGUIのツールも用意されています。ターミナルでの利用も非常に簡単でしたが、検証時などは、チャットプレイグランドのようなGUIがあるとより便利だと思います。

Chromeのextensionが用意されており、すぐにブラウザで利用することができます。（Edgeブラウザも対応しているようです）

利用するモデルやチャット履歴を切り替えたりすることが可能です。試してないですが、Hostname を変えて別のサーバやコンテナにホストしたOllamaへリクエストを投げることもできそうです。

参考

Phi3 モデル

アーキテクチャ: Phi-3 Mini には 3.8B パラメーターがあり、高密度デコーダーのみの Transformer モデル。このモデルは、人間の嗜好や安全ガイドラインとの整合性を確保するために、SFT(Supervised fine-tuning)とDPO(Direct Preference Optimization)でFine-tuningされている
入力: テキスト。チャット形式を使用したプロンプトに最適
出力: 入力に応答して生成されたテキスト
最大コンテキストの長さ: 128K トークン（小さいモデルもあり）
トレーニングで使用したGPU:512 H100-80G
トレーニング時間:7日間
トレーニングデータ:3.3Tトークン
日付: モデルは 2024 年 2 月から 4 月の間にトレーニング
データセット: 3兆3,000億トークンの多種多様なソースが含まれており、厳選された高品質のデータを使用してトレーニング
カットオフ: 2023 年 10 月までのデータセットでトレーニングされている
ライセンス: MITライセンス

リソース

推論実行中はCPU、メモリともに非常に利用率が高くなります。

まとめ

今回の記事で、Phi-3モデルとOllamaツールの概要から具体的な使用方法に至るまでを紹介しました。Phi-3の優れた性能と、Ollamaによる柔軟なローカル実行環境が、多様な開発ニーズに応えることができそうです。新たなSLMのリリースも今後期待したいです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up