More than 1 year has passed since last update.

Tanzu Kubernetes Grid上でllama.cppをサクッと使う

Last updated at 2023-12-14Posted at 2023-12-14

前回はTanzu Kubernetes Grid（以下TKG）上でJupyter Notebookを立ち上げるところまで行った。
せっかくなので、ここではその環境をPythonの実行環境と見立ててNotebookを作成し、llama.cppを動かしてみる。

llama.cppとは

llama.cppとは元々はMacBook上でLLaMA(Large Language Model Meta AI：Metaが公開した言語モデル)を動かすためのランタイムであり、Mac以外でもWindowsやLinuxでも動作可能である。
大きな特徴としてはGPUが不要であり、ちょっとした検証目的とかにはうってつけである。
また現在はサポートしているモデルもLLaMA以外のモデルも複数対応し、サポート言語もPython、Go、Node.js、Java、etcと幅広く対応しており、ちょっとだけLLMやってみたい人にはありがたい。

Jupyter Notebook環境の作成

前回作った環境がリッチかつjupyter-tensorflow-cuda-fullを使っていれば作成は不要だが、もしスペックが低い場合や、大きなモデルを持ち込みたい人は再作成する。
また、イメージについてはjupyter-tensorflow-fullだとpipのinstallに必要なパッケージが不足しているので注意が必要となる。
ここでは以下のスペックで作成する。

CPU：2
Memory：8
Workspace Volume：10Gi
Image：kubeflownotebookswg/jupyter-tensorflow-cuda-full:v1.6.0

ここではWorkspace Volumeで作成したが、データを残したい人はData Volumesで作成した方がいい。
起動したらCONNECTをクリックしてJupyter Notebookに接続する。

Notebookの作成

Notebookを作成していく。なお、作るのが面倒な人はこちらに今回の検証で使ったものを置いているので、ダウンロードして使うとよい。

Jupyter Notebook環境に接続したらLauncherのNotebookの"Python 3(ipykernel)"をクリックするか、左サイドバーから"New Notebook"をクリックし、Notebookを作成する。
"Select Kernel"ではPython3(ipykernel)を選択する。

最初にpipでllama.cppのPython版であるllama-cpp-pythonをインストールする。
インストール方法は本家よりLangChainの記載の方が分かりやすいかも。ノードに合わせて環境変数を設定する。
ここではGPUがないインストール方法で進める。

! pip install llama-cpp-python

次にモデルをコンテナ内に取り込む処理を書く。
ここではHugging Faceで配布されている、GGUF形式で小さそうだったTheBloke/Mistral-7B-Instruct-v0.1-GGUFにした。
他のモデルを使いたい人は適宜書き換えること。

! wget -O model.gguf https://huggingface.co/TheBloke/Mistral-7B-Instruct-v0.1-GGUF/resolve/main/mistral-7b-instruct-v0.1.Q2_K.gguf?download=true

最後にモデルを使ってテキストを生成する。モデルにあなたは何者か、と聞いてみる。

from llama_cpp import Llama
llm = Llama(
    model_path = "/home/jovyan/model.gguf",
)
Question = "Who are you?"

output = llm(Question)
print(output['choices'][0]['text'])

ここまで書いたNotebookは以下になる。

記載が終わったら、カーソルをNotebookの先頭に持っていき、Notebook内の再生ボタン（▶）をクリックしてそれぞれを実行していく。
pipのインストールでは依存関係のエラーが出るが、最終的に以下が表示されればOK。

Successfully installed diskcache-5.6.3 llama-cpp-python-0.2.22 numpy-1.24.4 typing-extensions-4.9.0

モデルのダウンロードに関しては3G程度あるため、時間が掛かる点に注意。
Pythonのコード本体の実行が始まって少し待つと以下のような結果が得られる。

Mistralだそうだ。
せっかくなので、質問を変えて再実行してみる。

from llama_cpp import Llama
llm = Llama(
    model_path = "/home/jovyan/model.gguf",
)
Question = "日本語分かりますか？"

output = llm(Question)
print(output['choices'][0]['text'])

実行結果はこちら。

変な回答が返ってきた。
なお、もうちょっとサイズの大きいモデルに変えるともう少し良い回答が貰える。

ということで、TKG上でllama.cppをサクッと使うことが出来た。
llama.cpp、環境によってはインストールに手間取る話も聞いているので、構築トラブルを避けたい人や、会社の都合でローカルPCにソフトウェアが入れられない人などは今回の手順を試していただければ幸いである。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up