つい先日公開されたLLaMAベースの日本語モデルを動かそうと思った。
llama.cppを使用して、LLaMA-3-ELYZA-JP-8B-GGUFの量子化版モデルをGoogle Colab(無料版)上で動かしてみた結果を共有.
Hugging Faceでモデルを参照
llama.cpp を動かすには, モデルの形式をGGUF形式に変換が必要だが、あらかじめ変換/量子化されたモデルが公開されていた。
Google ColabではCPUのみでも動かせたし、GPU(T4)ランタイムだとかなり早く実行できた。出力も実用十分な結果だった。
Colab リンクから、コードを参照ください。
https://colab.research.google.com/drive/1pxqt8PRSF3cEohL1j4NmxmH7g-g8pcaI?usp=sharing
Little Tips:
- 推論実行時に gpuの力を発揮するには,
-ngl
オプションをつける
まとめ
(w/ claude君)
llama.cppを使用してLLaMA-3-ELYZA-JP-8B-GGUFの量子化版モデルをGoogle Colab上で動かしてみた。この方法を使えば、高性能なGPUを持っていなくても、大規模言語モデルを手軽に試すことができる。
環境設定やコードの詳細な説明は省略したが、実際に動かしてみると、モデルの性能や日本語での応答の質の高さを実感できた。
次回は、このモデルをNode.jsで実装し、AWS Lambda上で動かす予定だ。これにより、Webアプリケーションでの実用的な利用方法が見えてくるだろう。