2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

生成AIに関する記事を書こう!
Qiita Engineer Festa20242024年7月17日まで開催中!

Llama-3-ELYZA-JP-8B 量子化版をGoogle Colab, llama.cppで動かしてみた

Last updated at Posted at 2024-06-30

つい先日公開されたLLaMAベースの日本語モデルを動かそうと思った。
llama.cppを使用して、LLaMA-3-ELYZA-JP-8B-GGUFの量子化版モデルをGoogle Colab(無料版)上で動かしてみた結果を共有.

Hugging Faceでモデルを参照

LLaMA-3-ELYZA-JP-8B-GGUF

llama.cpp を動かすには, モデルの形式をGGUF形式に変換が必要だが、あらかじめ変換/量子化されたモデルが公開されていた。

Google ColabではCPUのみでも動かせたし、GPU(T4)ランタイムだとかなり早く実行できた。出力も実用十分な結果だった。

Colab リンクから、コードを参照ください。
https://colab.research.google.com/drive/1pxqt8PRSF3cEohL1j4NmxmH7g-g8pcaI?usp=sharing

Little Tips:

  • 推論実行時に gpuの力を発揮するには, -ngl オプションをつける

まとめ 

(w/ claude君)

llama.cppを使用してLLaMA-3-ELYZA-JP-8B-GGUFの量子化版モデルをGoogle Colab上で動かしてみた。この方法を使えば、高性能なGPUを持っていなくても、大規模言語モデルを手軽に試すことができる。

環境設定やコードの詳細な説明は省略したが、実際に動かしてみると、モデルの性能や日本語での応答の質の高さを実感できた。

次回は、このモデルをNode.jsで実装し、AWS Lambda上で動かす予定だ。これにより、Webアプリケーションでの実用的な利用方法が見えてくるだろう。

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?