1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

コマンド5行以内でLlama3.3を起動して使う

Posted at

概要

何らかの理由でオープンソースLLMを使いたい場合は、Ollamaが登場する前にかなり工夫しないといけないけど、時代の進化で現在はVM立ち上げからモデルが使えるまで僅か数分で設定できます。早速見ていきましょう。

スペック確認

今回はAWSでやってみます。現時点日本リージョンで最新のGPU付きEC2はg5で、A10GのGPUで、24GB/96G/192GBの3択しかないです。Llama3.3は絶対に24GBで足りないので、g5.12xlargeにします。

Screenshot from 2024-12-09 21-26-34.png

そして費用ですが、USリージョンよりやや高くて、東京はUSD8.2 / 1時間となっています。

Screenshot from 2024-12-09 21-27-13.png

モデルのスペックは、ollamaに載せている、llama3.3のQ4_K_Mにします。43GBなのでg5.12xlargeで動けるはずです。

Screenshot from 2024-12-09 21-27-29.png

EC2設置

EC2のAMIは、画像のようにNvidiaドライバーが入っているものをおすすめです。ゼロからインストールの場合だと、30分〜1時間がかかる可能性があります。

Screenshot from 2024-12-09 22-33-33.png

コマンド

1 . 念の為、rootレベル権限を取得します。

sudo bash

2 . Ollamaをダウンロードしてインストールします。

curl -fsSL https://ollama.com/install.sh | sh

3 . Llama3.3モデルをダウンロードします。

ollama pull llama3.3

4 . これで設置完了なので、1回生成リクエストを送ってみます。

curl http://localhost:11434/api/generate -d '{"model": "llama3.3","prompt": "Give me sample source code for training a lstm network using pytorch"}'

Screenshot from 2024-12-09 22-41-56.png

Screenshot from 2024-12-09 22-42-00.png

これだけで使えるようになりました。セキュリティグループなどの設定をいじれば、外部に公開することももちろんできます。


最後に、GPUのリソースも確認してみます。

nvidia-smi

Screenshot from 2024-12-09 22-40-15.png

半分ぐらい占用されていますね。ネットで48GBのGPUでもギリギリ動けるとの報告もありましたけど、コンスーマレベルのGPUだとやはり生成スピードが遅くて、実用性が疑問になります。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?