8

@forgottencow(Forgotten Cow)

Ollamaで複数のLLMを複数のGPUに載せる

Last updated at 2024-11-08Posted at 2024-11-08

Ollamaで複数のLLMを同時に、さらに複数GPUに分散させて推論する方法✨

どうも~てんかうだよ〜〜〜ん😊❤️
今回は特別に「Ollamaで複数のLLMを同時に、さらに複数GPUに分散させて推論する方法✨」を教えちゃうゾ！

筆者の環境

OS : Windows 10
CPU : Ryzen9 5950x
RAM : 64GB DDR4 3600mhz
SSD : あるだけ全部
GPU : RTX 3090 & RTX 3060
Ollama バージョン : 0.4.0

ちなみに好きなゲームはOneshot (RPG) 🎮

手順

やり方は簡単！環境変数を設定するだけ！
以下は筆者の ollama 関係の環境変数設定です。

重要な環境変数の設定項目

CUDA_VISIBLE_DEVICES
- 使用するGPUを指定します。
OLLAMA_MAX_LOADED_MODELS
- ロードできるモデルの数を指定します。（2だとなぜかダメでした。何故…?）
OLLAMA_NUM_PARALLEL
- 同時に推論できる数を指定します。

以上で設定完了！

動作確認

llama3.2 11b と qwen2.5 と sbv2　をロードします。
VRAMの使用状況を見ると、ピッチピチです！
やばい！

VRAM確認スクリーンショット1

VRAM確認スクリーンショット2

(以下、記事本文)

てか、誰か3090を8台ぐらいくれませんか?
憧れは止められねぇんだ！😆

以上、てんかうの所感でした。
おやすみなさい😴

8

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

8