Ollamaで複数のLLMを同時に、さらに複数GPUに分散させて推論する方法✨
どうも~てんかうだよ〜〜〜ん😊❤️
今回は特別に「Ollamaで複数のLLMを同時に、さらに複数GPUに分散させて推論する方法✨」を教えちゃうゾ!
筆者の環境
- OS : Windows 10
- CPU : Ryzen9 5950x
- RAM : 64GB DDR4 3600mhz
- SSD : あるだけ全部
- GPU : RTX 3090 & RTX 3060
- Ollama バージョン : 0.4.0
ちなみに好きなゲームはOneshot (RPG) 🎮
手順
やり方は簡単!環境変数を設定するだけ!
以下は筆者の ollama
関係の環境変数設定です。
重要な環境変数の設定項目
-
CUDA_VISIBLE_DEVICES
- 使用するGPUを指定します。
-
OLLAMA_MAX_LOADED_MODELS
- ロードできるモデルの数を指定します。(2だとなぜかダメでした。何故…?)
-
OLLAMA_NUM_PARALLEL
- 同時に推論できる数を指定します。
以上で設定完了!
動作確認
llama3.2 11b と qwen2.5 と sbv2 をロードします。
VRAMの使用状況を見ると、ピッチピチです!
やばい!
(以下、記事本文)
てか、誰か3090を8台ぐらいくれませんか?
憧れは止められねぇんだ!😆
以上、てんかうの所感でした。
おやすみなさい😴