6
5

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Ollamaで複数のLLMを複数のGPUに載せる

Last updated at Posted at 2024-11-08

Ollamaで複数のLLMを同時に、さらに複数GPUに分散させて推論する方法✨

どうも~てんかうだよ〜〜〜ん😊❤️
今回は特別に「Ollamaで複数のLLMを同時に、さらに複数GPUに分散させて推論する方法✨」を教えちゃうゾ!

筆者の環境

  • OS : Windows 10
  • CPU : Ryzen9 5950x
  • RAM : 64GB DDR4 3600mhz
  • SSD : あるだけ全部
  • GPU : RTX 3090 & RTX 3060
  • Ollama バージョン : 0.4.0

ちなみに好きなゲームはOneshot (RPG) 🎮

手順

やり方は簡単!環境変数を設定するだけ!
以下は筆者の ollama 関係の環境変数設定です。

Ollama環境変数設定スクリーンショット

重要な環境変数の設定項目

  1. CUDA_VISIBLE_DEVICES

    • 使用するGPUを指定します。
  2. OLLAMA_MAX_LOADED_MODELS

    • ロードできるモデルの数を指定します。(2だとなぜかダメでした。何故…?)
  3. OLLAMA_NUM_PARALLEL

    • 同時に推論できる数を指定します。

以上で設定完了!

動作確認

llama3.2 11b と qwen2.5 と sbv2 をロードします。
VRAMの使用状況を見ると、ピッチピチです!
やばい!

VRAM確認スクリーンショット1 VRAM確認スクリーンショット2

(以下、記事本文)

てか、誰か3090を8台ぐらいくれませんか?
憧れは止められねぇんだ!😆


以上、てんかうの所感でした。
おやすみなさい😴

6
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
5

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?