背景
- 主にレイトレーシング(レンダリング), (画像, 音声系の)機械学習で利用
- 画面を出したりするので, 手元環境で動かす必要がある.
- アキバや ebay など, 市場調達性が高い部品で GPU 計算ノードを組みたい
- 4 GPUs(+ 1 network HBA) で考える
- 4~8 nodes くらいでミニクラスタを組むくらいの規模
GPU
As you wish.
電源
8 pin x 2 な GPU x 4 だと, 基本 1000 W 以上の電源が必要. ケーブル数が足りるかどうか確認しましょう.
実際には powerlimit しての運用になるため, ハイエンド系 GPU も 150W くらいでの運用になるので, 実質消費電力は 750 W くらい?
マザーボード選定
x299 or x399 がメインストリームと考えます.
x299
低価格帯の CPU だと 28 lanes しかないので注意. 44 lanes あるものを選びます.
しかしそれでも帯域は足りないため, 基本的には [x8, x8, x8, x8] となる(はず).
PLX スイッチで 7 lanes あるものは, PLX スイッチの出来がどうか調べる必要がある.
x99 では問題があった https://qiita.com/syoyo/items/596355e6f285181038cb
x399
Threadripper は CPU は 64 lanes サポートになっているが, 実質は 60 lanes + 4 lanes(チップセット用)になっている. したがって 4 GPU 挿しても x16 x 4 を実現することはできない.
こちらで試した感じでは, [x16, x8, x16, x8] となった.
ネットワークを強化したい
オンボード 10 GbE では帯域がたりなさそうな場合を考えます.
InfiniBand QDR(40G. 一方向 3.2 GB/s) or FDR(56 G)
スイッチも HBA も ebay で安く買える.
メラノックスの場合は, HBA は Connect-X 3 以上を調達しましょう.
スイッチは InfiniScale IS5022 あたりなど(QDR 8 ports で 2 万円くらい). うるさいので注意しましょう > https://syoyo.wordpress.com/2013/05/09/silent-infiniband-qdr-switch/
IB QDR の場合, ケーブルは QSFP になります. 光は高いので銅線ケーブルになります(これも eBay で安く買える)
Gen3 x 8 だと最大一方向 8~9 GB/s ほど.
Gen3 対応 x 2 port IB QDR HBA だと, ポートを二個管理しないといけないが 6 GB/s くらいは出るはず.
また, IB 100G(or 100 GbE) も wire rate には達しないがそれなりに速度を出せるかもしれない.
ただしネットワークを強化する場合, HBA を挿すために PCI-ex が必要になる.
x8 で 5 slots に対応するのは, PLX 非搭載では 2019 年 5 月 19 日時点では x299 OC Formula 一択である
(他はスロットがあったとしても gen2 動作だったりする). ただし x299 OC Formula はディスコンとなっている.