なんといつのまにかRCCLがapt installできるようになってました
環境構築
sudo apt install rccl
ROCmがインストールされている環境なら割とすぐに立ち上げることができます。
$ git clone https://github.com/ROCmSoftwarePlatform/rccl-tests.git
$ cd ./rccl-tests/
$ sudo ./install.sh
これでrccl-testのビルドが完成し
./rccl-test/build内にビルドされます
2wayの場合
./build/all_reduce_perf -b 8 -e 128M -f 2 -g 2
でテストできます。
動作検証結果
./build/all_reduce_perf -b 8 -e 128M -f 2 -g 2
# nThread: 1 nGpus: 2 minBytes: 8 maxBytes: 134217728 step: 2(factor) warmupIters: 5 iters: 20 validation: 1
#
# Using devices
# Rank 0 Pid 9012 on rocm device 0 [0x02] Ellesmere [Radeon RX 470/480/570/570X/580/580X]
# Rank 1 Pid 9012 on rocm device 1 [0x03] Ellesmere [Radeon RX 470/480/570/570X/580/580X]
#
# out-of-place in-place
# size count type redop time algbw busbw error time algbw busbw error
# (B) (elements) (us) (GB/s) (GB/s) (us) (GB/s) (GB/s)
Memory access fault by GPU node-2 (Agent handle: 0x1d58110) on address (nil). Reason: Page not present or supervisor privilege.
中止 (コアダンプ)
残念ながらテストは完走できませんでした
メモリアクセス障害となっているので改善が必要なやつかもしれません。
環境
OS ubuntu 16.04.6 64bit
kernel 4.15.0-58-generic
ROCm version R2.7
RCCL version 2.6.0.182-rocm-rel-2.7-22-1fee6f9
CPU Intel® Xeon(R) CPU E5-2603 v4 @ 1.70GHz × 6
MB X99S GAMING 7
RAM DDR4 2400 16GBモジュール*3 48GB
GPU0 RX570 16GB
GPU1 RX570 16GB