問題
Azure CycleCloudでData Science VM (DSVM) イメージを使用してslurmクラスターを作成しようとしてもエラーが発生しクラスターの立ち上げができない。
- DSVMイメージはmaster, hpc, htcのクラスターに使用する
- 使用しているイメージのURNは
microsoft-ads:linux-data-science-vm-ubuntu:linuxdsvmubuntu:20.01.09
- ※別バージョンのURN (
microsoft-ads:linux-data-science-vm-ubuntu:linuxdsvmubuntubyol:20.01.09
)を使用しても同様のエラーが発生。
- ※別バージョンのURN (
対処法
要因
どうやらslurmジョブスケジューラーで使用するmunge userのUID/GIDが競合してしまうことが原因のようです。他のUID/GIDへと変更することで解決できました。
手順
master node, htc/hpc nodearraysの設定 (configuration画面)に下記を入力します。
munge.user.gid = 994
munge.user.name = munge
munge.user.uid = 994
slurm.hpc = true
slurm.user.gid = 11100
slurm.user.name = slurm
slurm.user.uid = 11100
Cyclecloudの管理サーバーUI -> masterをクリック -> Edit -> Configuration 欄に上記設定を入力する。
最初から入力されている設定を可能な限り残しつつ、重複するものは消して上記設定を入力しました。
結果
無事にDSVMを使用したslurmクラスターのデプロイができました!