1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

Azure CycleCloudでData Science VMベースのslurmクラスターを作成できない問題への対処法

Posted at

問題

Azure CycleCloudでData Science VM (DSVM) イメージを使用してslurmクラスターを作成しようとしてもエラーが発生しクラスターの立ち上げができない。

  • DSVMイメージはmaster, hpc, htcのクラスターに使用する
  • 使用しているイメージのURNはmicrosoft-ads:linux-data-science-vm-ubuntu:linuxdsvmubuntu:20.01.09
    • ※別バージョンのURN (microsoft-ads:linux-data-science-vm-ubuntu:linuxdsvmubuntubyol:20.01.09)を使用しても同様のエラーが発生。

下記のようなエラーメッセージが表示されてしまう。
image.png

対処法

要因

どうやらslurmジョブスケジューラーで使用するmunge userのUID/GIDが競合してしまうことが原因のようです。他のUID/GIDへと変更することで解決できました。

手順

master node, htc/hpc nodearraysの設定 (configuration画面)に下記を入力します。

munge.user.gid = 994
munge.user.name = munge
munge.user.uid = 994
slurm.hpc = true
slurm.user.gid = 11100
slurm.user.name = slurm
slurm.user.uid = 11100

Cyclecloudの管理サーバーUI -> masterをクリック -> Edit -> Configuration 欄に上記設定を入力する。

image.png

最初から入力されている設定を可能な限り残しつつ、重複するものは消して上記設定を入力しました。

結果

無事にDSVMを使用したslurmクラスターのデプロイができました!

参考

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?