#前書き
これまで数値計算用ワークステーションのジョブスケジューラとしてtorqueを長年使用していましたが、有料になったため、代替案として無料ソフトウェアであるSlurmを導入しました。
SlurmのUbuntu16.04LTSへの導入については、下記の記事
https://qiita.com/JeJeNeNo/items/c545e72373d4d1deb36a
にて丁寧にまとめられており、18.04LTSへのインストールもほぼこの通りで出来ます。
詳細な手順は上の記事を見て頂くとして、一部の変更点をまとめておきます。
1から知りたい方は、まず上の記事を読むことをお勧めします。
#Slurmのインストール
インストールまでは上の記事と同じ手順なので省略します。
Slurmのインストールの前に、Slurmの起動に必要なソフトウェアMUNGEをインストールする必要があり、16.04LTSだと大変だったようです。
嬉しいことに18.04LTSではapt installで問題なくインストールできます。
sudo apt install munge
Slurmもapt installでインストールできるようですが、後の設定を考え、上の記事と同様にソースコードから最新版をコンパイルしてインストールしました。prefixは設定しなかったので、デフォルト設定の通り、"/usr/local"にインストールされます。
./configure
make
sudo make install
#Slurmの設定ファイル作成
ここも上の記事の手順とほぼ同じですが、一部変更&追加。
具体的には、
- hyperthreadingを使う場合でも、"Sockets", "CoresPerSocket", "ThreadsPerCore"の設定が必要
- 追跡をpgidに変更(デフォルト設定はcgroup)
後は上の記事に従って、ポート開放・systemdに設定・起動
#使い方
下記サイトにまとまっています。
https://www.j-focus.jp/user_guide/ug0004000000/
とりあえず覚えておくべきは、
・ジョブ実行
sbatch **.sh
・ジョブのステータス確認
squece
・ジョブ強制終了
scancel ***
で、バッチファイルの書き方は下記のサンプルを自分用に改変すれば動きました。
https://www.j-focus.jp/user_guide/ug0004040000/#ug0004040000
#おわりに
インストール作業や使い方はtorqueより楽だし、無料なので文句を言うのもアレですが、公式サイトのマニュアルが読みにくくて閉口しました…。