MUNGEとは
ジョブスケジューラSLURMのデフォルトの認証システムです。SLURMを起動するにはあらかじめMUNGEをインストールして鍵を配布しておく必要があります。
SLURMやMUNGEのインストールそのものについてはこのページでは触れないので、最後に記している参考リンク等を参照にして下さい。
何が起こったか
一度SLURMをインストールした後、最初は問題なく動作していたのだが、ある日急に使用できなくなった。
色々調べたところ、MUNGEが停止していたので、再起動を試みたところ、以下のエラーを吐かれた。
Starting MUNGE: mungemunged: Error: Failed to open logfile "/var/log/munge/munged.log": Permission denied
sudoで実行したりchmodでPermissionを広くしたりして、一般的に問題ない権限で実行しても同様のエラーが吐かれてしまう。SELinuxも悪さをしていない。
解決策
同様の手順でインストールしていて問題なく起動しているMUNGEの環境があったので、それとPermission等を合わせてみたら動いた。その時のPermissionは以下の通り。
[root@hogehoge ~]# ls -l /var/log/ | grep munge
drwx------ 2 munge munge 4096 Sep 25 19:20 munge
[root@hogehoge ~]# ls -l /var/log/munge/
total 20
-rw-r----- 1 munge munge 17910 Sep 25 20:45 munged.log
ファイルの所有者とグループは全てmungeにして、ディレクトリのPermissionは700,logのPermissionは640に設定すれば問題なくMUNGEを起動できました。
MUNGEのファイルのPermissionは広すぎても狭すぎてもダメらしいということは噂に聞いてましたが、確かに細かいですね。Permission errorが出るからといって思考停止777はやったらダメみたいです。ごめんなさい。
同様のエラーでお困りの方がいれば試してみてください。
そもそもなぜ急にMUNGEが停止したかはわかっていないので判明したら追記します。
関連リンク
MUNGE/SLURMのインストールそのものに関しては下の記事が非常に参考になります。