はじめに
RockyLinux8.9上で、ネット上の情報やslurmのドキュメントを参考にインストールまでを行ってみたが、munge-develのインストールでエラーになったりで、本番環境できれいにインストールするには何が必要で何が不要であったかを整理した結果をまず記録に残すことにしました。
$ sudo dnf install munge-devel
引数に一致する結果がありません: munge-devel
エラー: 一致するものが見つかりません: munge-devel
まだ、管理ノードのみしか用意していないので、計算ノードを準備してから、設定ファイルを用意して、slurmの起動を行う予定です。
インストール直後のRockyLinuxへのインストール
"Development Tools"やmunge-develのインストールの前に、powertoolsをインストールすることで、mungeキーの生成やmungeの起動まで行えました。
## システムの最新化
[localhost ~]$ sudo dnf update -y
## 必要なリポジトリを確認・有効化
[localhost ~]$ sudo dnf install epel-release -y
## 開発ツールのインストール
[localhost ~]$ sudo dnf config-manager --set-enabled powertools
[localhost ~]$ sudo dnf groupinstall "Development Tools" -y
## munge(認証用ライブラリ)のインストール
[localhost ~]$ sudo dnf install munge munge-devel -y
## Slurm のソースコードをダウンロード
[localhost ~]$ wget https://download.schedmd.com/slurm/slurm-24.11.0.tar.bz2
[localhost ~]$ tar -xjf slurm-24.11.0.tar.bz2
[localhost ~]$ cd slurm-24.11.0/
## ソースコードのビルド準備
[localhost slurm-24.11.0]$ ./configure
## Slurm のコンパイルとインストール makeは5分ほどかかる
[localhost slurm-24.11.0]$ make
[localhost slurm-24.11.0]$ sudo make install
[localhost slurm-24.11.0]$ which scontrol
/usr/local/bin/scontrol
[localhost slurm-24.11.0]$ which slurmd
/usr/local/sbin/slurmd
## MUNGE キーの生成(管理ノードで実施)
[localhost slurm-24.11.0]$ sudo /usr/sbin/create-munge-key
Generating a pseudo-random key using /dev/urandom completed.
## MUNGE サービスの起動と確認
[localhost slurm-24.11.0]$ sudo systemctl start munge
[localhost slurm-24.11.0]$ sudo systemctl status munge.service
● munge.service - MUNGE authentication service
Loaded: loaded (/usr/lib/systemd/system/munge.service; disabled; vendor preset: disabled)
Active: active (running) since Tue 2025-01-21 02:27:57 EST; 5s ago
Docs: man:munged(8)
Process: 200533 ExecStart=/usr/sbin/munged (code=exited, status=0/SUCCESS)
Main PID: 200535 (munged)
Tasks: 4 (limit: 47476)
Memory: 960.0K
CGroup: /system.slice/munge.service
└─200535 /usr/sbin/munged
1月 21 02:27:57 localhost.localdomain systemd[1]: Starting MUNGE authentication service...
1月 21 02:27:57 localhost.localdomain systemd[1]: Started MUNGE authentication service.
[localhost slurm-24.11.0]$ sudo systemctl stop munge
あとがき
できてしまえばシンプルな手順ですが、
・"Development Tools"やmunge-develがインストールできずに悩む
・Slurm v23.11 から自身のプラグインによる認証がサポートされるようになったことで、mungeをインストールするのか、 Slurm コンポーネント間の通信・認証にmungeを使うのか悩む
で、手間取りました。