CentOS 6にTorqueをセットアップする際のメモ
計算サーバは1台でヘッドノード兼用とする。
http://www.fiatlux.co.jp/faq/build/html/MFmyPresto_Other_Torque.html
の方法でもいいが、ソースビルドしたくないのでyumを使う。
ホスト名が設定されているか
$ hostname
で確認する。
※localhost.localdomainではダメ
※ホスト名が数字から始まっているとダメ
ホスト名からIPアドレスが引けないと問題になるので、予め設定しておいたほうが良い。
IPアドレス: 192.168.0.10
ホスト名: HostA
の場合、/etc/hostsに
192.168.0.10 HostA
を追加する。
※ループバックアドレス(127.0.0.1)ではダメ
# yum install -y epel-release
# yum install -y torque-client torque-mom torque-server torque-scheduler
# create-munge-key
# pbs_server -t create -f -D &
# pbs_server_pid=$!
# kill $pbs_server_pid
# echo "$HOSTNAME np=$(nproc) num_node_boards=1 numa_board_str=$(nproc)" > /var/lib/torque/server_priv/nodes
# hostname > /etc/torque/server_name
# echo "nodes=0" > /var/lib/torque/mom_priv/mom.layout
/var/lib/torque/mom_priv/configが
$pbsserver localhost
になっていたので、
$pbsserver HostA
に変更。
# service munge start
# service pbs_server start
# service trqauthd start
# service pbs_sched start
# service pbs_mom start
# chkconfig munge on
# chkconfig pbs_server on
# chkconfig trqauthd on
# chkconfig pbs_sched on
# chkconfig pbs_mom on
下記コマンドでキューL0を設定する。
キュー名は別の名前でも良い。
# qmgr -c "create queue L0 queue_type=execution"
# qmgr -c "set queue L0 started=true"
# qmgr -c "set queue L0 enabled=true"
# qmgr -c "set queue L0 resources_default.nodes=1"
# qmgr -c "set queue L0 resources_default.walltime=3600"![undefined]()
# qmgr -c "set server default_queue=L0"
# qmgr -c "set server scheduling=true"
# qmgr -c 'p s'
で設定内容を確認する。
# pbsnodes -a
state = free
になっていることを確認。
hostname等設定以降のスクリプト例
#!/bin/bash
set -x
yum install -y epel-release
yum install -y torque-client torque-mom torque-server torque-scheduler
create-munge-key
pbs_server -t create -f -D &
sleep 10
pbs_server_pid=$!
kill $pbs_server_pid
echo "$HOSTNAME np=$(nproc) num_node_boards=1 numa_board_str=$(nproc)" > /var/lib/torque/server_priv/nodes
hostname > /etc/torque/server_name
echo "nodes=0" > /var/lib/torque/mom_priv/mom.layout
sed -i.bak s/localhost/`hostname`/g /var/lib/torque/mom_priv/config
service munge start
service pbs_server start
service trqauthd start
service pbs_sched start
service pbs_mom start
chkconfig munge on
chkconfig pbs_server on
chkconfig trqauthd on
chkconfig pbs_sched on
chkconfig pbs_mom on
qmgr -c "create queue L0 queue_type=execution"
qmgr -c "set queue L0 started=true"
qmgr -c "set queue L0 enabled=true"
qmgr -c "set queue L0 resources_default.nodes=1"
qmgr -c "set queue L0 resources_default.walltime=3600"
qmgr -c "set server default_queue=L0"
qmgr -c "set server scheduling=true"
qmgr -c 'p s'
pbsnodes -a