本ページは OCI: HPC Cluster のサブページになります。
その他
Q: インターネット接続でセキュアに利用するために注意すべきポイントは?
A: 以下のポイントにご注意ください
- SSH でパスワード認証を使わない(デフォルトは鍵認証)
- VNCのSecurity Listで接続元のIPを絞る
Q: 計算ノード間で RDMA 通信がされていることは確認可能か?
A: 可能です。
以下の手順でスクリプトをダウンロードし、ジョブ実行中に dump_mlx_preiodic.sh を実行してください。
送受信のデータサイズとパケット数が確認可能です。
本スクリプトでは指定した NIC の統計情報を出力するもので TCP/IP だけでなく RDMA も含まれます。
逆に netstat -i の結果には RDMA 通信は含まれません。
本スクリプトと netstat -i の両方を確認することで RDMA 通信をしているか判断できます。
また、 このスクリプトは計算ノードに負荷が掛かるのでご注意ください。
ターミナルを2つ用意し、一つは以下のスクリプトを実行し、もう一つでは netstat -i 1 | grep <Interface名>
を実行し、その状態でアプリケーションを実施してください。Interface 名は、BM.Optimized3.36 が ens800f0
で BM.HPC2.36 が enp94s0f0
になります。
netstat のカウンタが変化せず、dump_mlx_periodic.sh スクリプトがカウントされれば RDMA 通信が行われていることが確認できます。
$ ssh <計算ノード>
$ git clone https://github.com/kazuitox/oci-hpc-tools.git
$ cd oci-hpc-tools/bin
# BM.Optimized3.36 の場合
$ ./dump_mlx_periodic.sh 1 mlx5_2
2022年 2月 19日 土曜日 08:34:26 GMT: recv_data=25378781, recv_packets=103318, xmit_data=23817383, xmit_packets=100877
2022年 2月 19日 土曜日 08:34:27 GMT: recv_data=26281714, recv_packets=76186, xmit_data=32492127, xmit_packets=90459
2022年 2月 19日 土曜日 08:34:28 GMT: recv_data=29166371, recv_packets=127388, xmit_data=29066583, xmit_packets=122254
^C
# BM.HPC2.36 の場合
$ ./dump_mlx_periodic.sh 1 mlx5_0
recv_data, xmit_data の単位は byte で、recv_packets, xmit_packets はパケット数になります。
Q: ログインノードのホスト名を変更することは可能ですか?
技術的には可能ですが、推奨はしていません。
ログインノード上で動いているサービス(SLURM, LDAPなど)の設定ファイルにログインノードのホスト名が直接書かれており、それらの変更と動作確認が必要になります。