0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

OCI HPC Cluster: FAQ - その他

Last updated at Posted at 2023-12-26

本ページは OCI: HPC Cluster のサブページになります。

その他

Q: インターネット接続でセキュアに利用するために注意すべきポイントは?

A: 以下のポイントにご注意ください

  • SSH でパスワード認証を使わない(デフォルトは鍵認証)
  • VNCのSecurity Listで接続元のIPを絞る

Q: 計算ノード間で RDMA 通信がされていることは確認可能か?

A: 可能です。

以下の手順でスクリプトをダウンロードし、ジョブ実行中に dump_mlx_preiodic.sh を実行してください。
送受信のデータサイズとパケット数が確認可能です。

本スクリプトでは指定した NIC の統計情報を出力するもので TCP/IP だけでなく RDMA も含まれます。
逆に netstat -i の結果には RDMA 通信は含まれません。
本スクリプトと netstat -i の両方を確認することで RDMA 通信をしているか判断できます。

また、 このスクリプトは計算ノードに負荷が掛かるのでご注意ください。

ターミナルを2つ用意し、一つは以下のスクリプトを実行し、もう一つでは netstat -i 1 | grep <Interface名> を実行し、その状態でアプリケーションを実施してください。Interface 名は、BM.Optimized3.36 が ens800f0 で BM.HPC2.36 が enp94s0f0 になります。
netstat のカウンタが変化せず、dump_mlx_periodic.sh スクリプトがカウントされれば RDMA 通信が行われていることが確認できます。

$ ssh <計算ノード>
$ git clone https://github.com/kazuitox/oci-hpc-tools.git
$ cd oci-hpc-tools/bin

# BM.Optimized3.36 の場合
$ ./dump_mlx_periodic.sh 1 mlx5_2
2022年 2月 19日 土曜日 08:34:26 GMT: recv_data=25378781, recv_packets=103318, xmit_data=23817383, xmit_packets=100877
2022年 2月 19日 土曜日 08:34:27 GMT: recv_data=26281714, recv_packets=76186, xmit_data=32492127, xmit_packets=90459
2022年 2月 19日 土曜日 08:34:28 GMT: recv_data=29166371, recv_packets=127388, xmit_data=29066583, xmit_packets=122254
^C

# BM.HPC2.36 の場合
$ ./dump_mlx_periodic.sh 1 mlx5_0

recv_data, xmit_data の単位は byte で、recv_packets, xmit_packets はパケット数になります。

Q: ログインノードのホスト名を変更することは可能ですか?

技術的には可能ですが、推奨はしていません。
ログインノード上で動いているサービス(SLURM, LDAPなど)の設定ファイルにログインノードのホスト名が直接書かれており、それらの変更と動作確認が必要になります。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?