0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

OCI HPC Cluster: 構築 - v2.10.3

Posted at

本ページは OCI: HPC Cluster のサブページになります。

HPC Cluster v2.10.3 構築

本手順は OCI: HPC Clusterに記載されている一般的な構成をする手順となります。
構成の中でチェックや入力項目などはスクリーンショットのまま選択をすることを推奨いたします。

Marketplace にアクセスする

メニュー → Marketplace → All Applications を選択します。
image.png

HPC Cluster を検索し、選択する

hpc と検索し、HPC Cluster を選択します。
image.png

HPC Cluster の選択と構成

v2.10.3 を選択し、対象のデプロイするコンパートメントを選択し、Launch Stack をクリックします。
image.png

以下の Create Stack 画面になるので、何も変更せず、Next をクリックします。
image.png

次が HPC Cluster のデプロイに関する様々な設定を指定する画面になります。

hogehoge

一般的な構成をする上での変更点を重点的に説明いたします。

Cluster configuration

  • Public SSH Key: デフォルトユーザーであるopcユーザーに割り当てるPublic SSH Keyを入力します。ヘッドノードへのログインに利用される。
  • use custom cluster name: ヘッドノードのインスタンス名(≒ホスト名)の接頭辞として設定される。チェックを外すとランダムな文字列で生成される。
  • Configure LDAP authentication from bastion: ヘッドノードにLDAPサーバを構築する。追加ユーザーのヘッドノードログイン、マルチノードでの計算に利用される。
    image.png

Headnode options

ヘッドノードに関する設定

  • Availability Domain: デプロイ対象のADを選択する。東京や大阪のリージョンは1つのみなのでデフォルトから変更する必要はない。
  • bastion_shape: ヘッドノードのShapeとスペックを選択する。
  • cores: bastion_shapeでFlexタイプを選択した場合にCPUコア数指定する。
  • Use custom memory size: bastion_shapeでFlexタイプを選択し、メモリサイズをデフォルトから変更したい場合にはチェックをし、表示されるボックスに数値を入力する。
  • Size of the boot volume in GB: ヘッドノードのBoot Volume容量を指定する。
  • Enable boot volume backup: ヘッドノードのBoot Volumeのバックアップをする場合にはチェックを入れる。
  • Create Object Storage PAR: ヘッドノードのモニタリングメトリックをObjectStorageに保管するためのPARを作成する。障害時にサポートにメトリックデータの共有で利用。
    image.png

Compute node options

計算ノードに関する設定

  • Multiple ADs: 海外リージョンでADが3つある環境で複数のADを利用した環境を構築する場合にチェックを入れる
  • Use cluster network: RoCEv2によるRDMAを利用する場合にチェックを入れる。これにチェックをするとRoCEv2が利用できるShapeがShape of the Compute Nodeにリストされ、チェックを入れない場合は、RoCEv2が利用できないShapeがリストされる。
  • Use compute cluster rather than cluster network: cluster networkと同様にRoCEv2でInterconnectを構成する手法の一つ。ここではcluster networkによる構成とする。
  • Initial cluster size: 恒久的に常時起動する計算ノード数を指定する。0であれば常時起動するノードはなく、Autoscalingベースとなる。
  • Hyperthreading enabled: ハイパースレッディングの有効/無効の設定。アプリの特性に応じて選択する。
  • Size of the boot volume in GB: 計算ノードのBoot Volume容量を指定する。
  • use marketplace image: RoCEv2を利用する場合は必須。HPC向けのOS設定やOpenMPIなどがインストールされたイメージで計算ノードを起動します。
  • use older marketplace images: RoCEv2対応の古いOSを利用する場合に選択する。
  • Image versions: HPC_OL8 or HPC_OL7 or GPU から選択する。HPC_OL8の選択を推奨。

image.png

Additional Login Node

  • Loing Nodes: ヘッドノードのほかに、ユーザーがログインしてジョブを投入する専用のノードが必要な場合はチェックをする

image.png

Autoscaling

  • Scheduler based autoscaling: Autoscaling を利用する場合はチェックをする
  • Monitor the autoscaling: Autoscaling のモニタリングをPrometheusとGrafanaで構成する
  • RDMA Latency check: 計算ノードのセットアップの一環で RDMA のレイテンシーチェックをする

image.png

API Authentication, needed for autoscaling

  • Use Instance Principal insted of configuration file: ヘッドノードがInstance Principalを利用したAPIで計算ノードの作成・削除を実施する
    image.png

Additional file system

追加のNFSサーバの指定を行う。

  • Add another NFS filesystem: 既存のNFSサーバ、または新規のマネージドNFSサービス(FSS)の利用する場合にチェック
  • Create FSS: FSSを新規に作成する
  • NFS Path: ヘッドノード、計算ノードにマウントさせるマウントポイントの指定
  • NFS server Path: 新規に構成するFSSサービス内のPath
  • FSS compartment: FSSを作成するコンパートメントを指定
  • FSS Availability Domain: FSSを配置するADを指定

image.png

Advanced bastion options

計算ノードの拡張オプションの指定。

  • use standard bastion image: ヘッドノードのイメージとして標準的なイメージ(HPC_OL7)を利用する
  • Use unsuppported image: ここでは計算ノードと同じHPC_OL8のイメージID(ocid1.image.oc1..aaaaaaaaceagnur6krcfous5gxp2iwkv2teiqijbntbpwc4b3alxkzyqi25a)を指定する

image.png

Advanced storage options

ヘッドノードにBlock Volumeの追加や、計算ノード搭載のNVMeストレージのマウントポイント変更など可能。
今回はデフォルトから変更しない。
image.png

Network options

今回はデフォルトから変更しない。

  • Use Existing VCN: 既存のVCN配下にデプロイする際にチェックする
  • Deploy Master Node without a public IP: ヘッドノードにPublic IPを持たせないで構成する
  • VCN IP range: VCNのCIDRを指定
  • Master Node subnet IP range: ヘッドノードを配置するPublic SubnetのCIDRを指定
  • Private Subnet IP range: 計算ノードを配置するPrivate IPのCIDRを指定
  • RDMA subnet IP range: RoCEv2のI/Fに設定するInterconnect NetworkのCIDRを指定
  • Additional subnet IP range: 上記とは別にVCN内にPrivate Subnetを作る場合のCIDRを指定
    image.png

Software

  • Sudo Access: privilege groupsudo権限を付与する
  • Name of the group with privileges: privilege group名を指定する
  • Install SLURM: SLURMをインストールする場合はチェックする
  • Share spool directory: SLURMのspoolディレクトリをNFSで公開する
  • Create a backup Slurm Controller: SLURMの冗長化構成としてセカンダリノードを作成する
  • Create Rack aware topology: 試験的なオプション
  • Queue Name: SLURMで構成するデフォルトのキュー名の指定
  • Install Sparck package manager: Sparck を入れる場合はチェックする
  • Install HPC Cluster Monitoring Tools: モニタリングツールを構成する
  • Install Nvidia Enroot for containerrized GPU workloads: GPUインスタンスでコンテナを利用する場合にチェックを入れる
  • Enable PAM: ユーザーに対して計算ノードへのSSHをさせない場合はチェックを入れる
  • Enable Limits for Slurm jobs: ユーザーに対してSLURMのジョブ投入を制限設定を有効にする

image.png

Debug

  • Configure system: デバッグオプション。計算ノードで上記で指定したセットアップを行わずに作成する。
    image.png

Next をクリックすると以下の確認画面になるので、 Create をクリックします。

Resouce Manager による作成が開始

Create をクリックすると、Resouce Manager の画面に切り替わりデプロイが開始されます。
image.png

作成完了

SUCCEEDED となったら完了。
画面左下のOutputsをクリックすると作成されたヘッドノード(bastion)のPublic IPが確認できます。
image.png

以上で作成は完了です。メインページのチュートリアルに進みましょう。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?