この記事について
以下のドキュメントの Option2 の要約です。
既存のVPC, サブネットを利用する場合
Data Lake および Data Hub に利用するサブネット
- データレイクが RDS を使うので、最低でも2つのサブネットが必要
- CIDR の範囲は /19 が推奨だが、より小さいものを使う場合は以下のガイドラインを参照
- VMひとつにつき1つのIPを使う
- RDSが2つのIPを使う
- Light Duty の場合
- 合計3つのVMが立つ(Data Lake に2、Free IPA に1)
- Medium Duty の場合
- 合計13のVMが立つ(DataLake に10、FreeIPAに3)
Data Warehouse 用のサブネット
(割愛 -> 必要が生じた際に訳します)
Cloudera AI 用のサブネット
Cloudera AI は、最低でも2つの異なるAZに配置された2つのサブネットが必要で、ワークベンチの作成時点でどちらを使うかを選べます。
指定したサブネットを他の Cloudera のサービスと共有している場合は、十分なIPの範囲を Cloudera AI が使えるようにする。
Cloudera AI は Calico CNI (Container Network Interface) を利用し、ネットワーク内の Cloudera AI 用の pod を稼働させます。
ワークベンチあたりのIPアドレス数の計算式は以下のとおりです。
- CPUのワーカーノード、GPUのワーカーノードがそれぞれ 1つずつ IP アドレスを利用します
- インフラ用のノードに9つのIPアドレスが必要です(Cloudera AI のインフラノード用に3, Liftie のインフラノード用に4, ELB用に2)
その他のサービス用のサブネット
(割愛 -> 必要が生じた際に訳します)