この記事について
前提
Cloudera のクラウド版は以下のように、コントロールプレーンと、実際にデータを保持する自社環境をCCMという外向きの通信で接続する構成となっています。
ひとたび自社の環境が作成されれば、ユーザーが利用する機能(Cloudera Manager、Ranger、Atlas、Hueなど、オンプレミス版のCloudera でユーザーや管理者が使うような画面や機能)は、すべて自社ネットワークの中に構築し、自社で許可されたネットワークの要件に従ってアクセスすることが可能です。
一方で、コントロールプレーンは Cloudera が管理する AWSアカウント内にあります。ユーザー企業の管理者はまず、インターネットを介してこのコントロールプレーンにアクセスし、コントロールプレーン上で様々な設定を行うことでクラウド版のCloudera を利用することができるようになります。
管理機能は CLI でも実装されているため、CLIを利用して管理を完結させることも可能ですが、UIの利便性の高さから、運用局面でもコントロールプレーンを利用するケースがほとんどです。
この記事のモチベーション
「自社向けの環境は自社ネットワーク内で完全に構築できるが、コントロールプレーンにはインターネットを介してアクセスする」という性質から、コントロールプレーンがどのような機能を備えているのかを入念に確認したいケースが多いと思います。
コントロールプレーンの機能は非常に多く、日々機能追加もされているため、すべてを列挙することは現実的ではありませんが、おおまかなメニューと機能、どのような場面で利用し得るのかを簡単にまとめておくことで、全体像がイメージしやすくなればと思いこの記事を書いています。
Cloudera コントロールプレーンへのアクセス
管理者の初回アクセス
管理者の初回アクセス時は、Cloudera SSOを通じてコントロールプレーンにアクセスします。
Cloudera SSO は、My Clouderaにログインした状態で、以下のボタンからログインすることができます。
Cloudera SSO にアクセスすると表示される以下のタイルの中から、該当するコントロールプレーンのリージョンを選択しクリックします。
コントロールプレーンのリージョンをどこにするかは、契約時にユーザーが選択します。
このリージョンはあくまでもコントロールプレーンのリージョンであり、お客様のデータや資源をデプロイするリージョンとは異なります。
ユーザーのアクセス
ユーザーは、コントロールプレーンに接続された外部IDプロバイダからSSOでログインする必要があります。
外部IDプロバイダーとの接続については、この記事の中で後述しています。(「外部IDプロバイダーとの接続について」)
コントロールプレーンのトップ画面
コントロールプレーンのトップは、以下のようになっています。
各種メニューの機能は以下のとおりです。
マネジメントコンソール
管理者がまず最初にアクセスすることになるのが、右下のマネジメントコンソールの画面です。
マネジメントコンソールには、以下の機能があります。
ダッシュボード
ダッシュボードでは、どのクラウドプロバイダーのどのリージョンにいくつの環境が存在するかを一覧表示できます。
(画面イメージはClouderaのテスト環境ですので、かなり多くの環境が表示されています。)
環境の一覧(Environments)
以下は環境(Environments)の一覧画面です。
該当のユーザーが参照権限を持っている環境が一覧表示され、各環境にアクセスできるユーザーやグループの管理、環境の新規作成、起動、停止、削除などを行うことができます。
こちらも、Clouderaのテスト環境なのでかなり多くの環境が表示されています。
実際には、開発/テスト/本番という3つの環境をひとつの企業またはプロジェクトが持っていることが多いです。
データレイクの一覧
データレイクは、環境(Environment)と1:1で紐づきます。
環境がデータレイクを格納するための箱で、データレイクはその中で実際に稼働するストレージやカタログ、認可機能というイメージです。
環境の詳細画面
環境またはデータレイクの一覧から環境をクリックすると、環境の詳細画面を確認できます。
環境の詳細画面では、以下を行うことができます。
- 環境およびデータレイクの状態の確認
- 環境およびデータレイクの停止、起動、削除
- 環境およびデータレイクのCRN(リソースID)の確認
画面下部の Data Lake タブや Summary タブで、この環境やデータレイクに紐づく資源の詳細や、イベント履歴などを確認することができます。
<Data Lake タブ - データレイクに関する履歴情報等>

ユーザー管理画面
ユーザー管理画面では、ユーザーやグループの情報を管理することができます。
ユーザーやグループ情報自体の作成や管理は外部のIDプロバイダーに片寄せすることが推奨されており、ここではそれらのグループやユーザーが「コントロールプレーン上のどの機能にアクセスできるか」を編集することができます。
外部IDプロバイダーとの接続について
外部IDプロバイダーは、SAML認証に対応しているものであれば連携可能で、メジャーなものでは Okta や EntraID、無料で利用できるオープンソースのソリューションであれば Keycloak といった選択肢があります。
外部のIDプロバイダとの接続は、以下の手順で管理者が行います。
外部IDプロバイダとの接続設定は、管理画面の Environment > User Management > Identity Providers から行います。
「Create Identity Provider」をクリックすると以下の画面が出てきますので、SAML認証用のメタデータを設定します。
共有リソース - credential
マネジメントコンソールの Shared Resources メニュー配下の Credentials から、資格情報の一覧を参照することができます。
この資格情報は、クラウドプロバイダー(AWS、Azure、GCP)とのクロスアカウント認証をとるために、それぞれのクラウドプロバイダーに環境を作成する前に登録しておく必要があります。
資格情報の登録手順は、下記のドキュメントを参照してください。
ドキュメントのタイトルに Deprecated(廃止)とありますが、これは環境をデプロイするための Cloud Formation のテンプレートを Cloudera がもう更新していないという意味での deprecate です。資格情報の登録の手順は変わっておらず、こちらのものが画面イメージつきでわかりやすいのでリンクを掲載しています。
各種メニューごとの管理機能
以下のサービスメニューは、コントロールプレーンから管理を行うことができます。
例えばデータウェアハウスであれば、以下のような画面があり、アカウントに紐づくデータウェアハウスの一覧や、データウェアハウス機能の有効化・無効化、クラスタの作成・管理・停止・起動・削除等を行うことができます。
サービス用のコンテナを作成する際に指定するパラメータはサービスごとに異なりますが、コントロールプレーンから以下のことができるという点は共通です。
- 環境に対して、サービスを有効/無効にするかの設定
- 例:環境Aに対して、データウェアハウスのサービスを有効にする/無効にする
- 例:環境Bに対して、データエンジニアリングのサービスを有効にする/無効にする
- サービスが有効化された環境の上に、計算クラスタを構築する/削除する
- 計算クラスタの設定変更
- 計算クラスタのタイプの選択
- オートスケーリングの上限と下限の選択
- 自動停止の有効化/無効化 等
補足
上記の機能を見ると、「コントロールプレーンが命令を出して自社クラスタを操作している」ように一見みえますが、実際にはCCM(Cluster Connectivity Manager)を利用することで、通信は外向き(自社クラスタからコントロールプレーンへの通信)となっています。
コントロールプレーンでは、クラスタから送信されたハートビート等の情報をもとに、クラスタの状態を表示します。
Cloudera を利用する際、利用するサービスによって外向きの通信を許可する必要があるのはこの理由によります。
CCMについては、Cloudera ドキュメントを翻訳した以下の記事もあわせてご参照ください。
















