Cloudera Manager Advent Calendar 2015の一日目です。
Cloudera Manager(以下CM)はHadoopクラスタのインストール、管理を容易にしてくれるアプリケーションです。アーキテクチャは以下のとおり、CM ServerとAgentが通信し合う構成になっています。
CMを使えば、10ノードだろうが1000ノードだろうが、Apache KafkaだろうがApache Sparkをインストールしようが、すべてウィザードを通じてクラスタを構築することが可能です。クラスタの構築後は、core-site.xmlやhdfs-site.xmlなど必要な設定の配布、JAVA_HOMEなどの環境変数の設定をすべてCMが行ってくれます。また、収集したメトリクスをベースにチャートを表示する機能もあり、運用効率が格段にあがるのが特徴です。UIがほぼすべて日本語化されているのも嬉しいポイントでしょう。
さて、CMでは大きくわけて、サーバ設定とクライアント設定という考え方で設定ファイルを管理します。本ポストでは、最新のCM 5.5をベースにして両者の違いについて説明してみます。なお、下記公式ドキュメントを参考にしています。
Cloudera Manager 5 Overview
http://www.cloudera.com/content/www/en-us/documentation/enterprise/latest/topics/cm_intro_primer.html
そもそも設定はどこに格納されているか
CMでは、すべての設定変更をUI上で行います。
そして、すべての設定内容はバックエンドのデータベースに保存されます。本番環境であれば、MySQLやPostgreSQLあるいはOracleを使用するのが一般的でしょう。
参考:
Cloudera Manager and Managed Service Data Stores
http://www.cloudera.com/content/www/en-us/documentation/enterprise/latest/topics/cm_ig_installing_configuring_dbs.html
サーバ設定
本題です。サーバ設定とは、クラスタで動作する実際のプロセスが使用する設定です。たとえば、HDFSのネームノードやデータノード、YARNであればResourceManagerやNodeManagerとなります。CM管理下のクラスタでは、プロセスの起動停止にinitスクリプトを使用しません。代わりにsupervisordがプロセスの起動停止を管理しています。ここでは、プロセス起動時のステップを紹介しながらサーバ設定がどのようなものか、見ていきましょう。
-
起動を選択すると、CM Serverはデータベースに保存された最新の設定を読みだし、適切なxmlファイルやconfファイルを生成します
-
CM Serverは、生成した設定をプロセスが起動するホストのCM Agentへ配布します
-
設定ファイルを受け取ったAgentは、/var/run/cloudera-scm-agent/process配下に新たなディレクトリを生成し、すべての設定を格納します。このディレクトリはネームノードであれば[数字]-hdfs-NAMENODE、HiveServer2であれば[数字]-hive-HIVESERVER2といったディレクトリ名になります。数字は起動のたびにインクリメントされ、ある時点で最大の数字をもつディレクトリが、起動中のプロセスが使用している設定ファイル群を格納するディレクトリということになります
-
設定ファイルを格納すると、Agentはsupervisordにプロセスの起動を命じます
-
supervisordは最新のディレクトリから設定を読み込み、プロセスを起動します
プロセスが一度起動すると、/var/run以下の設定ファイルをいくら変更しようが設定は反映されません。反映するにはCMから再起動する必要があります。設定が変更され、再起動が必要な場合には以下のアイコンで通知されます。
クライアント設定
さて、サーバ設定が/var/run以下に保持される一方で、CMでは/etc/hadoopや/etc/hiveなどのディレクトリにも設定を配布します。CMを使わずに構築した環境では、すべての設定ファイルを/etc配下で管理しているケースが多いのではないでしょうか。CM環境下では、/etc配下のファイルはクライアントからのみ使用されます。ここでのクライアントとは、hdfs dfsやhdfs dfsadminなどを実行するHDFSクライアント、あるいはbeelineを実行するHiveクライアントなどを意味します。この設定は、「クライアント設定の展開」を実行することでクラスタのホストに配布されます。
クライアント設定が更新され、展開が必要な場合には以下のアイコンで通知されます。
本ポストでは、CMを使い始めた方が疑問に抱きがちなサーバ、クライアント設定の違いについて簡単に紹介しました。Hadoopのように複数のホストが協調しあって動作するシステムでは、全てのサーバプロセスが必ず同じ設定を使うように管理することはとても重要です。サーバ側とクライアント側で設定ファイルを区別することで、クライアントが何らかの理由で変更した設定をサーバデーモンが次回起動時に読み込んでしまわないよう、CMでは保証しています。