Cloudera Manager Advent Calendar 2015の4日目です。
いまだにHDFSはSPOFガー!という方がいます(本当にいる)。NameNodeのHAはもう3年以上も前に実装されており、本番環境で当たり前のように利用されています。
HA構成への移行はCloudera Managerを使えば簡単です。HA移行ウィザードは美しくシンプルなので、ここで画面ショットと共にで手順を紹介しておきたいと思います。Cloudera Manager 5.5のUIですが、5系であればさほど変わりありません。
準備
- ZooKeeperが起動していること(3台以上の奇数台)
以上です。本番環境での要件を考慮する場合には、ディスクの分離など確認が必須ですが、HAを組むだけであればマスタが3台ありZooKeeperが起動していれば準備完了です。もちろん、ワーカノードは別に走っていることを前提にしています。
詳細なハードウェア要件は以下を参照
http://www.cloudera.com/content/www/en-us/documentation/enterprise/latest/topics/cdh_hag_hdfs_ha_hardware_config.html
ウィザードの実行
HDFSのページにあるアクションメニューから「High Availabilityの有効化」を選択します。
NameNodeの論理名を決めます。デフォルトで「nameservice1」となっています。
2台のNameNodeが稼働するホスト、3台のJournalNodeが稼働するホストを選択します。
editsを書き込むディレクトリを指定します。
以上で、有効化のステップが流れます。あとは待つだけ(中で何が流れているのかは後述します)。
終わりです。本当にこれだけなんです。
具体的に何をしているのか、各ステップを書き出してみました。上の画面ショットでは省略しましたが、これらが順に実行される様子はすべて可視化されています。また、カッコで書いている分は少しわかりにくいかなと思った点のみ私が補足したものです。
- 新しいスタンバイ NameNode の name ディレクトリが存在しないか、書き込み可能で空の状態であることを確認します。
- nameservice の edits ディレクトリが存在しないか、書き込み可能で空の状態であることを確認します。
- ZooKeeper以外のサービスの停止
- ロールを作成して High Availability を有効にしています(JournalNodeの追加です)
- SecondaryNameNode ロールを削除しています。
- NameNode および HDFS サービスを設定して High Availability を有効化しています(設定をレビューして有効にしています)
- Automatic Failover Znode の初期化
- JournalNodes を開始しています
- フォーマット(新規構築時以外は失敗して先に進むようになっています)
- 共有 edits ディレクトリの初期化
- この NameNode の開始(Active NameNode の起動です)
- RPC への応答開始の NameNode 待機(NameNode が起動したか、RPC への応答を待つことで確認しています)
- スタンバイ NameNode のブートストラップ
- この NameNode の開始(Standby NameNode の起動です)
- この Failover Controller の開始(両ノードの Failover Controller を起動します)
- RPC への応答開始の NameNode 待機
- 開始(DataNode やその他のサービスを起動します)
- クライアント設定の展開(詳しくはCloudera Managerが管理する設定ファイルの違いについて
を参考)
最後に
これだけのステップを手動でやるのは負荷以外のなにものでもありません。Cloudera Managerを使ってさっさと終わらせてしまいましょう。
参考: HDFS High Availability
http://www.cloudera.com/content/www/en-us/documentation/enterprise/latest/topics/cdh_hag_hdfs_ha_config.html