Cloudera Manager Advent Calendar 2015の9日目です。
去る11/10に開催されたCloudera World Tokyo 2015で、Troubleshooting Using Cloudera Managerと題して講演させていただきました。内容は、Clouderaサポートチームの拡大とCloudera Manager(以下CM)の変遷、ならびにClouderaのエンジニアがCMをどのようにトラブルシューティングに役立てているのか、というものでした。資料は以下で公開されているのですが、本ポストでは補足の意味合いも含めて簡単に内容を振り返ってみたいと思います(なお、画面ショットは発表当時最新のCM 5.4のものをとなっています)。
Cloudera Managerとは何であるか
CMは、Hadoop(Spark含む)クラスタを構築、運用するために開発されているGUIツールです。Cloudera社内には専任のUIチームもあるほどデザインには気を配っていますので、非常に統一感のあるUIになってます。加えて便利な機能もたくさん備えています。なぜCMがユーザや我々サポートエンジニアのトラブルシューティングを支えているのか、それはこの洗練されたUIと豊富な機能によるところが大きいと言えるでしょう。
一方、CMを使いこなすには、CMではできないことを理解する必要があります。
Cloudera Managerとは何でないか
CMはコマンドラインツールではありません。クラスタに対する操作は原則としてGUIから行います(内部的に実行されているコマンドはGUIから確認できますが)。また、CMはクエリを実行したり、ジョブのワークフローを管理するようなツールではありません。スレッドダンプの取得はしてくれますが、侍やスレッドダンプアナライザのような解析機能はありません。CMにもできることとできないことがあります。それらを理解して、CMでできることは任せてしまった方が運用や障害解析が楽になります。
Cloudera Managerとトラブルシューティング
世の中のトラブルシューティングの現場では、まず大まかに何が起こってるのか概要を把握して、自分の経験や観察したことをもとに少しずつドリルダウンしていくのが定石かと思います。Hadoopでも同じで、まず全体像を正確に把握する必要があります。その後、複数のホストから構成されるHadoopクラスタでは、「どこに」「どの順序で」ドリルダウンしていくか、が非常に重要です。これを見誤ると迷ってしまうのですが、CMは、その道しるべになるようなツールだと思ってます。
CMのホームページはこのような画面になっています。クラスタでどのようなサービスが稼働しているか、ヘルスに問題がありそうか、直近のメトリクスの時系列変化はどうなっているか(チャート)、をひと目で理解できるシンプルなデザインです。
さて、ここではHDFSのサービスヘルスがオレンジ色(警告を意味する)になっています。HDFSのリンクをクリックすると、HDFSに特化した画面が表示されます。たとえば各NameNode WebUIへのリンクや、HDFSのチャート、直近のヘルステストの結果などが確認できることがわかるでしょう。
ここでも問題がありそうな箇所は一目瞭然で、DataNodeとJournalNodeでスワップが発生していることがわかります。DataNodeで懸念とされているリンクをクリックしてみましょう。特定のDataNodeに特化した情報が確認できることがわかります。ログファイルやホストページへのリンク、このDataNodeに特化したチャートなどが表示されています。必要に応じてブラウザ上でログを開いて確認することも可能です。
以上、非常にシンプルな例ですが、全体を俯瞰し、ひとつずつドリルダウンする様子を紹介しました。問題が複雑になっても、トラブルシューティングの基本方針は変わりません。また、デザインが洗練されているため、すべての操作に統一感があります。
最後に
CMはクラスタ管理者のためだけのツールと思われがちですが(実際に管理者に嬉しいツールなのですが)、アプリ開発者やHadoopエコシステムのコミッタであっても、検証のために簡単にCDHクラスタを構築したいときには使わない手はないでしょう。
CMは以下からダウンロード可能になっています。
また、インストール方法もいくつか選択肢があるので、要件にあわせて選ぶとよいでしょう。