AWSやGCPにさくっとHadoopクラスターを立てられるCloudera Directorですが、皆さん使っているでしょうか?
一つのDirectorサーバーからマルチCloudをまたいでクラスターを立てたり、ノード数の変更もお手軽にできたりととても簡単なので、是非試してみてください。
なお、僕はこの動画を見て試してみて、その日のうちにClusterを管理できるようになっていました。
https://vimeo.com/120721587
導入方法は以下が参考になります。
- 公式(英語だけど、step by stepでめっちゃ丁寧)
- 日本語の説明(補足的に見るといい)
ちなみに、今回はAWSで試しましたが、インスタンスは以下のようにしました。
- Directorサーバー: c4.large
- Cloudera Manager, masterサーバー: m4.xlarge, root volume: gp2 50GB
- workerサーバー: m4.xlarge, root volume type: standard 100GB
この設定中で、一点だけハマったところがありました。
現在、最新のCDHは5.7.1なのですが、Cloudera Director 2.0ではCDH 5.5が入ってしまいます。
2箇所設定をするだけで、CDH 5.7が入れることができます。 が、凄い気づきにくいので やり方を共有します。
設定ポイント
- Cloudera ManagerのRepository URL
- Default ParcelのRepository URL
Cloudera ManagerのRepository URL
デフォルトでは、レポジトリURLの設定が出てきません。
なので、Configurations (optional)
を選び Override default Cloudera Manager repository
というチェックボックスにチェックを入れます。
すると、Cloudera ManagerのレポジトリURLの設定が出てくるので、 Exampleをコピーして、5.5
とあるのを5.7
に置換しましょう。
今回は http://archive.cloudera.com/cm5/redhat/6/x86_64/5.7/
としました。
Default ParcelのRepository URL
Cloudera Managerでは、HiveやSparkなどの各コンポーネントはParcelで管理されています。yumのrpmやapt-getのdebみたいな感じです。
それのリポジトリも、デフォルトだと5.5を向いているので、5.7にしないといけません。
Cloudera Managerの立ち上げ後、masterやworkerのインスタンスを起動する際にオプションで与えます。
例によって、Override default parcel repositories
にチェックを入れます。

すると、parcelレポジトリのURLが指定できるようになるので、Cloudera Managerと同様にExampleをコピーして5.5
を5.7
に置換します。
今回は http://archive.cloudera.com/cdh5/parcels/5.7/
といれます。

これでCDH 5.7でGAになった Hive on Sparkも試したい放題ですね!