AWS
hadoop
HDP
Hortonworks

Hadoop (HDP) を0から構築する方法

Hadoop環境を構築したい

皆さんは自分用のHadoop環境をどの様に構築されていますか?
色んな方法があるようですが入り口からいろいろ模索してしまいました。
調査不足の面もあったり、構築の方法論にとどめていたりしますがご一読いただければと思います。

主な方法

  1. ローカルVMでSandoBox
  2. AzureでSandBox
  3. AWSでSandBox
  4. Hortonworks Data Cloud
  5. Ambariから構築

1. ローカルVMでSandoBox

Hortonworks Sandbox with VirtualBoxによると、メモリが自分のPCには厳しかったです。
最小4GB、AmbariやHBaseなどもろもろ載せるとホストOSに10GB、Sandboxに8GBが必要。

2.AzureでSandBox

kkitaseさまの記事が明快です。
Azureで、Hortonworks Sandboxを使い、Hadoop、Sparkを試してみよう
自分もこの方法は良いなと思いやってみましたが少し自分のほしい環境と異なっていました。
- HDP2.5が提供されている(2017/8/17現在) →希望はHDP2.6(現バージョン)
- Hive2が入ってなかったです。(HDP2.5では入っていない)
- 最小4ノード構成(仮想サーバーを4台使う)

3. AWSでSandBox

CommunityサイトHCCに似たような質問がありました。
HDP Sandbox on AWS?
ローカルVMをDLしてAWSのインストールイメージ(AMI)として使うのですが、AMIのところが自分には難しく、入力出来ない項目があり。
また、1回だけの作業ですが、10GB程度ローカルにDLするのとバケツにUPするのが一手間。
wgetとかできればいいのですが。

4. Hortonworks Data Cloud

手順など以下から。
Hortonworks Data Cloud
これは簡単でした。拡張の方法も同様に簡単です。
- 最小4ノード構成(仮想サーバーを4台使う)
- Hortonworksのソフトウェア・ライセンス費用が必要(若干ですが)

できれば

今更ですがこんなのは無いのかなと?
- 最新のVersionで
- 1台構成が可能で(自由に選択できる意味で)
- 構築手順がシンプルで
- 拡張時も同様の手順が使えて
- HiveやPigやecosystemのアプリ群はいろいろ入れたい
- 若干の費用は良いとして

5. Ambariから構築

そこでこれです。
あっさりAmbariから構築しちゃいましょう。
Ambariとはざっくり言うとHadoopの管理モジュールです。
yumで最新版を入れれます。アプリもクラスタ構成も好きにできます。1台でOKです。
Apache Ambari Installation
私はAWSのAmazon Linuxで構築しましたが問題なく、上述した自分の希望に一番あっている気がしました。

何かのお役に立てれば。

8/29 イントロの文言修正