はじめに
HortonworksのHDPを試そうと思いましたが、PCではリソース不足で試せなかったのでCDH(Cloudera's Distribution including Apache Hadoop)を使ってみることにしました。
HDPもCDHもHadoop周辺のシステムを組み合わせたHadoopディストリビューションです。
HDFS, Hive, Hbaseあたりはどちらでも利用できます。
Part-2はこちら
Part-3はこちら
Part-4はこちら
1. 前提
以下の環境で動作した内容を記述しています。
Windows 10 Home (64bit)
VirtualBox 5.2
CDH 5.12
2. CDHの起動
https://www.cloudera.com/からVMのzipファイルをダウンロードし、任意のフォルダに展開します。
VirtualBoxでovfファイルをインポートし、あとは普通に起動するだけ使えるようになります。
メモリの割り当ては4Gとなっていますので、HortonworksのHDPより少ないメモリで正常に起動します。
※HDPは6Gくらいでも動きが怪しくなりました。
起動するとGUIが立ち上がり、すぐにTutorialが開始できます。
3. SSH接続
VirtualBox内のコンソールで作業するのは少し辛いので、VirtualBoxでPort forwardingの設定をし、自分のPCからPuttyなどでCDHにSSH接続できるようにします。
ここではPort22に対しPort2222で接続できるようにしています。
Puttyで以下のようにLocalhost:2222を接続先に設定し、user id=cloudera, password=clouderaで接続します。
4. ブラウザで接続
自分のPCからブラウザでCDHに接続するのは簡単です。
http://localhost:8888をブラウザに入力すると、Hueに接続できます。
user id=cloudera, password=clouderaでログインします。
http://localhostに接続するとTutorialのページが表示されます。
Part-1はここまでにします。
参考URL
http://datasciesotist.hatenablog.jp/entry/2014/05/10/225809
https://blog.cloudera.com/blog/2014/01/how-to-create-a-simple-hadoop-cluster-with-virtualbox/
http://www.mwsoft.jp/programming/hadoop/cdh4_virtualbox.html