7月から Hortonworks というHadoopの会社に入社しました。
前職でもHadoopを触っていたり、HBase徹底入門という本を出したりしてましたが、HDPを触っていたわけでもなく、Hortonworksがサポートするプロダクトも結構多いので、勉強がてらそれらを調べたり動かしたりしたことを投稿していこうと思います。
ということで、今回はHDPを動かしてみます。
ちなみに、Hadoopに関わってる方ならご存知の方は多いと思いますが、HDPはHortonworks Data Platformの略で、Hortonworksが提供するHadoopディストリビューションです。その他のHadoopディストリビューションとしては、Clouderaが提供するCDHや、IBMが提供するIBM BigInsights for Apache Hadoopなどがあります。
HDPの詳細については以下をご覧ください。
https://hortonworks.com/products/data-center/hdp/
また、Hortonworksでは、「Hortonworks Sandbox」というHDPを簡単にVMやクラウド上で試すことのできるイメージを提供しています。今回はこれを使ってVirtualBox上でHDPを動かそうと思います。
VirtualBoxは下記からインストールできます。
https://www.virtualbox.org/
HDPのイメージをダウンロードする
まずは、HDPのイメージをダウンロードしてきます。
今回は現時点(2016/7/20)での最新版のHDP2.4のイメージをダウンロードします。
下記URLの「HDP® 2.4 on Hortonworks Sandbox」の「DOWNLOAD FOR VIRTUALBOX」からダウンロードできます。
http://hortonworks.com/downloads/#data-platform
容量が大きいので結構時間がかかります。
HDPのイメージを起動する
ダウンロードしたイメージをVirtualBoxでインポートして起動します。
起動が完了すると以下の画面が表示されます。
指示通り、http://127.0.0.1:8888/ をブラウザで開くと以下のような画面が出てきます。
AmbariのURLやusername、passwordが表示されてます。
それ以外にも、「View Advanced Options」をクリックすると、AtlasやZeppelin等のURLが表示されました。
軽くAmbariを覗いてみたら以下のプロダクトが最初から入っているようです。
- HDFS
- MapReduce2
- YARN
- Tez
- Hive
- HBase
- Pig
- Sqoop
- Oozie
- Zookeeper
- Falcon
- Storm
- Flume
- Ambari Metrics
- Atlas
- Kafka
- Knox
- Ranger
- Slider
- Spark
- Zeppelin Notebook
まとめ
今回はHortonworks Sandboxを使って、HDPをVirtualBox上で動かしてみました。特にハマリどころもなくすんなり動かすことができました。