HortonWorksってデータ分析の何かだよね?
ぐらいの認識だった私が、Hortonworksに触れてみました。
この記事の内容を三行で
- Hortonworksのsandboxは、様々なデータ分析が楽しめる
- Microsoft Azureを使えば、ボタンぽちぽちですぐ使える
- チュートリアルが充実(・・・しすぎてどれを始めればいいか迷った)
はじめるまえに
Hortonworksって何かのサービスの名前?
それとも会社の名前?
Hortonworks
http://jp.hortonworks.com/
なるほど
- Hortonworksは会社名
- Hortonworksのwは小文字
- 企業の持っているデータをいい感じに活用する何かを提供している
いい感じに活用する何かは試せるのかな?
と「製品」を見ると
sandboxを使ったチュートリアルというものがあったので、
ここからはじめてみました。
Azureでsandboxのデプロイ
Azureでsandbox環境を作ってみることにしてみます。
デプロイ方法については、以下の記事を参考に作成しました。
Hadoop、Sparkを、Azure上のHortonworks Data Platformで試してみよう
http://qiita.com/kkitase/items/1d2e4662c2e8c9b0fd59
テンプレートからデプロイするときの説明文を読んでみると
Sandbox comes with over fifty hands-on tutorials that will guide you through the Hadoop, Spark, Storm, HBase, Kafka, Hive, Ambari and YARN; tutorials built on the experience gained from training thousands of people in our Hortonworks University Training classes.
If you are new to Hadoop, HDP and the Sandbox we suggest sequence of tutorials to get started:
sandbox環境は、たくさんのチュートリアルが楽しめるのですね!
http://<Azureで割り振られたパブリックIPアドレス>:8080/
にアクセスすると、Ambariという管理ポータルにアクセスできました。
初期ユーザIDとパスワードの
maria_dev / maria_dev
を入力することで、ログインできます。
セットアップを進めてみる
sandboxのセットアップを進めていきます。
http://jp.hortonworks.com/hadoop-tutorial/learning-the-ropes-of-the-hortonworks-sandbox/
2.1 SETUP AMBARI ADMIN PASSWORD MANUALLY
AmbariのAdminパスワードの再設定と再起動を行います。
$ sudo ambari-admin-password-reset
Please set the password for admin:
Please retype the password for admin:
The admin password has been set.
Restarting ambari-server to make the password change effective...
Using python /usr/bin/python2
Restarting ambari-server
Using python /usr/bin/python2
Stopping ambari-server
Ambari Server stopped
Using python /usr/bin/python2
Starting ambari-server
Ambari Server running with administrator privileges.
Organizing resource files at /var/lib/ambari-server/resources...
Server PID at: /var/run/ambari-server/ambari-server.pid
Server out at: /var/log/ambari-server/ambari-server.out
Server log at: /var/log/ambari-server/ambari-server.log
Waiting for server start....................
Ambari Server 'start' completed successfully.
$ sudo ambari-agent restart
Restarting ambari-agent
Verifying Python version compatibility...
Using python /usr/bin/python2
Found ambari-agent PID: 3262
Stopping ambari-agent
Removing PID file at /var/run/ambari-agent/ambari-agent.pid
ambari-agent successfully stopped
Verifying Python version compatibility...
Using python /usr/bin/python2
Checking for previously running Ambari Agent...
Starting ambari-agent
Verifying ambari-agent process status...
Ambari Agent successfully started
Agent PID at: /var/run/ambari-agent/ambari-agent.pid
Agent out at: /var/log/ambari-agent/ambari-agent.out
Agent log at: /var/log/ambari-agent/ambari-agent.log
では、Ambariにもう一度サインインしてみます。
admin / 設定したパスワード
adminで入ることができ、
上メニューのAdminという項目を使えるようになりました。
Hadoopチュートリアルを試してみる
膨大なチュートリアルが存在します。
http://jp.hortonworks.com/tutorials/
が、他のチュートリアルは、前提条件の知識が必要のようなので、
まずは初心者向けのこちらを進めてみます。
Hadoop Tutorial - Getting Started with HDP
http://hortonworks.com/hadoop-tutorial/hello-world-an-introduction-to-hadoop-hcatalog-hive-and-pig/
上記ページのリンクから、「Geolocation.zip」というデータをダウンロードして解凍します。
中身はcsvが2つ。このデータを可視化するまでがチュートリアルのようですね。
チュートリアルの通りに進めていきます。
Ambariを開き、左上のメニューから、「HDFS Files」を選びます。
userを選択
maria_devを選択
右上のNew Directoryを選択
dataディレクトリを作成
さらに、dataディレクトリの下に移動して
Geolocationに入っていたcsvをUpload!
でん!
一つ上の階層に戻って、dataフォルダの上で右クリック。
Permissionsを選択します。
Writeをクリックして、青色にして保存します。
↓
これでHDFSにデータをロードするところまでできました。
続きでは、データのテーブル化や分析が始まるようです。
チュートリアルは英語ですが、図や説明も多く、
ここまではとてもわかりやすく進めることができました。
・・・挫折しないようにします。