Edited at

Azureで、Hortonworks Sandboxを使い、Hadoop、Sparkを試してみよう

More than 1 year has passed since last update.

Hortonworksは、エンタープライズ企業向けの完全にオープンなデータプラットフォームの開発・提供・サポートを行う会社です。あらゆるデータを管理することをミッションとし、 Apache Hadoop、NiFi そして Spark などのオープンソースのコミュニティにおいてイノベーシ ョンをドライブすることにフォーカスしています。Hortonworksが提唱するConnected Data Platforms はdata-in-motion(流れているデータ)および、data-at-rest(蓄積されたデータ)など全てのデータから、新たな価値創生を支える次世代データアプリケーションを実現します。Hortonworksは 1,600を超えるパートナーと共に、専門知識、トレーニング、サービスなどをあらゆる分野のビジネスにおいて提供します。

 2016-09-30 23.45.01.png

Hortonworks Data Platformは、Apache Hadoop / Sparkを中核においた、100%オープンなエンタープライズ向けのデータ蓄積、分析プラットフォームです。

3 HDP.png

Hortonworks DataFlowは、Apache NiFi / Apache Kafka / Apache Stormを中核においた、100%オープンなエンタープライズ向けのデータフローオーケストレーションです。

8 HDF.png



Sandboxデプロイ手順

開発者プログラム特典のサブスクリプションを利用すれば、毎月3000円の無料枠を利用できるので、下記ブログを参照しながら、登録しておくといいでしょう。通常は、30円程度/時の課金となります。

https://satonaoki.wordpress.com/2016/02/05/vs-dev-essentials-azure/


  1. Azureにサインアップ

    https://azure.microsoft.com/


  2. Azureの管理ポータルにログイン

    https://portal.azure.com


  3. Network Security Groupの作成

    ダッシュボードより、[その他のサービス] - [Network Security Group]をクリックし、追加をクリックし、任意の名前で、Network Security Groupを作成

    image



  4. 必要なポートのオープン

    下記の必要なポートをオープンする。


    • 22 ssh

    • 6080 Ranger

    • 8080 Ambari

    • 8888 Dashboard

    • 9995 Zeppelin
      image



  5. Marketplaceを検索してアクセス

     2016-09-29 19.00.21.png


  6. Hortonworksで検索して、「Hortonworks Sandbox with HDP 2.4 2.5」を選択

     2016-09-29 19.00.38.png


  7. 作成ボタンをクリック

     2016-09-29 19.00.54.png


  8. 仮想マシンの設定行い、スクロールダウン

     2016-09-29 19.03.41.png


  9. 仮想マシンの設定を行い、OKボタンをクリック

     2016-09-29 19.03.45.png


  10. DS11_V2 Standard (15円/時程度)を選択

    他のマシンタイプを選択してもいいが、あまりスペックの低いものだと動作しないので注意

    image.png


  11. オプションの構成

    ※注意: ネットワークセキュリティグループで、先ほど作成したNetwork Security Groupを選択

     2016-09-29 19.04.31.png


  12. 設定の検証

     2016-09-29 19.04.41.png


  13. 設定を確認し購入ボタンをクリック

     2016-09-29 19.04.50.png


  14. ダッシュボードに戻ってデプロイを待つ

     2016-09-29 18.59.55.png


  15. 作成されたことを確認(実行中というステータスになる)

     2016-09-29 19.05.16.png


  16. http://SandboxのIPアドレス:8888 にアクセスして、必要な情報を入力して、Submitをクリック

     2016-09-29 19.06.59.png


  17. http://SandboxのIPアドレス:8080 にアクセス

    user / password: raj_ops / raj_ops でログイン (maria_devではない)

     2016-09-29 19.14.34.png


  18. Ambari(クラスタ管理)のダッシュボードが表示

     2016-09-30 23.26.29.png


  19. Hive ビューで簡単なビジュアライズ

     2016-09-30 23.27.29.png


  20. HDFS Filesビューでファイル管理

     2016-09-30 23.28.15.png


それでは、チュートリアルに沿って、データ活用の旅に出ましょう。



補足情報


  • hdfsなどのコマンドを使用する場合は、AzureのSandboxは、Azure VM上のDocker環境に作成されていますので、Azure VMにSSHでログインし、さらにSSHでDockerコンテナにログインします。

[horton@sandbox ~]$ ssh root@127.0.0.1 -p 2222

root@127.0.0.1's password: hadoop
You are required to change your password immediately (root enforced)
Last login: Fri Apr 14 09:28:07 2017 from 172.17.0.1
Changing password for root.
(current) UNIX password: hadoop
New password: 新しいパスワード
Retype new password: 新しいパスワード


  • HDF (NiFI)をAmbariから追加して、Webアプリケーションなどを簡易的に立ち上げる場合、Portを9095など自由に設定すると、connection refusedで拒否される場合があります。色々な理由が考えられますが、そのうちの一つに、Dockerのポートフォワーディングが設定されていない事が考えられます。Sandboxを起動する際のスクリプトを確認して、ポートフォワーディングの設定を確認して、必要なポートを追加し、再起動します。(参考: OPENING SANDBOX PORTS ON AZURE)

vi /root/start_scripts/start_sandbox.sh


  • Ambariにadminで接続したい場合。


    1. sshでsandboxに接続

    2. 下記コマンドでパスワードを設定



 # ambari-admin-password-reset

# ambari-agent restart