hadoop
Azure
Spark
Hortonworks

Azureで、Hortonworks Sandboxを使い、Hadoop、Sparkを試してみよう

More than 1 year has passed since last update.

Hortonworksは、エンタープライズ企業向けの完全にオープンなデータプラットフォームの開発・提供・サポートを行う会社です。あらゆるデータを管理することをミッションとし、 Apache Hadoop、NiFi そして Spark などのオープンソースのコミュニティにおいてイノベーシ ョンをドライブすることにフォーカスしています。Hortonworksが提唱するConnected Data Platforms はdata-in-motion(流れているデータ)および、data-at-rest(蓄積されたデータ)など全てのデータから、新たな価値創生を支える次世代データアプリケーションを実現します。Hortonworksは 1,600を超えるパートナーと共に、専門知識、トレーニング、サービスなどをあらゆる分野のビジネスにおいて提供します。
 2016-09-30 23.45.01.png

Hortonworks Data Platformは、Apache Hadoop / Sparkを中核においた、100%オープンなエンタープライズ向けのデータ蓄積、分析プラットフォームです。
3 HDP.png

Hortonworks DataFlowは、Apache NiFi / Apache Kafka / Apache Stormを中核においた、100%オープンなエンタープライズ向けのデータフローオーケストレーションです。
8 HDF.png


Sandboxデプロイ手順

開発者プログラム特典のサブスクリプションを利用すれば、毎月3000円の無料枠を利用できるので、下記ブログを参照しながら、登録しておくといいでしょう。通常は、30円程度/時の課金となります。
https://satonaoki.wordpress.com/2016/02/05/vs-dev-essentials-azure/

  1. Azureにサインアップ
    https://azure.microsoft.com/

  2. Azureの管理ポータルにログイン
    https://portal.azure.com

  3. Network Security Groupの作成
    ダッシュボードより、[その他のサービス] - [Network Security Group]をクリックし、追加をクリックし、任意の名前で、Network Security Groupを作成
    image

  4. 必要なポートのオープン
    下記の必要なポートをオープンする。

    • 22 ssh
    • 6080 Ranger
    • 8080 Ambari
    • 8888 Dashboard
    • 9995 Zeppelin image
  5. Marketplaceを検索してアクセス
     2016-09-29 19.00.21.png

  6. Hortonworksで検索して、「Hortonworks Sandbox with HDP 2.4 2.5」を選択
     2016-09-29 19.00.38.png

  7. 作成ボタンをクリック
     2016-09-29 19.00.54.png

  8. 仮想マシンの設定行い、スクロールダウン
     2016-09-29 19.03.41.png

  9. 仮想マシンの設定を行い、OKボタンをクリック
     2016-09-29 19.03.45.png

  10. DS11_V2 Standard (15円/時程度)を選択
    他のマシンタイプを選択してもいいが、あまりスペックの低いものだと動作しないので注意
    image.png

  11. オプションの構成
    ※注意: ネットワークセキュリティグループで、先ほど作成したNetwork Security Groupを選択
     2016-09-29 19.04.31.png

  12. 設定の検証
     2016-09-29 19.04.41.png

  13. 設定を確認し購入ボタンをクリック
     2016-09-29 19.04.50.png

  14. ダッシュボードに戻ってデプロイを待つ
     2016-09-29 18.59.55.png

  15. 作成されたことを確認(実行中というステータスになる)
     2016-09-29 19.05.16.png

  16. http://SandboxのIPアドレス:8888 にアクセスして、必要な情報を入力して、Submitをクリック
     2016-09-29 19.06.59.png

  17. http://SandboxのIPアドレス:8080 にアクセス
    user / password: raj_ops / raj_ops でログイン (maria_devではない)
     2016-09-29 19.14.34.png

  18. Ambari(クラスタ管理)のダッシュボードが表示
     2016-09-30 23.26.29.png

  19. Hive ビューで簡単なビジュアライズ
     2016-09-30 23.27.29.png

  20. HDFS Filesビューでファイル管理
     2016-09-30 23.28.15.png

それでは、チュートリアルに沿って、データ活用の旅に出ましょう。


補足情報

  • hdfsなどのコマンドを使用する場合は、AzureのSandboxは、Azure VM上のDocker環境に作成されていますので、Azure VMにSSHでログインし、さらにSSHでDockerコンテナにログインします。
[horton@sandbox ~]$ ssh root@127.0.0.1 -p 2222
root@127.0.0.1's password: hadoop
You are required to change your password immediately (root enforced)
Last login: Fri Apr 14 09:28:07 2017 from 172.17.0.1
Changing password for root.
(current) UNIX password: hadoop
New password: 新しいパスワード
Retype new password: 新しいパスワード
  • HDF (NiFI)をAmbariから追加して、Webアプリケーションなどを簡易的に立ち上げる場合、Portを9095など自由に設定すると、connection refusedで拒否される場合があります。色々な理由が考えられますが、そのうちの一つに、Dockerのポートフォワーディングが設定されていない事が考えられます。Sandboxを起動する際のスクリプトを確認して、ポートフォワーディングの設定を確認して、必要なポートを追加し、再起動します。(参考: OPENING SANDBOX PORTS ON AZURE)
vi /root/start_scripts/start_sandbox.sh
  • Ambariにadminで接続したい場合。
    1. sshでsandboxに接続
    2. 下記コマンドでパスワードを設定
 # ambari-admin-password-reset
 # ambari-agent restart