LoginSignup
12

More than 5 years have passed since last update.

Azureで、Hortonworks Sandboxを使い、Hadoop、Sparkを試してみよう

Last updated at Posted at 2016-09-29

Hortonworksは、エンタープライズ企業向けの完全にオープンなデータプラットフォームの開発・提供・サポートを行う会社です。あらゆるデータを管理することをミッションとし、 Apache Hadoop、NiFi そして Spark などのオープンソースのコミュニティにおいてイノベーシ ョンをドライブすることにフォーカスしています。Hortonworksが提唱するConnected Data Platforms はdata-in-motion(流れているデータ)および、data-at-rest(蓄積されたデータ)など全てのデータから、新たな価値創生を支える次世代データアプリケーションを実現します。Hortonworksは 1,600を超えるパートナーと共に、専門知識、トレーニング、サービスなどをあらゆる分野のビジネスにおいて提供します。
 2016-09-30 23.45.01.png

Hortonworks Data Platformは、Apache Hadoop / Sparkを中核においた、100%オープンなエンタープライズ向けのデータ蓄積、分析プラットフォームです。
3 HDP.png

Hortonworks DataFlowは、Apache NiFi / Apache Kafka / Apache Stormを中核においた、100%オープンなエンタープライズ向けのデータフローオーケストレーションです。
8 HDF.png


Sandboxデプロイ手順

開発者プログラム特典のサブスクリプションを利用すれば、毎月3000円の無料枠を利用できるので、下記ブログを参照しながら、登録しておくといいでしょう。通常は、30円程度/時の課金となります。
https://satonaoki.wordpress.com/2016/02/05/vs-dev-essentials-azure/

  1. Azureにサインアップ
    https://azure.microsoft.com/

  2. Azureの管理ポータルにログイン
    https://portal.azure.com

  3. Network Security Groupの作成
    ダッシュボードより、[その他のサービス] - [Network Security Group]をクリックし、追加をクリックし、任意の名前で、Network Security Groupを作成
    image

  4. 必要なポートのオープン
    下記の必要なポートをオープンする。

    • 22 ssh
    • 6080 Ranger
    • 8080 Ambari
    • 8888 Dashboard
    • 9995 Zeppelin image
  5. Marketplaceを検索してアクセス
     2016-09-29 19.00.21.png

  6. Hortonworksで検索して、「Hortonworks Sandbox with HDP 2.4 2.5」を選択
     2016-09-29 19.00.38.png

  7. 作成ボタンをクリック
     2016-09-29 19.00.54.png

  8. 仮想マシンの設定行い、スクロールダウン
     2016-09-29 19.03.41.png

  9. 仮想マシンの設定を行い、OKボタンをクリック
     2016-09-29 19.03.45.png

  10. DS11_V2 Standard (15円/時程度)を選択
    他のマシンタイプを選択してもいいが、あまりスペックの低いものだと動作しないので注意
    image.png

  11. オプションの構成
    ※注意: ネットワークセキュリティグループで、先ほど作成したNetwork Security Groupを選択
     2016-09-29 19.04.31.png

  12. 設定の検証
     2016-09-29 19.04.41.png

  13. 設定を確認し購入ボタンをクリック
     2016-09-29 19.04.50.png

  14. ダッシュボードに戻ってデプロイを待つ
     2016-09-29 18.59.55.png

  15. 作成されたことを確認(実行中というステータスになる)
     2016-09-29 19.05.16.png

  16. http://SandboxのIPアドレス:8888 にアクセスして、必要な情報を入力して、Submitをクリック
     2016-09-29 19.06.59.png

  17. http://SandboxのIPアドレス:8080 にアクセス
    user / password: raj_ops / raj_ops でログイン (maria_devではない)
     2016-09-29 19.14.34.png

  18. Ambari(クラスタ管理)のダッシュボードが表示
     2016-09-30 23.26.29.png

  19. Hive ビューで簡単なビジュアライズ
     2016-09-30 23.27.29.png

  20. HDFS Filesビューでファイル管理
     2016-09-30 23.28.15.png

それでは、チュートリアルに沿って、データ活用の旅に出ましょう。


補足情報

  • hdfsなどのコマンドを使用する場合は、AzureのSandboxは、Azure VM上のDocker環境に作成されていますので、Azure VMにSSHでログインし、さらにSSHでDockerコンテナにログインします。
[horton@sandbox ~]$ ssh root@127.0.0.1 -p 2222
root@127.0.0.1's password: hadoop
You are required to change your password immediately (root enforced)
Last login: Fri Apr 14 09:28:07 2017 from 172.17.0.1
Changing password for root.
(current) UNIX password: hadoop
New password: 新しいパスワード
Retype new password: 新しいパスワード
  • HDF (NiFI)をAmbariから追加して、Webアプリケーションなどを簡易的に立ち上げる場合、Portを9095など自由に設定すると、connection refusedで拒否される場合があります。色々な理由が考えられますが、そのうちの一つに、Dockerのポートフォワーディングが設定されていない事が考えられます。Sandboxを起動する際のスクリプトを確認して、ポートフォワーディングの設定を確認して、必要なポートを追加し、再起動します。(参考: OPENING SANDBOX PORTS ON AZURE)
vi /root/start_scripts/start_sandbox.sh
  • Ambariにadminで接続したい場合。
    1. sshでsandboxに接続
    2. 下記コマンドでパスワードを設定
 # ambari-admin-password-reset
 # ambari-agent restart

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
12