17
12

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

Azureで、Hortonworks Sandboxを使い、Hadoop、Sparkを試してみよう

Last updated at Posted at 2016-09-29

Hortonworksは、エンタープライズ企業向けの完全にオープンなデータプラットフォームの開発・提供・サポートを行う会社です。あらゆるデータを管理することをミッションとし、 Apache Hadoop、NiFi そして Spark などのオープンソースのコミュニティにおいてイノベーシ ョンをドライブすることにフォーカスしています。Hortonworksが提唱するConnected Data Platforms はdata-in-motion(流れているデータ)および、data-at-rest(蓄積されたデータ)など全てのデータから、新たな価値創生を支える次世代データアプリケーションを実現します。Hortonworksは 1,600を超えるパートナーと共に、専門知識、トレーニング、サービスなどをあらゆる分野のビジネスにおいて提供します。
 2016-09-30 23.45.01.png

Hortonworks Data Platformは、Apache Hadoop / Sparkを中核においた、100%オープンなエンタープライズ向けのデータ蓄積、分析プラットフォームです。
3 HDP.png

Hortonworks DataFlowは、Apache NiFi / Apache Kafka / Apache Stormを中核においた、100%オープンなエンタープライズ向けのデータフローオーケストレーションです。
8 HDF.png


Sandboxデプロイ手順

開発者プログラム特典のサブスクリプションを利用すれば、毎月3000円の無料枠を利用できるので、下記ブログを参照しながら、登録しておくといいでしょう。通常は、30円程度/時の課金となります。
https://satonaoki.wordpress.com/2016/02/05/vs-dev-essentials-azure/

  1. Azureにサインアップ
    https://azure.microsoft.com/

  2. Azureの管理ポータルにログイン
    https://portal.azure.com

  3. Network Security Groupの作成
    ダッシュボードより、[その他のサービス] - [Network Security Group]をクリックし、追加をクリックし、任意の名前で、Network Security Groupを作成
    image

  4. 必要なポートのオープン
    下記の必要なポートをオープンする。

    • 22 ssh
    • 6080 Ranger
    • 8080 Ambari
    • 8888 Dashboard
    • 9995 Zeppelin
      image
  5. Marketplaceを検索してアクセス

 2016-09-29 19.00.21.png
  1. Hortonworksで検索して、「Hortonworks Sandbox with HDP 2.4 2.5」を選択
 2016-09-29 19.00.38.png
  1. 作成ボタンをクリック
 2016-09-29 19.00.54.png
  1. 仮想マシンの設定行い、スクロールダウン
 2016-09-29 19.03.41.png
  1. 仮想マシンの設定を行い、OKボタンをクリック
 2016-09-29 19.03.45.png
  1. DS11_V2 Standard (15円/時程度)を選択
    他のマシンタイプを選択してもいいが、あまりスペックの低いものだと動作しないので注意
    image.png

  2. オプションの構成
    ※注意: ネットワークセキュリティグループで、先ほど作成したNetwork Security Groupを選択

 2016-09-29 19.04.31.png
  1. 設定の検証
 2016-09-29 19.04.41.png
  1. 設定を確認し購入ボタンをクリック
 2016-09-29 19.04.50.png
  1. ダッシュボードに戻ってデプロイを待つ
 2016-09-29 18.59.55.png
  1. 作成されたことを確認(実行中というステータスになる)
 2016-09-29 19.05.16.png
  1. http://SandboxのIPアドレス:8888 にアクセスして、必要な情報を入力して、Submitをクリック
 2016-09-29 19.06.59.png
  1. http://SandboxのIPアドレス:8080 にアクセス
    user / password: raj_ops / raj_ops でログイン (maria_devではない)
 2016-09-29 19.14.34.png
  1. Ambari(クラスタ管理)のダッシュボードが表示
 2016-09-30 23.26.29.png
  1. Hive ビューで簡単なビジュアライズ
 2016-09-30 23.27.29.png
  1. HDFS Filesビューでファイル管理
 2016-09-30 23.28.15.png

それでは、チュートリアルに沿って、データ活用の旅に出ましょう。


補足情報

  • hdfsなどのコマンドを使用する場合は、AzureのSandboxは、Azure VM上のDocker環境に作成されていますので、Azure VMにSSHでログインし、さらにSSHでDockerコンテナにログインします。
[horton@sandbox ~]$ ssh root@127.0.0.1 -p 2222
root@127.0.0.1's password: hadoop
You are required to change your password immediately (root enforced)
Last login: Fri Apr 14 09:28:07 2017 from 172.17.0.1
Changing password for root.
(current) UNIX password: hadoop
New password: 新しいパスワード
Retype new password: 新しいパスワード
  • HDF (NiFI)をAmbariから追加して、Webアプリケーションなどを簡易的に立ち上げる場合、Portを9095など自由に設定すると、connection refusedで拒否される場合があります。色々な理由が考えられますが、そのうちの一つに、Dockerのポートフォワーディングが設定されていない事が考えられます。Sandboxを起動する際のスクリプトを確認して、ポートフォワーディングの設定を確認して、必要なポートを追加し、再起動します。(参考: OPENING SANDBOX PORTS ON AZURE)
vi /root/start_scripts/start_sandbox.sh
  • Ambariにadminで接続したい場合。
  1. sshでsandboxに接続
  2. 下記コマンドでパスワードを設定
 # ambari-admin-password-reset
 # ambari-agent restart
  • 会社のPCでAmbariに接続できない場合。
  1. AzureでWindows serverをデプロイして、Ambariに接続してみましょう。
    Microsoft AzureでWindows Server 2012 R2を起動してみるを参考にしてください。
17
12
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
17
12

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?