Hortonworksは、エンタープライズ企業向けの完全にオープンなデータプラットフォームの開発・提供・サポートを行う会社です。あらゆるデータを管理することをミッションとし、 Apache Hadoop、NiFi そして Spark などのオープンソースのコミュニティにおいてイノベーシ ョンをドライブすることにフォーカスしています。Hortonworksが提唱するConnected Data Platforms はdata-in-motion(流れているデータ)および、data-at-rest(蓄積されたデータ)など全てのデータから、新たな価値創生を支える次世代データアプリケーションを実現します。Hortonworksは 1,600を超えるパートナーと共に、専門知識、トレーニング、サービスなどをあらゆる分野のビジネスにおいて提供します。
Hortonworks Data Platformは、Apache Hadoop / Sparkを中核においた、100%オープンなエンタープライズ向けのデータ蓄積、分析プラットフォームです。
Hortonworks DataFlowは、Apache NiFi / Apache Kafka / Apache Stormを中核においた、100%オープンなエンタープライズ向けのデータフローオーケストレーションです。
Sandboxデプロイ手順
開発者プログラム特典のサブスクリプションを利用すれば、毎月3000円の無料枠を利用できるので、下記ブログを参照しながら、登録しておくといいでしょう。通常は、30円程度/時の課金となります。
https://satonaoki.wordpress.com/2016/02/05/vs-dev-essentials-azure/
-
Azureにサインアップ
https://azure.microsoft.com/ -
Azureの管理ポータルにログイン
https://portal.azure.com -
Network Security Groupの作成
ダッシュボードより、[その他のサービス] - [Network Security Group]をクリックし、追加をクリックし、任意の名前で、Network Security Groupを作成
-
必要なポートのオープン
下記の必要なポートをオープンする。 -
Marketplaceを検索してアクセス
- Hortonworksで検索して、「Hortonworks Sandbox with HDP
2.42.5」を選択
- 作成ボタンをクリック
- 仮想マシンの設定行い、スクロールダウン
- 仮想マシンの設定を行い、OKボタンをクリック
-
DS11_V2 Standard (15円/時程度)を選択
他のマシンタイプを選択してもいいが、あまりスペックの低いものだと動作しないので注意
-
オプションの構成
※注意: ネットワークセキュリティグループで、先ほど作成したNetwork Security Group
を選択
- 設定の検証
- 設定を確認し購入ボタンをクリック
- ダッシュボードに戻ってデプロイを待つ
- 作成されたことを確認(実行中というステータスになる)
- http://SandboxのIPアドレス:8888 にアクセスして、必要な情報を入力して、Submitをクリック
-
http://SandboxのIPアドレス:8080 にアクセス
user / password: raj_ops / raj_ops でログイン (maria_devではない)
- Ambari(クラスタ管理)のダッシュボードが表示
- Hive ビューで簡単なビジュアライズ
- HDFS Filesビューでファイル管理
それでは、チュートリアルに沿って、データ活用の旅に出ましょう。
補足情報
- hdfsなどのコマンドを使用する場合は、AzureのSandboxは、Azure VM上のDocker環境に作成されていますので、Azure VMにSSHでログインし、さらにSSHでDockerコンテナにログインします。
[horton@sandbox ~]$ ssh root@127.0.0.1 -p 2222
root@127.0.0.1's password: hadoop
You are required to change your password immediately (root enforced)
Last login: Fri Apr 14 09:28:07 2017 from 172.17.0.1
Changing password for root.
(current) UNIX password: hadoop
New password: 新しいパスワード
Retype new password: 新しいパスワード
- HDF (NiFI)をAmbariから追加して、Webアプリケーションなどを簡易的に立ち上げる場合、Portを9095など自由に設定すると、connection refusedで拒否される場合があります。色々な理由が考えられますが、そのうちの一つに、Dockerのポートフォワーディングが設定されていない事が考えられます。Sandboxを起動する際のスクリプトを確認して、ポートフォワーディングの設定を確認して、必要なポートを追加し、再起動します。(参考: OPENING SANDBOX PORTS ON AZURE)
vi /root/start_scripts/start_sandbox.sh
- Ambariにadminで接続したい場合。
- sshでsandboxに接続
- 下記コマンドでパスワードを設定
# ambari-admin-password-reset
# ambari-agent restart
- 会社のPCでAmbariに接続できない場合。
- AzureでWindows serverをデプロイして、Ambariに接続してみましょう。
Microsoft AzureでWindows Server 2012 R2を起動してみるを参考にしてください。
-
データフローオーケストレーションを行うHortonworks DataFlowを試してみたい場合、Hortonworks Sandbox にNifiをインストール(Windows上のVirtualBox、Microsoft Azure)を参考にしてみましょう。AmbariからNiFiを追加する方法もあります。
-
NiFiでTwitterのデータをSolrで可視化するデモを試したい場合、TwitterからNiFiでデータを収集し、データフローをコントロールし、Solr + Bananaで可視化させてみようを参考にしてみましょう。
-
Ambari Viewが表示されない場合、ブラウザを変更してみましょう。Chromeではほぼ動作しますが、他のブラウザでは表示されない事があるようです。