Hortonworksは、エンタープライズ企業向けの完全にオープンなデータプラットフォームの開発・提供・サポートを行う会社です。あらゆるデータを管理することをミッションとし、 Apache Hadoop、NiFi そして Spark などのオープンソースのコミュニティにおいてイノベーシ ョンをドライブすることにフォーカスしています。Hortonworksが提唱するConnected Data Platforms はdata-in-motion(流れているデータ)および、data-at-rest(蓄積されたデータ)など全てのデータから、新たな価値創生を支える次世代データアプリケーションを実現します。Hortonworksは 1,600を超えるパートナーと共に、専門知識、トレーニング、サービスなどをあらゆる分野のビジネスにおいて提供します。
Hortonworks Data Platformは、Apache Hadoop / Sparkを中核においた、100%オープンなエンタープライズ向けのデータ蓄積、分析プラットフォームです。
Hortonworks DataFlowは、Apache NiFi / Apache Kafka / Apache Stormを中核においた、100%オープンなエンタープライズ向けのデータフローオーケストレーションです。
Sandboxデプロイ手順
開発者プログラム特典のサブスクリプションを利用すれば、毎月3000円の無料枠を利用できるので、下記ブログを参照しながら、登録しておくといいでしょう。通常は、30円程度/時の課金となります。
https://satonaoki.wordpress.com/2016/02/05/vs-dev-essentials-azure/
Azureにサインアップ
https://azure.microsoft.com/Azureの管理ポータルにログイン
https://portal.azure.comNetwork Security Groupの作成
ダッシュボードより、[その他のサービス] - [Network Security Group]をクリックし、追加をクリックし、任意の名前で、Network Security Groupを作成
-
必要なポートのオープン
下記の必要なポートをオープンする。 DS11_V2 Standard (15円/時程度)を選択
他のマシンタイプを選択してもいいが、あまりスペックの低いものだと動作しないので注意
オプションの構成
※注意: ネットワークセキュリティグループで、先ほど作成したNetwork Security Group
を選択
http://SandboxのIPアドレス:8888 にアクセスして、必要な情報を入力して、Submitをクリック
http://SandboxのIPアドレス:8080 にアクセス
user / password: raj_ops / raj_ops でログイン (maria_devではない)
それでは、チュートリアルに沿って、データ活用の旅に出ましょう。
補足情報
- hdfsなどのコマンドを使用する場合は、AzureのSandboxは、Azure VM上のDocker環境に作成されていますので、Azure VMにSSHでログインし、さらにSSHでDockerコンテナにログインします。
[horton@sandbox ~]$ ssh root@127.0.0.1 -p 2222
root@127.0.0.1's password: hadoop
You are required to change your password immediately (root enforced)
Last login: Fri Apr 14 09:28:07 2017 from 172.17.0.1
Changing password for root.
(current) UNIX password: hadoop
New password: 新しいパスワード
Retype new password: 新しいパスワード
- HDF (NiFI)をAmbariから追加して、Webアプリケーションなどを簡易的に立ち上げる場合、Portを9095など自由に設定すると、connection refusedで拒否される場合があります。色々な理由が考えられますが、そのうちの一つに、Dockerのポートフォワーディングが設定されていない事が考えられます。Sandboxを起動する際のスクリプトを確認して、ポートフォワーディングの設定を確認して、必要なポートを追加し、再起動します。(参考: OPENING SANDBOX PORTS ON AZURE)
vi /root/start_scripts/start_sandbox.sh
- Ambariにadminで接続したい場合。
- sshでsandboxに接続
- 下記コマンドでパスワードを設定
# ambari-admin-password-reset
# ambari-agent restart
-
会社のPCでAmbariに接続できない場合。
- AzureでWindows serverをデプロイして、Ambariに接続してみましょう。 Microsoft AzureでWindows Server 2012 R2を起動してみるを参考にしてください。
データフローオーケストレーションを行うHortonworks DataFlowを試してみたい場合、Hortonworks Sandbox にNifiをインストール(Windows上のVirtualBox、Microsoft Azure)を参考にしてみましょう。AmbariからNiFiを追加する方法もあります。
NiFiでTwitterのデータをSolrで可視化するデモを試したい場合、TwitterからNiFiでデータを収集し、データフローをコントロールし、Solr + Bananaで可視化させてみようを参考にしてみましょう。
Ambari Viewが表示されない場合、ブラウザを変更してみましょう。Chromeではほぼ動作しますが、他のブラウザでは表示されない事があるようです。