9
9

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

「Amazon EMR クラスターでホストされているウェブサイトの表示」(とSparkのデバッグ)

Last updated at Posted at 2015-03-15

はじめに

EMR上で、SparkをYarn-clusterで動かしていると、「Exception in thread "main" org.apache.spark.SparkException: Application finished with failed status...」などと抽象的なエラーが出て、苛立つことがあるかと思います。

まあ、Masterノード上では「なんかエラー吐いた」ってことしかわからなくて、詳細は実際にそれ実行したノードで見てねって話なんですけど。

その辺の細かい情報、Yarn上で実行したアプリケーションのstdout, stderrなどは、EMRクラスタ上のMasterノードにホストされている、HadoopのResource Manegerからリンクをたどっていけば見れるわけですが、lynxでターミナル上でそれを見るのは正直苦行ですね。。。

あと、Gangliaというクラスタへの負荷状況が見れるアプリケーションがEMRの作成時に追加インストール可能ですが、これを確認するのはlynxではまあ無理です。

ということで、普通のWebブラウザで見たいわけですが、それには一手間必要です。具体的には以下のドキュメント。

Amazon EMR クラスターでホストされているウェブサイトの表示

  1. ローカルマシンのSSHクライアントを、ポートフォワードするモード(Socks: port8157)で待ち受けしておく
  2. ローカルマシンのブラウザから、FoxyProxyを使って、EMRクラスタへのWeb接続要求をlocalhostのSocks: port8157へ送る
  3. port8157にWeb接続要求が来たら、「ローカルマシン」と「EMRクラスタ」の間を「SSHトンネリング(ポートフォワード)」でつないで、要求をフォワードする

すると、EMRクラスタのWeb UI見れますよって話です。

以下では、主にWindowsでの設定手順を書いておきます。

Steps

ブラウザの設定

FoxyProxyのインストール

まあブラウザの設定でsocksを設定してもいいのですが、ここではAWSのチュートリアルに従って、Firefoxのアドオン「FoxyProxy」を使います。

Firefoxで、以下からインストール
FoxyProxy

foxyproxy-settings.xmlを作成

AWSのドキュメント「オプション 2、パート 2: マスターノードでホストされるウェブサイトを表示するようにプロキシを設定する」に、EMRクラスタへの接続に便利な設定が乗っているので、これをインポートすることでFoxyProxyの設定をします。

foxyproxy-settings.xmlというファイルをUTF8で作って、中身を以下のようにします。

foxyproxy-settings.xml
<?xml version="1.0" encoding="UTF-8"?>
<foxyproxy>
   <proxies>
      <proxy name="emr-socks-proxy" id="2322596116" notes="" fromSubscription="false" enabled="true" mode="manual" selectedTabIndex="2" lastresort="false" animatedIcons="true" includeInCycle="true" color="#0055E5" proxyDNS="true" noInternalIPs="false" autoconfMode="pac" clearCacheBeforeUse="false" disableCache="false" clearCookiesBeforeUse="false" rejectCookies="false">
         <matches>
            <match enabled="true" name="*ec2*.amazonaws.com*" pattern="*ec2*.amazonaws.com*" isRegEx="false" isBlackList="false" isMultiLine="false" caseSensitive="false" fromSubscription="false" />
            <match enabled="true" name="*ec2*.compute*" pattern="*ec2*.compute*" isRegEx="false" isBlackList="false" isMultiLine="false" caseSensitive="false" fromSubscription="false" />
            <match enabled="true" name="10.*" pattern="http://10.*" isRegEx="false" isBlackList="false" isMultiLine="false" caseSensitive="false" fromSubscription="false" />
            <match enabled="true" name="*10*.amazonaws.com*" pattern="*10*.amazonaws.com*" isRegEx="false" isBlackList="false" isMultiLine="false" caseSensitive="false" fromSubscription="false" />
            <match enabled="true" name="*10*.compute*" pattern="*10*.compute*" isRegEx="false" isBlackList="false" isMultiLine="false" caseSensitive="false" fromSubscription="false" />
	  </matches>
         <manualconf host="localhost" port="8157" socksversion="5" isSocks="true" username="" password="" domain="" />
      </proxy>
   </proxies>
</foxyproxy>

要点は、「Port: 8157のsocksに」「ec2とかaws.comとかいうドメイン名のWeb接続要求を飛ばす」って設定を「emr-socks-proxy」って名前で保存するよことですね。

FoxyProxyの設定

FireFoxのツールメニューにFoxyProxyが現れていると思うので、オプションを選びます。
foxyproxy1 - コピー.png

「ファイル」メニュー -> 「Import Setting」で、先ほどつくったfoxyproxy-settings.xmlを取り込みます。
foxyproxy3 - コピー.png

emr-socks-proxyという名前で設定が出来てれば成功。ブラウザ側の設定は以上です。

SSHの設定

SSHクライアント: Rlogin

WindowsでEC2につないでる方は、puttyを使っているんでしょうか。正直、鍵ファイルをppkに変換しろとか面倒なので、個人的にはRLoginをつかっています。

Nanno Home Page - RLogin

SSHトンネリング (ポートフォワード)の設定

RLoginの場合は、起動すると「Server Select」が空の状態で立ち上がると思いますが、「新規」を押して、以下を入力。

rlogin1 - コピー.png

  1. エントリー: 適当に接続名を入力(ここでは「EMR Tunnel」としておきました)
  2. Server Address: EMRクラスタのMaster Nodeのアドレス
  3. User Name: hadoop
  4. SSH Identity key: 参照ボタンを押して.pemファイルを選択
  5. 最後に、左側のメニューの「サーバ」 -> 「プロトコル」を押して、詳細設定ページへ

rlogin2 - コピー.png

  1. 「ポートフォワード」ボタンを押す
  2. 「新規」を押す
  3. Listernedの設定を「Local Socks」「localhost: 8157」で設定
  4. Connectの方は空で。
  5. 「ポートフォワードのみを行う」にチェックするかどうかはお好み次第

RLoginを使ってない人はトンネリングかポートフォワードの設定を探して、適宜読み替えてください。

実際に接続してみる

SSHクライアントでEMRクラスタに接続して、socksの待ち受けをする

普通にSSHでつなぐのと同じく、SSHクライアントで先ほど作った接続設定を選んで「接続」ボタンを押します。

なお、「ポートフォワードのみを行う」を選択していると、コマンド入力を受け付けない待ち受けモードになって、SSHトンネリングしてるlogがコンソールに出てくる形になります。つながり具合が見えるんで私はそれでやってますね。

(同時にコマンドも打ちたい場合はポートフォワードしない接続設定を作っておいて、それを別窓を立ち上げる形になりますが)

FireFoxでプロクシ設定をOnにする

FireFoxの「ツール」メニューより、先ほど作った設定を選べばよろしです
foxyproxy4 - コピー.png

HadoopのResourceManagerに接続する

この状態で、Firefoxから「http://[master-public-dns-name]:9026/」につなぐと、HadoopのResourceManagerが見えるはず。

hadoopui1 - コピー (2).png

application_idのところをクリックして、logをみてみる
hadoopui2 - コピー.png

stderr, stdoutが見れますね
hadoopui3 - コピー.png

stdoutがこんな感じで。コード内のprintlnはここに出てきます。
hadoopui4 - コピー.png

後はprintlnデバッグでもしつつ、健やかなEMRライフをお過ごしください。

Gangliaに接続する

EMRのクラスタ作るとき、Gangliaをインストールする設定にしてると、サーバへの負荷が見えて便利です。
ganglia0 - コピー.png

赤が負荷大。水色はニート。この場合、クラスタ5台で立てては見たけれど、仕事してないやつがいますね。台数減らすか、コードを見直すかという対策が必要そうですね。
ganglia - コピー.png

その他のWeb UI@EMRクラスタ上

Hueとかimparaもこの方法でweb uiが見えるので、必要に応じてaddtional applicationに設定してみてみると捗るかもですね。詳細は以下にて。

Amazon EMR クラスターでホストされているウェブサイトの表示

9
9
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
9
9

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?