HadoopYarnクラスターの環境を構築する時には、色々な疑問点が遭ってしまいましたが、次に間違えなくなる為に、環境構築時の要注意ポイントをメモしてみたいです。
環境変数
HadoopYarnクラスターで以下の環境変数が必要となります。
- JAVA_HOME
- CLASSPATH
- HADOOP_HOME
- HADOOP_CONF_DIR
- SCALA_HOME
- SPARK_HOME
HDFSの起動手順
HDFSのnamenodeをフォマットします。
$ hdfs namenode -format
HDFSサービスを起動します。
$ start-dfs.sh
HDFSの確認方法
jpsコマンドでHDFSクラスターに以下のノードが起動されていたかどうかを確認する
- Master側:
- NameNode - SecondaryNameNode
- Slave側: - DataNode ブラウザでHDFSクラスターも確認できます。
http://master:50070
yarnクラスターの起動手順
以下でyarnを起動する
$ start-yarn.sh
yarnの起動と確認方法
jpsコマンドでyarnの稼動状態を確認します。
以下のノードが確認できます。
- Master側:
- NameNode
- SecondaryNameNode - ResourceManager
- Slave側:
- DataNode
- NodeManager
ブラウザも確認できます
http://master:8088
Sparkのspark_env.shに設定する変数は以下です
SPARK_MASTER_HOST=マスターのホスト名
SPARK_MASTER_PORT=7077
Sparkのslaveに設定する変数は以下です
Masterのホスト名又はIP
Slaveのホスト名又はIP
Sparkの起動と確認手順
以下でSparkを起動する
$ start-all.sh
jpsコマンドでSparkの稼動状態が確認できます
- Master側:
- NameNode
- SecondaryNameNode
- ResourceManager
- Master
- Slave側:
- DataNode
- NodeManager
- Slave
ブラウザも確認できます
http://master:8088