More than 5 years have passed since last update.

Cloud上のHadoopの払い出しからSparkのjob実行まで

Posted at 2016-08-04

BluemixのBigInsights for Apache HadoopがOpenBetaになったので、Cloud上でサクッと（タダで）Hadoop使ってみます。
Sparkも入れられるので、Sparkの実行とか使い方的な紹介

Bluemixのカタログから払い出し

Bluemixのカタログから BigInsights for Apache Hadoopを探して選択
サービス名, 価格プランを選んで作成
- プランはBasic(Beta)を選択。今は無料なので。（重要）
Openを選択

払い出した直後に下記のエラーページとか飛ばされる事がある。ちょっと待ってから再度Open選べばちゃんとcluster管理に飛べる・・・・ほら、betaだし・・・

プロビジョニング

cluster管理画面まで辿りつけたら最初にclusterを作成していきます。

Cluster Listから New Clusterを選択
Cluster Name, User Name, Password, Configurationを設定

ここのUser NameとPasswordは後のAmbariのログインとSSHで使うので忘れないように・・・

configurationについて

仮想の数はDataNode数かGB単位で指定。Beta中は5node/1220GB上限の模様
IBM Open Platform VersionはIOP 4.2以外選べないのでそれで。
Data StoreはBluemixのObject StorageかSoftLayerが選べれるみたい。

やってないからわかんないけど、ObjectStorageをS3見たくアーカイブ用途で使用できるんかしら？

HDFS,YARN,MR2,HBase,ZK,Knox,Ambari,Hiveが必須で入る
オプションで、Spark,Pig,Sqoop,Oozie,Fluem,RSERVが選択可能
今回はSpark,Sqoop,Oozie,Flumeあたり入れとく

configuration終わったら作成

CREATE押したあと数分でHadoopのCluster出来上がる

Status画面

プロビジョニング終わると下記のようなClusterのStatusが見れる

重要なのはSSH HostとService Detailsくらい
- SSH先のドメイン
- Hive接続用のURL
- WebHDFS用のURL
- AmbariのURL

ちなみにBluemix上で現在選べるDataCenterはUS South,Sydney,United Kingdomの３つからなのに、BigInsights for Apache Hadoop だけなぜかWashingtonDCに払い出されてるとか、BigInsights（製品）は CentOSサポートしてないけど、これはなぜかCentOSで作成されるとか、そんな細かい事気にしてはいけません・・・betaだし・・・

Ambari

おなじみのAmbari画面
プロビジョニング時のUser Name, Passowrdでログイン可能

ステータス管理
configuration管理（閲覧のみ）
メトリクス
などがこちらから可能

素のAmbariのようにClusterへのNodeの追加や、ServiceのStart,Stopなどはできないみたい。HBase使わない人とかも上がりっぱなしになるのでこの辺りは注意
当然、configの変更はできないのでほぼメトリクスとステータス管理用・・・・ ~~Ambari入る意味ってなんだろう・・・~~

SSH

下図のようにコンソールから、プロビジョニング時のUser Name, Passwordでログイン可能

ssh <User Name>@<SSH Host>

ログイン後、spark-shell叩く事でsparkの実行が可能

普段よく使う奴らは下図のように

/usr/iop/current/

この辺りにいる

ログインユーザーにsudoはほとんど付いてないみたい。yumが叩けなかったのでvim入れられず。開発環境とかには絶対向かない・・・・

SparkPiの実行

spark-examples.jarは置いてくれてるようなので、spark-submitしてみる

spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client /usr/iop/current/spark-client/lib/spark-examples.jar

実行後、下図の結果が出る。

HistoryUIを見るとSparkPiが実行されているのがわかる

開発後、jarを作ってsshで持って行って実行するのはできそう。
HistoryUIを開く際にBasic認証を求められる場合はプロビジョニング時のUser Name, Passwordで入る事が可能です。

WebHDFS

WebHDFSはRESTになってるので、例えばファイルを一覧でみたい場合はブラウザとかcurlとかで

https:///gateway/default/webhdfs/v1/?op=liststatusな感じで見る事が可能

とりあえず今日はここまで。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up