Spark Summit 2016 San Franciscoが終わったというところで、RancherというDockerコンテナ管理ツールを使って、SoftLayer上にkubernetesを利用したSparkのクラスタ環境を簡単に構築してみた記録です。
まずは、それぞれの概要を記します。
Rancher
Rancherは、Dockerイメージとして配布されているコンテナやクラスタの管理をWebUIで簡単に行えるオープンソースのツールです。
SoftLayer、GCP、AWS、Azure、DigtalOcean、rackspaceといった、各種クラウドとのコンテナ連携が可能です。
2016年3月にバージョン1.0になり、Kubernetes、DockerSwarm、Mesos等のクラスタ環境管理機能が追加されました。
公式サイト:http://rancher.com/
Spark
Sparkは、Hadoop同様の分散処理のフレームワークです。
HadoopがJava言語で作られているのに対してSparkはJavaの派生言語であるScalaで作られています。
以下の特徴があります。
- インメモリ処理による高速化
- 「データの格納場所」に関する選択肢の広さ
- プログラム手法に関する選択肢の広さ(SQLもサポート)
公式サイト:http://spark.apache.org/
参考サイト:http://www.slideshare.net/hadoopxnttdata/apache-spark-spark
参考サイト:http://www.graffe.jp/blog/1710/
SoftLayer
SoftLayerは、IBMが提供する、高いパフォーマンスとセキュリティーを兼ね備えた企業向けのパブリック・クラウドです。
他のクラウドベンダーと主に違うところは、ベアメタルサーバが利用(最短30分)できるというところです。
公式サイト:http://www.ibm.com/cloud-computing/jp/ja/SoftLayer.html
Dockerは、ソフトウェアコンテナ内のアプリケーションのデプロイメントを自動化するオープンソースソフトウェアです。
公式サイト:https://www.docker.com/
参考サイト:http://www.slideshare.net/cyberblackvoom/linaction-theme-docker
#kubernetes
Kubernetesは、Dockerをはじめとするコンテナクラスタ管理システムです。名称が長いため、k8sと略される場合もあります。
GoogleのBorgという社内で開発・運用されているコンテナクラスタ管理システムのノウハウを結集して作られました。Googleが中心になって開発してきましたが、現在ではLinux Foundation傘下である「Cloud Native Computing Foundation」(CNCF)が管理を行い、数多くの企業が開発に参加しています。
公式サイト:http://kubernetes.io/
参考サイト:https://oss.sios.com/yorozu-blog/yorozu-20151216
kubernetes、Sparkの構築は一から始めると大変ですが、Rancher、SoftLayerを使って簡単に構築して、試してみましょう!!
SoftLayer上にRancherを構築
RacherでSpark + Kubernetes環境を構築するには、以下3個のホストが必要となります。
- Rancherのマネージャ用ホスト
- Spark + Kubernetes用ホスト1
- Spark + Kubernetes用ホスト2
3個の仮想サーバをSoftLayer上に作成します。
スペックは以下となります。
Rancherのマネージャ用ホスト
※表にない項目は全てデフォルト設定としてください。
項目 | 設定内容 | 備考 |
---|---|---|
Data Center | SJC01 - San Jose | SAN FRANCISCOに近いということで! |
Computing Instance | 2 x 2.0 GHz Cores | - |
RAM | 4GB | - |
Operating System | Ubuntu Linux 16.04 LTS Xenial Xerus Minimal Install (64 bit) | - |
Spark + Kubernetes用ホスト1と2
※表にない項目は全てデフォルト設定としてください。
項目 | 設定内容 | 備考 |
---|---|---|
Data Center | SJC01 - San Jose | SAN FRANCISCOに近いということで! |
Computing Instance | 2 x 2.0 GHz Cores | - |
RAM | 4GB | - |
Operating System | Ubuntu Linux 16.04 LTS Xenial Xerus Minimal Install (64 bit) | - |
SoftLayerだけでなくAWS、Azure等、他のクラウドでも同等の仮想サーバを作成することでRacher環境は構築できます。
Rancher マネージャ用ホストの作成
SoftLayer上に作成したマネージャ用ホストにSSHでログインし、以下のコマンド操作を実施します。
1.パッケージの最新化を行います。
# apt-get update
2.wgetコマンドをインストールします。
# apt-get install wget
3.最新のDockerパッケージをインストールします。
# wget -qO- https://get.docker.com/ | sh
4.Dockerが正しくインストールされていることを確認します。
# docker run hello-world
Hello from Docker!
This message shows that your installation appears to be working correctly.
上記内容が表示されればDockerが正しくインストールされています。
5.Rancherマネージャコンテナを実行します。
# docker run -d -p 8080:8080 rancher/server
6.2分程後にブラウザを起動して、http://マネージャ用ホストのIPアドレス:8080/ にアクセスすると以下の画面が表示されます。
7.このままでは誰でもアクセスできるため、GitHubのOAuth連携設定を行います。
上部メニューの「ADMIN」-「Access Control」を選択します。
8.「click here」をクリックします。
9.GitHubのログイン画面が表示されます。ログインします。
※GitHubのアカウントを持っていない場合は作成しましょう。
10.「Register a new Application」ボタンをクリックします。
11.赤枠箇所を入力し、「Register application」ボタンをクリックします。
12.「Client ID」および「Client Secret」が払い出されます。
13.GitHubから払い出された「Client ID」および「Client Secret」を入力します。
14.「Authenticate with GitHub」ボタンをクリックします。
15.新たにウィンドウが開きます。[Authorize application]ボタンをクリックします。ウィンドウは自動的に閉じます。
16.Rancher側の画面が切り替わり「GitHub is enabled」と表示されます。
Rancher Spark + Kubernetes用ホスト1と2の作成
SoftLayer上に作成したSpark + Kubernetes用ホストにSSHでログインし、以下のコマンド操作を実施します。
※2台とも同じ手順なので、1台ずつ行ってください。
1.パッケージの最新化を行います。
# apt-get update
2.wgetコマンドをインストールします。
# apt-get install wget
3.最新のDockerパッケージをインストールします。
# wget -qO- https://get.docker.com/ | sh
4.Dockerが正しくインストールされていることを確認します。
# docker run hello-world
Hello from Docker!
This message shows that your installation appears to be working correctly.
上記内容が表示されればDockerが正しくインストールされています。
5.上部メニューの「Default」-「Manage Environment」を選択します。
6.上部メニューの「Add Environment」ボタンをクリックします。
7.Container Orchestrationを「Kubernetes」、Nameに「Spark」と入力します。(任意名可)「Create」をクリックします。
8.上部メニューの「Default」-「Spark」を選択します。
9.「Add Host」ボタンをクリックします。
10.画面が遷移し、赤枠のコマンドを右クリックでコピーします。
11.Spark + Kubernetes用ホストでコマンドを実行します。
# docker run -d --privileged -v /var/run/docker.sock:/var/run/docker.sock -v /var/lib/rancher:/var/lib/rancher rancher/agent:v1.0.2 http://RancherマネージャーホストのIPアドレス:8080/v1/scripts/742C925BD35B1371DC76:1468162800000:edIKINp3SivizYyYLRNAKggQSU
12.Rancherの画面に戻り、「close」ボタンをクリックします。
13.上部メニュー「INFRASTRUCTURE」-「Hosts」を選択します。
14.Spark + Kubernetes用ホストがマネージャ用ホストの管理下に入り、kubernetesのクラスタ環境も完成します。
Sparkの構築
1.上部メニュー「CATALOG」を選択します。
2.「Spark」の「View Details」ボタンをクリックします。
3.「Launch」ボタンをクリックします。
4.約5分ほど待つと環境が構築されます。
5.ブラウザから2つ目のホストのIPアドレスにポート8080を指定してアクセスします。SparkのWebUIを確認することができます。
以上でSpark + Kubernetes Docker on SoftLayer by Rancherは完了となります。
上部メニューの「INFRASTRUCTURE」-「Containers」を選択すると、各ホストの全コンテナを確認することができます。試しにどれかコンテナをDeleteしてみると自動的に同じコンテナが作成されます。
これがまさにKubernetesの稼働です。
苦行と言われているKubernetesの構築が簡単にできます。
また、SoftLayerにはAWSのECS、GCPのGKE、Azure Container Serviceのようなコンテナサービス体系はないので、Rancherのようなコンテナ管理ツールが役立ちます。
Rancherは、kubernetes、Docker Swarm、Mesosといったコンテナクラスタ機能も簡単に構築できる点も非常に良いところです。
Rancherで環境構築をスムーズに行い、あらゆるOSSを試してみましょう!!