More than 5 years have passed since last update.

dockerでSPARK SQL

Last updated at 2015-11-24Posted at 2015-11-19

DockerでSPARKを。

といっても、コンテナを一から作成するのは大変なので、sequenceiq/sparkを使わせてもらいます。
投稿時点では、1.5.1が最新でした。

因みに使用バージョンは1.9.0

といっても、導入に関しては下記に記載してくれているのでそのまま実行します。
https://hub.docker.com/r/sequenceiq/spark/

1.5.1

pull出来たら実行ですが、4040ポートも足してあげたいので下記のように。

> docker run -it -p 8088:8088 -p 8042:8042 -p 4040:4040 -h sandbox --name="spark" sequenceiq/spark:1.5.1 /bin/bash

起動したら、

> cd /usr/local/spark
> bin/spark-sql --master yarn-client

yarnで起動したので、下記からクラスタを見れる。
http://127.0.0.1:8088/cluster

hostsにsandbox 127.0.0.1を追加しておけば、リンクからSpark Jobsも見れます。

dockerだからいぢったらcommitしておかないと後で泣いちゃうかも。