DockerでSPARKを。
といっても、コンテナを一から作成するのは大変なので、sequenceiq/sparkを使わせてもらいます。
投稿時点では、1.5.1が最新でした。
Dockerのインストールは省略
因みに使用バージョンは1.9.0
Docker pull
といっても、導入に関しては下記に記載してくれているのでそのまま実行します。
https://hub.docker.com/r/sequenceiq/spark/
1.5.1
pull出来たら実行ですが、4040ポートも足してあげたいので下記のように。
> docker run -it -p 8088:8088 -p 8042:8042 -p 4040:4040 -h sandbox --name="spark" sequenceiq/spark:1.5.1 /bin/bash
起動したら、
> cd /usr/local/spark
> bin/spark-sql --master yarn-client
Hadoop
yarnで起動したので、下記からクラスタを見れる。
http://127.0.0.1:8088/cluster
hostsにsandbox 127.0.0.1を追加しておけば、リンクからSpark Jobsも見れます。
dockerだからいぢったらcommitしておかないと後で泣いちゃうかも。