More than 5 years have passed since last update.

Jupyter Notebook 上で Spark(Scala) を動かす

Last updated at 2016-05-12Posted at 2016-05-12

機械学習で実験した結果を残すときなどは Jupyter Notebook が便利。
MLlibを使った検証を Jupyter Notebook で残せるようにする。
Ubuntu で動作検証しているが他のOSでもいけるはず。

1. Python環境構築 (jupyter, pip)

以下の記事を参考に Anaconda を入れるのが楽

$ pip install --pre toree
$ sudo jupyter toree install

SPARK_HOME を設定していない場合は $ sudo jupyter toree install --spark_home=/spark/home/dir で指定する。
インストール後 $HOME/.local のオーナーが root になっている場合は $USER に変更する。

$ jupyter notebook で起動すると下図のように [Apache Toree - Scala] が追加されている

カーネルを選択したあとしばらく起動を待つ必要があるが下図のように Jupyter 上で Spark を実行できる