SparkをiPython Notebook(Jupyter)で動作させます。過去にいくつも同じテーマで投稿がありましたが、この方法が一番簡単だと思っています。
環境
- macOS Sierra
- Apache-Spark 2.0.1 (homebrewでインストールしたもの)
- Python 2.7.10 (virtualenv)
Sparkのインストール
Homebrewのapache-sparkをインストールするのが簡単。Homebrewのインストールは略
brew install apache-spark
Pythonのインストール
Pythonはvirtualenvで専用の環境を作ります。名前はsparkにしました。
mkvirtualenv spark
必要なモジュールをインストール。numpyはpandasインストール時に同時に入ります。scipyは必要に応じて追加しましょう。
pip install jupyter pandas matplotlib
実行
PYSPARK_DRIVER_PYTHON
とPYSPARK_DRIVER_PYTHON_OPTS
を指定してpysparkを実行します。
PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS=notebook pyspark --master local[*]
実行例
