Edited at

最小限の設定でJupyterとSparkをMacで動かす方法

More than 1 year has passed since last update.

SparkをiPython Notebook(Jupyter)で動作させます。過去にいくつも同じテーマで投稿がありましたが、この方法が一番簡単だと思っています。


環境


  • macOS Sierra

  • Apache-Spark 2.0.1 (homebrewでインストールしたもの)

  • Python 2.7.10 (virtualenv)


Sparkのインストール

Homebrewのapache-sparkをインストールするのが簡単。Homebrewのインストールは略

brew install apache-spark


Pythonのインストール

Pythonはvirtualenvで専用の環境を作ります。名前はsparkにしました。

mkvirtualenv spark

必要なモジュールをインストール。numpyはpandasインストール時に同時に入ります。scipyは必要に応じて追加しましょう。

pip install jupyter pandas matplotlib


実行

PYSPARK_DRIVER_PYTHONPYSPARK_DRIVER_PYTHON_OPTSを指定してpysparkを実行します。

PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS=notebook pyspark  --master local[*]

実行例

Screen Shot 2016-11-26 at 10.30.34 PM.png