結論
次のコマンドを実行すれば良い。
PYSPARK_PYTHON=/Users/username/.pyenv/shims/python PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" ~/somewhere/spark-1.5.2/bin/pyspark --master local[4]
前提
- jupyter notebook と Apache Spark がインストールされている
起動方法
結論
-
基本的に,https://spark.apache.org/docs/latest/programming-guide.html#using-the-shell に書かれている通りに起動するだけです。
-
${PYSPARK_DRIVER_PYTHON}
と${PYSPARK_DRIVER_PYTHON_OPTS}
の環境変数を正しくセットして,pyspark
を起動するだけです。 -
今回は,手元のノードでテストするため,
--master local[4]
オプションをつけます。 -
また,マスターとワーカーで同じバージョンのpythonを使うことを確認するため,
${PYSPARK_PYTHON}
にpythonのパスを指定しました。- 自分の環境の
python
へのパスは,which python
などで調べるとわかります。
- 自分の環境の
-
以上まとめて,下記のコマンドとなります。
PYSPARK_PYTHON=/Users/username/.pyenv/shims/python PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" ~/somewhere/spark-1.5.2/bin/pyspark --master local[4]