LoginSignup
1
0

More than 3 years have passed since last update.

PySpark in PyCharm

Posted at

MacでPySparkをPyCharmで開発する方法について記載します。

概要

  1. SparkをMacにインストール
  2. PyCharmプロジェクトからPySparkを実行できるように設定します。

前提条件:

備考
python3.7 私はPyCharmのプロジェクトにanacondaの仮想環境を使用しています。
Java8
Homebrew

1. Sparkのインストール

terminalで実行

$ brew install apache-spark

Updating Homebrew...
==> Downloading https://www.apache.org/dyn/closer.lua?path=spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz
==> Downloading from http://us.mirrors.quenda.co/apache/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz
######################################################################## 100.0%
/usr/local/Cellar/apache-spark/2.4.5: 1,059 files, 250.9MB, built in 1 minute 45 seconds

環境変数の設定

.bash_profileに以下を追記します。
SPARK_HOMEのpathは上記のSparkの結果を参照してください。

$ echo 'SPARK_HOME="/usr/local/Cellar/apache-spark/2.4.5/libexec"' >> ~/.bash_profile
$ echo 'export PATH=$PATH:$SPARK_HOME/bin' >> ~/.bash_profile

2. PyCharmの設定

PyCharmのプロジェクトを開いて、[Preferences]->[Project Structure]-> [+ Add Content Root]で以下のpathを設定します。

"2.4.5"のバージョンは上記を参考に入力してください。

/usr/local/Cellar/apache-spark/2.4.5/libexec/python

画面の右上にある[+ Add Content Root]で設定します。
spark-setting0.png

[+ Add Content Root]でダイアログが表示されますが"/usr/local/・・・"を指定する方法は、"Macintosh HD"を選択した状態で、'/'のキーを入力すると
spark-setting1.png

'Go to the folder:'が表示されるので、ここで上記のpathを入力してください。
spark-setting2.png

PyCharmプロジェクトの再起動

PyCharmプロジェクトがSparkに接続するには、プロジェクトの再起動が必要になります。PyCharmを閉じて、再起動するとSparkに接続できます。

開発

これでpysparkが使えるようになります。

import pyspark

また、PyCharm Professional版であれば、Jupyter Notebookが使えますので、PyCharm + Jupyter Notebook + Sparkで開発することができます。

PyCharm + Jupyter Notebookは以下を参考にするとよいでしょう。

はじめてのPyCharm + Jupyter Notebook(その1)

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0