VS CodeでPython版のApache Spark(PySpark)を実行するためには、大きく分けて「実行ランタイム」「ライブラリ」「VS Codeの拡張機能」の3つを準備する必要があります。
特に、PySparkはJava上で動作するため、PythonだけでなくJavaのインストールが必須である点に注意してください。
1. 必要なソフトウェア(実行ランタイム)
PySparkをローカル環境で動かすためのベースとなる要素です。
- Python: バージョン3.6以上(最新の安定版を推奨)。
-
Java Development Kit (JDK): SparkはJava Virtual Machine (JVM) 上で動作します。Java 8 または 11(あるいは17など、Sparkのバージョンが対応しているもの)をインストールしてください。
https://www.oracle.com/java/technologies/javase/jdk25-archive-downloads.html -
Apache Spark 本体: 公式サイトからダウンロードし、任意の場所に解凍します。
https://www.apache.org/dyn/closer.lua/spark/spark-4.1.1/spark-4.1.1-bin-hadoop3.tgz -
winutils.exe (Windowsの場合のみ): Windows環境でHadoopのファイルシステムをシミュレートするために必要です。HADOOP_HOME/bin に配置する必要があります。
https://github.com/cdarlint/winutils/blob/master/hadoop-3.3.6/bin/winutils.exe
2. ライブラリとパッケージ
PythonからSparkを呼び出すための準備です。
- pyspark: pip install pyspark でインストールします。
- findspark (推奨): VS Code上のPythonスクリプトからSparkのパスを自動で通すために便利です。pip install findspark で導入できます。
3. VS Code の準備
快適に開発するための設定です。
- Python 拡張機能: Microsoft公式の「Python」拡張機能をインストールします。
- Jupyter 拡張機能 (任意): ノートブック形式(.ipynb)で実行・検証したい場合に必要です。
-
環境変数の設定: VS Codeのターミナルやデバッグ実行でSparkを認識させるため、.env ファイルや settings.json で以下のパスを通します。
-
SPARK_HOME:Sparkを解凍したフォルダ -
JAVA_HOME:Javaのインストール先 -
HADOOP_HOME:winutils.exe を入れたフォルダ(例: C:\hadoop)を指定し、その中の bin フォルダに winutils.exe を配置します。 -
PYTHONPATH:$SPARK_HOME/pythonおよび$SPARK_HOME/python/lib/py4j-*-src.zip
-
💡 実行のヒント
コードの冒頭で以下のように記述すると、環境変数の設定漏れによるエラーを防ぎやすくなります。
Python
import findspark
findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("TestApp").getOrCreate()