VS CodeでPythonのPySparkを実行するために必要なもの

Last updated at 2026-01-20Posted at 2026-01-20

VS CodeでPython版のApache Spark（PySpark）を実行するためには、大きく分けて「実行ランタイム」「ライブラリ」「VS Codeの拡張機能」の3つを準備する必要があります。

特に、PySparkはJava上で動作するため、PythonだけでなくJavaのインストールが必須である点に注意してください。

1. 必要なソフトウェア（実行ランタイム）

PySparkをローカル環境で動かすためのベースとなる要素です。

Python: バージョン3.6以上（最新の安定版を推奨）。
Java Development Kit (JDK): SparkはJava Virtual Machine (JVM) 上で動作します。Java 8 または 11（あるいは17など、Sparkのバージョンが対応しているもの）をインストールしてください。
https://www.oracle.com/java/technologies/javase/jdk25-archive-downloads.html
Apache Spark 本体: 公式サイトからダウンロードし、任意の場所に解凍します。
https://www.apache.org/dyn/closer.lua/spark/spark-4.1.1/spark-4.1.1-bin-hadoop3.tgz
winutils.exe (Windowsの場合のみ): Windows環境でHadoopのファイルシステムをシミュレートするために必要です。HADOOP_HOME/bin に配置する必要があります。
https://github.com/cdarlint/winutils/blob/master/hadoop-3.3.6/bin/winutils.exe

PythonからSparkを呼び出すための準備です。

pyspark: pip install pyspark でインストールします。
findspark (推奨): VS Code上のPythonスクリプトからSparkのパスを自動で通すために便利です。pip install findspark で導入できます。

快適に開発するための設定です。

Python 拡張機能: Microsoft公式の「Python」拡張機能をインストールします。
Jupyter 拡張機能 (任意): ノートブック形式（.ipynb）で実行・検証したい場合に必要です。
環境変数の設定: VS Codeのターミナルやデバッグ実行でSparkを認識させるため、.env ファイルや settings.json で以下のパスを通します。
- SPARK_HOME: Sparkを解凍したフォルダ
- JAVA_HOME: Javaのインストール先
- HADOOP_HOME: winutils.exe を入れたフォルダ（例: C:\hadoop）を指定し、その中の bin フォルダに winutils.exe を配置します。
- PYTHONPATH: $SPARK_HOME/python および $SPARK_HOME/python/lib/py4j-*-src.zip

💡 実行のヒント
コードの冒頭で以下のように記述すると、環境変数の設定漏れによるエラーを防ぎやすくなります。

Python

import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("TestApp").getOrCreate()