0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

VS CodeでPythonのPySparkを実行するために必要なもの

0
Last updated at Posted at 2026-01-20

VS CodeでPython版のApache Spark(PySpark)を実行するためには、大きく分けて「実行ランタイム」「ライブラリ」「VS Codeの拡張機能」の3つを準備する必要があります。

特に、PySparkはJava上で動作するため、PythonだけでなくJavaのインストールが必須である点に注意してください。

1. 必要なソフトウェア(実行ランタイム)

PySparkをローカル環境で動かすためのベースとなる要素です。

2. ライブラリとパッケージ

PythonからSparkを呼び出すための準備です。

  • pyspark: pip install pyspark でインストールします。
  • findspark (推奨): VS Code上のPythonスクリプトからSparkのパスを自動で通すために便利です。pip install findspark で導入できます。

3. VS Code の準備

快適に開発するための設定です。

  • Python 拡張機能: Microsoft公式の「Python」拡張機能をインストールします。
  • Jupyter 拡張機能 (任意): ノートブック形式(.ipynb)で実行・検証したい場合に必要です。
  • 環境変数の設定: VS Codeのターミナルやデバッグ実行でSparkを認識させるため、.env ファイルや settings.json で以下のパスを通します。
    • SPARK_HOME: Sparkを解凍したフォルダ
    • JAVA_HOME: Javaのインストール先
    • HADOOP_HOME: winutils.exe を入れたフォルダ(例: C:\hadoop)を指定し、その中の bin フォルダに winutils.exe を配置します。
    • PYTHONPATH: $SPARK_HOME/python および $SPARK_HOME/python/lib/py4j-*-src.zip

💡 実行のヒント
コードの冒頭で以下のように記述すると、環境変数の設定漏れによるエラーを防ぎやすくなります。

Python
import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("TestApp").getOrCreate()
0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?