WindowsでのPySparkの環境構築

Last updated at 2025-04-24Posted at 2023-10-11

PySparkとは

PySpark とは、Apache Spark の機能を Python から操作できるようにするための API です。
大規模なデータ処理、ETL、機械学習などの用途に広く利用されており、Pythonエンジニアでも分散処理に強い Spark を扱うことができます。

Windows環境では、PySpark を動作させるためにいくつかの依存ソフトや設定が必要です。

PySpark は Java Virtual Machine（JVM）上で動作するため、まずは Java（JDK）をインストールします。

Apache Spark の公式サイトから ZIP ファイルをダウンロードし、任意のフォルダに展開します。

例：C:\spark-2.4.5-bin-hadoop2.7

Windows上でSparkを実行するためには winutils.exe が必要です。

ダウンロードした winutils.exe は、Sparkを展開したディレクトリの bin フォルダ内に配置してください。

C:\spark-2.4.5-bin-hadoop2.7\bin\winutils.exe

以下の環境変数をシステムに追加します。

設定方法：
コントロールパネル → システムとセキュリティ → システム → システムの詳細設定 → 環境変数

コマンドプロンプトを開き、以下を実行します：

spark-shell