More than 1 year has passed since last update.

PySparkをREPLで簡単に試す

Last updated at 2024-04-10Posted at 2024-04-10

PythonからApache Sparkを操作するためのライブラリPySparkをなんとなく触れてみたいと思います。

PySparkをインストール

自分はvenvを使って仮想環境を作って試してみました。

$ python -m venv pyspark-samples
$ source ./python-samples/bin/activate
$ pip install pyspark

テストデータをダウンロード

このあたりから適当なCSVをダウンロードして、上記で作成したpython-samplesディレクトリに配置しました。

REPLを起動

$ cd ./python-samples
$ python

Sparkをインポート

こちらのドキュメントの通りにSparkSessionのインスタンスを作ります。

REPL上でペーストしましょう。

>>> from pyspark.sql import SparkSession
>>>
>>> spark = SparkSession \
...     .builder \
...     .appName("Python Spark SQL basic example") \
...     .config("spark.some.config.option", "some-value") \
...     .getOrCreate()
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
24/04/10 23:11:32 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
>>>

CSVを読み込んでみる

>>> df = spark.read.format("csv").option("header", True).load("addresses.csv")
>>> df.show(10)

+---+-----------+--------------------+---------+------------+--------------+-----------+-------+
| id|location_id|           address_1|address_2|        city|state_province|postal_code|country|
+---+-----------+--------------------+---------+------------+--------------+-----------+-------+
|  1|          1|2600 Middlefield ...|     NULL|Redwood City|            CA|      94063|     US|
|  2|          2|    24 Second Avenue|     NULL|   San Mateo|            CA|      94401|     US|
|  3|          3|    24 Second Avenue|     NULL|   San Mateo|            CA|      94403|     US|
|  4|          4|    24 Second Avenue|     NULL|   San Mateo|            CA|      94401|     US|
|  5|          5|    24 Second Avenue|     NULL|   San Mateo|            CA|      94401|     US|
|  6|          6|   800 Middle Avenue|     NULL|  Menlo Park|            CA| 94025-9881|     US|
|  7|          7|      500 Arbor Road|     NULL|  Menlo Park|            CA|      94025|     US|
|  8|          8|   800 Middle Avenue|     NULL|  Menlo Park|            CA| 94025-9881|     US|
|  9|          9|2510 Middlefield ...|     NULL|Redwood City|            CA|      94063|     US|
| 10|         10|1044 Middlefield ...|     NULL|Redwood City|            CA|      94063|     US|
+---+-----------+--------------------+---------+------------+--------------+-----------+-------+
only showing top 10 rows

SQLで検索してみる

SQLにはFROM句があります。先に、FROM句に渡すための名前をつけます。

>>> df.createOrReplaceTempView("test")

SQLで検索してみましょう。

>>> results = spark.sql("""SELECT id, city FROM test LIMIT 10""")
>>> results.show(10)

+---+------------+
| id|        city|
+---+------------+
|  1|Redwood City|
|  2|   San Mateo|
|  3|   San Mateo|
|  4|   San Mateo|
|  5|   San Mateo|
|  6|  Menlo Park|
|  7|  Menlo Park|
|  8|  Menlo Park|
|  9|Redwood City|
| 10|Redwood City|
+---+------------+

おわりに

Apache Sparkと聞くとなんかビッグデータとか難しそうっていう印象を持たれるかもしれませんが、実態はそんなことはありません。
本記事のようにREPLを使って試すこともできます。
Apache Sparkにはいろいろな機能があるので是非本記事をとっかかりにして色々触ってもらえると幸いです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up