More than 1 year has passed since last update.

Parquet形式のファイルを作りたい

Posted at 2023-02-05

PySparkで以下の様に書いて実行しても何故かdf.parquetという名の空フォルダが作成されてしまいました。

df.write.parquet('path/df.parquet')

そこで、少し手間ですがjupyterでpandasを使いParquet形式のファイルを作成することにしました。

#ライブラリをインポート。
import pandas as pd
#CSVファイル読み込み。
df = pd.read_csv('path/df.csv')

ここでいきなり

df.to_parquet('path/df.parquet')

と書いて実行してもうまくいかず、次の準備が必要でした。

!pip install pyarrow

これで先のコードを実行するとうまくParquet形式のファイルを作成できました。

作成したファイルをPySparkで読み込むには以下の様に書けば大丈夫です。

Df = spark.read.parquet('path/df.parquet', header=True, inferSchema=True)