遭遇した問題
PySparkで以下の様に書いて実行しても何故かdf.parquetという名の空フォルダが作成されてしまいました。
df.write.parquet('path/df.parquet')
そこで、少し手間ですがjupyterでpandasを使いParquet形式のファイルを作成することにしました。
#ライブラリをインポート。
import pandas as pd
#CSVファイル読み込み。
df = pd.read_csv('path/df.csv')
ここでいきなり
df.to_parquet('path/df.parquet')
と書いて実行してもうまくいかず、次の準備が必要でした。
!pip install pyarrow
これで先のコードを実行するとうまくParquet形式のファイルを作成できました。
作成したファイルをPySparkで読み込むには以下の様に書けば大丈夫です。
Df = spark.read.parquet('path/df.parquet', header=True, inferSchema=True)