データの読み込み
path = "gs://bucket/table/year=*/month=*/day=*/location=*/*.parquet"
base_path = "gs://bucket/table/"
df = spark.read.option("basePath", base_path).parquet(path)
ちょっとデータ見たり、件数確認したり。
df.head()
df.count()
スキーマの確認
df.printSchema()
カラムの追加
from pyspark.sql.functions import *
df_new = df.withColumn('timestamp', from_unixtime('ts_unix'))
書き出し
path = "gs://bucket/table/"
df.write.option("compression", "snappy").partitionBy("partition_col1","partition_col2").parquet(path)