はじめに
AWS Glueジョブ実行後の結果を見ると、複数ファイルが出来てしまいました。
1つでいいんだが!と思い、1つにまとめる方法について調べました。
repartitionをしよう
DynamicFrame
でもDataFrame
でも同じやり方でOKです。
どちらのクラスにもrepartition
という分割し直しをしてくれるメソッドがあり、それを使うことで変換後のファイルもその数で出力してくれます。
自動生成したスクリプトを修正した例を載せておきます。
glueContext.create_dynamic_frame.from_catalog(database = "default", table_name = "data_source", transformation_ctx = "datasource0").repartition(1)
分割したい数は指定可能なので、もっと分割したいよということであれば数字部分を変更してください。