Help us understand the problem. What is going on with this article?

AWS Glueのジョブで自動生成したコードをAthenaのパーティションに対応させたい

はじめに

AWS Glueのジョブは自動的に変換スクリプトを作ってくれますが、Athenaのパーティションに対応していません。
ネットを色々見ましたが、全然上手くいかず困りましたがなんとかなったので、対応方法についてまとめました。

事前準備

事前にテーブルを作成します。
テーブルについてへGlueのGUI上からぽちぽちっと作成しています。
今回は同じテーブルでpartitionがないテーブルからparitionがあるテーブルに移行するとして記事を書いています。
b_tableはjsonで作成しています。
a_tableはなんでも良いです。(自分はCSVファイルをクローラーで読み込ませて作りました)
b_tableをjsonにした理由としては、CSVだとヘッダー行も生成されるせいかAthena上からクエリ発行できなかったからです。
Parquetで作りたかったのですが、上手くパーティションを認識してくれなかったので諦めました。
databaseは適当な場所でOKです。

a_table
id: bigint
name: string
date: string
b_table
id: bigint
name: string
date: string(partition)

ジョブの作成も必要ですが、ぽちぽちするだけなので割愛します。
スクリプトは自動生成しているものとします。

スクリプトの編集

2箇所変更が必要です。
変更後のソースのみ記述しますが、自動生成したコードを検索するとすぐに分かるかと思います。

一つ目はSelectFields.applyを変更します。
自動生成では、パーティションについての記述がありませんが、pathsに記述を追加してあげる必要があります。
今回はdateを追加しています。

selectfields2 = SelectFields.apply(frame = applymapping1, paths = ["id", "name", "date"], transformation_ctx = "selectfields2")

次にglueContext.write_dynamic_frame.from_catalogを編集します。
これにはadditional_optionsを設定することができるので、ここにパーティション情報を設定していきます。
partitionKeysListになっているため、複数設定することが可能となっています。
複数設定する場合はテーブルに設定したパーティションの順番と合わせて記載してください。

additionalOptions = { "enableUpdateCatalog": True "partitionKeys" : ["date"]}
datasink5 = glueContext.write_dynamic_frame.from_catalog(frame = resolvechoice4, database = "default", table_name = "b_table", additional_options = additionalOptions, transformation_ctx = "datasink5")

実行と確認

実行はGUI上から可能なので、しばらく待ちます。
終わったらGlueのテーブルからパーティションが出来ていることを確認したり、Athena上からクエリ投げたりして確認してみてください。

参考URL

https://dev.classmethod.jp/articles/aws-glue-now-supports-the-ability-to-update-partitions-from-glue-spark-etl-jobs/

tasogarei
元々Java屋さんでしたがRailsはじめました。 と思ったらPython書いたりもしてます。
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした