More than 3 years have passed since last update.

AWS Glueジョブが毎回データ元を全部読み込むから重複データが出来まくりなのをやめたい

Posted at 2020-09-03

はじめに

AWS Glue便利ですね！
Athenaのパーティション使いながら元データ加工してInsertが簡単に出来ちゃうので、ビックデータ扱うのには便利です。
でも、何も考えずに設定すると全ファイルを毎回読み込むため、ジョブを実行するたびにデータが重複していきます。

なので、前回までの処理を記憶して、新規ファイルだけジョブ実行してもらうための設定を記載します。

基本的にAthenaはInsertしか出来ません。
UpdateだったりDeleteだったりは出来ません。
Deleteはファイルだったり行消しちゃえばできるといえばできるので、正確ではない表現です。

ジョブ作成する際に詳細プロパティ内にあるジョブブックマークを有効化するだけです。
こうすることで処理済みデータを記憶してくれるので、実行済みのデータは無視するようになります。