AWS
Spark
glue
Athena

Glueの使い方的な

Glueのすぐ使えそうな操作

※アップデートが入った場合はなるべく修正してゆきます(`・ω・´)ゞ

1.Glueの使い方的な①(GUIでジョブ実行)
GUIだけでcsv->parquet変換処理を作る

2.Glueの使い方的な②(csvデータをパーティション分割したparquetに変換)
元データにタイムスタンプが入ってるデータを、パーティションによるディレクトリ構成にしてデータ配置とフォーマットなど変換

3.Glueの使い方的な③(CLIでジョブ作成)
CLIでジョブ作成操作。いろんなスケジューラーとの連携想定

4.Glueの使い方的な④(ブックマーク)
Glueのブックマーク機能を使って重複した処理を防ぐ

5.Glueの使い方的な⑤(パーティション分割してるcsvデータをパーティション分割したparquetに変換)
パーティション分割して配置されてるcsvを同じパーティション分割してparquetにする

6.Glueの使い方的な⑥(監視モニタリング)
Glueの監視

7.Glueの使い方的な⑦(StepFunctionsでジョブフロー)
Glueクローラー実行して処理が終わったらGlueジョブを実行するフローを作る

8.Glueの使い方的な⑧(アップデート履歴)

9.Glueの使い方的な⑨(Data Catalogのバックアップリストア)

10.Glueの使い方的な⑩(カスタムClassifierの手始め)

11.Glueの使い方的な⑪(DynamicFrameでpartitionByが使えるようになった)

12.Glueの使い方的な⑫(DynamicFrameのPre-Filtering機能)

13.Glueの使い方的な⑬(Glueを試してみる!チュートリアル集)

14.Glueの使い方的な⑭(クローラー(Crawler)のSchemaChangePolicyその1)

15.[Glueの使い方的な⑮(クローラー(Crawler)のConfiguration optionその2)]

16.Glueの使い方的な⑯(#parquetファイル #たくさん #まとめたい #sparkで)