AWS
Spark
glue
Athena

Glueの使い方的な

Glueのすぐ使えそうな操作

※アップデートが入った場合はなるべく修正してゆきます(`・ω・´)ゞ

1.Glueの使い方的な①(GUIでジョブ実行)
GUIだけでcsv->parquet変換処理を作る

2.Glueの使い方的な②(csvデータをパーティション分割したparquetに変換)
元データにタイムスタンプが入ってるデータを、パーティションによるディレクトリ構成にしてデータ配置とフォーマットなど変換

3.Glueの使い方的な③(CLIでジョブ作成)
CLIでジョブ作成操作。いろんなスケジューラーとの連携想定

4.Glueの使い方的な④(ブックマーク)
Glueのブックマーク機能を使って重複した処理を防ぐ

5.Glueの使い方的な⑤(パーティション分割してるcsvデータをパーティション分割したparquetに変換)
パーティション分割して配置されてるcsvを同じパーティション分割してparquetにする

6.Glueの使い方的な⑥(監視モニタリング)
Glueの監視

7.Glueの使い方的な⑦(StepFunctionsでジョブフロー)
Glueクローラー実行して処理が終わったらGlueジョブを実行するフローを作る

8.Glueの使い方的な⑧(アップデート履歴)

9.Glueの使い方的な⑨(Data Catalogのバックアップリストア)

10.Glueの使い方的な⑩(カスタムClassifierの手始め)

11.Glueの使い方的な⑪(DynamicFrameでpartitionByが使えるようになった)

12.Glueの使い方的な⑫(DynamicFrameのPre-Filtering機能)

13.Glueの使い方的な⑬(Glueを試してみる!チュートリアル集)

14.Glueの使い方的な⑭(クローラー(Crawler)のSchemaChangePolicyその1)

15.Glueの使い方的な⑮(クローラー(Crawler)のConfiguration optionその2)

16.Glueの使い方的な⑯(出力ファイル数をまとめる)

17.Glueの使い方的な⑰(DynamoDBをデータソースにする)

18.Glueの使い方的な⑱(ETL ジョブの CloudWatch メトリクス確認)

19.Glueの使い方的な⑲(TIPS、ユーザー設定)

20.Glueの使い方的な⑳(クローラーオプション_Grouping behavior for S3 data)

21.Glueの使い方的な㉑(セキュリティ設定 & データカタログ暗号化)

22.Glueの使い方的な㉒(csvデータをパーティション分割したparquetに変換_2)
元データに"2018/08/26 12:00:01"みたいなタイムスタンプが入ってるデータを、パーティションによるディレクトリ構成にしてデータ配置とフォーマットなど変換

23.Glueの使い方的な㉓(DevEndpointとNotebookの使い方_2018夏)

24.Glueの使い方的な㉔(S3からRedshiftにロード_準備編)

25.Glueの使い方的な㉕(S3からRedshiftにロード_実行編)

26.Glueの使い方的な㉖(S3のオブジェクトのリストを取る)

27.Glueの使い方的な㉗(Jupyter NotebookをGlueの開発で使う)

28.Glueの使い方的な㉘(DataFrameでデータ読み込み)

29.Glueの使い方的な㉙(セキュリティグループの自己参照ルール)

TIPS

101.S3 Selectでparquetファイルを開く(parquet-tools入れるより楽かも)

102.PySparkのshow()で...な時

 外部

多くの小さなファイルをまとめて読み込むgroupFiles/groupSize指定でパフォーマンスを改善する_クラメソ

入力データを絞り込む_cloudpack

VPCの設計_オフィシャルブログ