Glue Python shell なにそれおいしいの?
Glue上で動く時間制限がないLambda(python)みたいなもの ?
サーバーレス ?
おもろいジョブフロー作れそう ?
Jupyter Notebookでなにかおもしろいことやれる ?
1回の実行で0.05円 ?
Glue Python shell ネタを集めたい
おもしろいネタ
実用的なネタ
ちょっとした小ネタ
作った方いらしたら是非お気軽にコメントなどでご連絡ください。リンクをはらせてください。
ネタ集
1.Sparkジョブで出力された長い名前のファイル名をPython Shellでリネーム
2.AWS GlueのPython Shellジョブを使ってGlue Crawlerを呼ぶ
3.データの移動
https://aws.amazon.com/jp/blogs/big-data/our-data-lake-story-how-woot-com-built-a-serverless-data-lake-on-aws/
GlueがS3にデータを書き込んでいる間にユーザーがそのテーブルをクエリした場合、長時間実行されるジョブの中には読み取りの不一致が発生するものがあります。 AWS GlueジョブをSparkを使用して一時ディレクトリに書き込むように変更し、次にboto3を使用してファイルを所定の場所に移動しました。これにより、読み取りの不整合が最大90パーセント減少しました
4.python shellでジョブフロー
安定のクラメソさんのブログ。Redshiftの集計〜Glueのジョブ〜パーティションの追加といった一連の処理を、ETLパイプラインとしてまとめることができます
5.python shellだけでRDS->S3
コネヒトさんで、Glueのpython shellのみを使ったETL。データ量に応じて適切な処理エンジン選ばれてます
こちらも是非
Glueの使い方まとめ
https://qiita.com/pioho07/items/32f76a16cbf49f9f712f