AWS Glueについて

Last updated at 2019-09-03Posted at 2019-09-03

AWS Glue?
なにそれ美味しいの？レベルが現状。
その為キャッチアップの内容をざっくりまとめていく。それに伴い、気になった用語等々も併せて拾っていく。

AWS Glueとは

👉 サーバレスでデータの加工が出来るヨ

リモートソースから情報を取得し、定義されたフォーマットとスタイルに変換し、データベース、データソース、またはデータウェアハウスにロードする統合アプローチのこと

Glueはフルマネージドであり、その処理はスケールアウトするため、ユーザはデータ規模やインフラ運用を意識することなく、データを加工するスクリプト(ETLの"T"に対応)の作成に集中することが出来る。
ほかにも、Glueは、下記機能を備えている

データストアのデータをデータカタログに移住させるために使用する機能。

作成されたクローラには、ジョブ実行方法(オンデマンドか、スケジュールベースか、イベントベースか)が定義されている。
たとえば、クローラを定期実行させておくことで、データカタログがデータストアに対しおおむね最新であることが保証される。

より分析に適した形にするために、ETL処理をする機能

クローラを使って単にデータをデータカタログへと移住させただけでは、クエリを叩けてもデータが使いにくく、ユーザにとって分析が難しい場合がある。
このとき、より分析に適した形にするために、ETL処理を行うため。

Glueにおけるジョブとは、ETL作業を実行するビジネスロジック。
ジョブが開始されると、そのジョブに対応するETL処理を行うスクリプトが実行される。
こちらもクローラと同様に定期実行などの自動化が可能である。

ユーザは、ジョブ作成者として、抽出元(データソース)、およびロード先(データターゲット)を定義する。
ただし、データソースおよびデータターゲットは、どちらもデータカタログ上のデータです。
ユーザは、ジョブ処理環境を調整したり、生成されるスクリプトをビジネスニーズに基づいて編集したりする。

最終的に、Apache Spark API (PySpark) スクリプトが生成される。
👉自動生成...すごい...近未来感...