More than 3 years have passed since last update.

Glueの用語メモ

Posted at 2023-06-15

はじめに

Glueを作成してみたのですが、用語の内容がよく頭にはいらない。。。
整理のため、Glueのサービス内で出てくる用語についてまとめたいと思います。

ETL処理が行えるマネージドサービス。
多様なデータソースからデータカタログでデータを管理し、ETL(抽出、変換、ロード)を視覚的に実施することができる。
ロード後のデータについては、Athena、EMR、Redshift Spectrumでデータを検索することができる。

ETLとは

データカタログに格納する。
「分類子(classifiers)」を元にスキーマを返却する。
読み方は勝手に「クラシフィア」と読んでいる。
「分類子」という単語はいまいち馴染みがないところです。

分類子(classifiers)とは

データソースを元にクローラーが作成したメタデータ。

メタデータとは

上記からクローラーは「分類子(classifiers)」に記載されたルールを元にデータソース内のデータを検索し、データカタログにデータソース内のデータのメタデータを格納する。

スケジュールや条件によって、ジョブとクローラーの開始タイミングを設定することができる。
Cron式を用いて、トリガーの開始時間やらを設定することができる。

cron(Minutes Hours Day-of-month Month Day-of-week Year)

また、前のジョブやクローラーが条件を満たした際に起動するなどの条件付きトリガーの設定が可能。

ETLのジョブをGUIで視覚的に作成して実行することができる。