AWS Glueをざっくりと理解するために基本的な概念とコンポーネントを、図と用語で整理してみます。
AWS Glueとは?
-
フルマネージド・ETL&データカタログツール
- ETL = どっかからデータ引っ張って、いい感じに変換してどっかに突っ込むこと
- データカタログ = データ活用をしやすくするためのメタデータの目録
ざっくりとした概念図
特徴
- サーバレス
- 高セキュリティ
- etc..
用語
- データストア
- S3, DynamoDB, RDBなど
- データソース
- Glueへの入力に使われるデータストア
- データターゲット
- Glueからの出力に使われるデータストア
- データカタログ(Data Catalog)
- Glueを利用するための箱
- ジョブ、メタデータ(データベース,テーブル)などGlueに関わるコンポーネントはすべてここに含まれる
- 1AWSアカウントの1リージョンにつき、1データカタログ
- データベース
- データカタログに含まれる。テーブル等をまとめておくもの。
- テーブル
- データベースに含まれる
- データソースについてのメタデータを格納したもの
- あくまでメタデータを格納しており、実際のデータは含まない
- 分類子
- データのスキーマを決定する
- その他の用語
メモ
- テーブルは手動(またはCloudformation等)でも作成できるが、クローラから作成するのがミスが少なくて良い
- CloudformationはデータソースにDynamoDBを使用したクローラの作成には未対応(2019/06現在)
- というかDynamoDBはいろいろ未対応。まだDynamoDBには少々使いづらい印象。