10
Help us understand the problem. What are the problem?

More than 1 year has passed since last update.

posted at

updated at

Organization

AWS Glueの概要を図と用語で整理する

AWS Glueをざっくりと理解するために基本的な概念とコンポーネントを、図と用語で整理してみます。

AWS Glueとは?

  • フルマネージド・ETL&データカタログツール
    • ETL = どっかからデータ引っ張って、いい感じに変換してどっかに突っ込むこと
    • データカタログ = データ活用をしやすくするためのメタデータの目録

ざっくりとした概念図

image.png

特徴

  • サーバレス
  • 高セキュリティ
  • etc..

用語

  • データストア
    • S3, DynamoDB, RDBなど
  • データソース
    • Glueへの入力に使われるデータストア
  • データターゲット
    • Glueからの出力に使われるデータストア
  • データカタログ(Data Catalog)
    • Glueを利用するための箱
    • ジョブ、メタデータ(データベース,テーブル)などGlueに関わるコンポーネントはすべてここに含まれる
    • 1AWSアカウントの1リージョンにつき、1データカタログ
  • データベース
    • データカタログに含まれる。テーブル等をまとめておくもの。
  • テーブル
    • データベースに含まれる
    • データソースについてのメタデータを格納したもの
    • あくまでメタデータを格納しており、実際のデータは含まない
  • 分類子
    • データのスキーマを決定する
  • その他の用語

メモ

  • テーブルは手動(またはCloudformation等)でも作成できるが、クローラから作成するのがミスが少なくて良い
  • CloudformationはデータソースにDynamoDBを使用したクローラの作成には未対応(2019/06現在)
    • というかDynamoDBはいろいろ未対応。まだDynamoDBには少々使いづらい印象。
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
10
Help us understand the problem. What are the problem?