LoginSignup
22
21

More than 3 years have passed since last update.

AWS Lake Formationの概要を図と用語で整理する

Posted at

AWS Lake Formationをざっくりと理解するために基本的な概念とコンポーネントを、図と用語で整理してみます。

AWS Lake Formationとは?

  • AWSでデータレイクを構築・運用するためのマネージドサービス
    • 実体は、ほぼAWSの各種サービスをラップしたもの(Glue, IAM, S3, etc..)
    • データレイク専用にアクセス制御を行うために、IAMとは別に独自の権限管理機構を持つ
  • 実データも保持しセキュリティ向上と権限管理が簡単に行えるAWS Glueという印象
    • IAMやGlueを個別に駆使してデータレイクを構築・運用するよりデータレイクに特化していて扱いやすい

ざっくりした概念図

図にするとかなりシンプル。
image.png

備考

用語

AWS Lake Formationにおける各用語の定義。

用語 意味
データレイク(Data Lake) Lake Formationのデータカタログの実体としてS3に保管されたデータ。構造化データ、非構造化データのどちらも格納する
データアクセス(Data Access) Lake Formation(以後LF)において、データへのアクセス権限を管理する。実体はIAM
ブループリント(Blueprint) データレイクにデータを簡単に格納するためのテンプレート。ブループリントからワークフローを作成できる。
ワークフロー(Workflow) 関連ジョブの入れ物。ブループリントから生成される。実体はAWS Glueのクローラーとトリガー。Glueの面倒なあれこれをラップしている
データカタログ(Data Catalog) メタデータストア。Apache Hiveのようにメタデータでデータを管理。実体はそのままGlueのデータカタログ。1AWSアカウント、1リージョンに1つだけ作成できる
Underlying Data データカタログテーブルが参照する元データ
プリンシパル(Principal) そのままIAMのプリンシパル
データレイク管理者(Data Lake Administrator) Lake Formation管理下にあるリソースの全権限を付与されたプリンシパル。LFを開始した際に最初に作られるユーザ。データレイク専用の管理者としてIAMの権限管理機能とは別に定義されており、IAMのAdministratorAccessを持っていても自動的にはデータレイク管理者にはならない(自分で自分を指定することは可能)。※詳細image.png

メモ

  • LFはGlueとデータカタログを共有する
  • Glueにできないことはできない
22
21
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
22
21