AWS Lake Formationをざっくりと理解するために基本的な概念とコンポーネントを、図と用語で整理してみます。
AWS Lake Formationとは?
-
AWSでデータレイクを構築・運用するためのマネージドサービス
- 実体は、ほぼAWSの各種サービスをラップしたもの(Glue, IAM, S3, etc..)
- データレイク専用にアクセス制御を行うために、IAMとは別に独自の権限管理機構を持つ
-
実データも保持しセキュリティ向上と権限管理が簡単に行えるAWS Glueという印象
- IAMやGlueを個別に駆使してデータレイクを構築・運用するよりデータレイクに特化していて扱いやすい
ざっくりした概念図
備考
- 公式ドキュメント (2020/02/04時点では英語のみ)
- 公式マンガがあるよ
- Lake Fromationの根っこにはAWS GlueがあるためAWS Glueの概要を図と用語で整理すると一緒に見るとわかりやすいかもしれません
用語
AWS Lake Formationにおける各用語の定義。
用語 | 意味 |
---|---|
データレイク(Data Lake) | Lake Formationのデータカタログの実体としてS3に保管されたデータ。構造化データ、非構造化データのどちらも格納する |
データアクセス(Data Access) | Lake Formation(以後LF)において、データへのアクセス権限を管理する。実体はIAM |
ブループリント(Blueprint) | データレイクにデータを簡単に格納するためのテンプレート。ブループリントからワークフローを作成できる。 |
ワークフロー(Workflow) | 関連ジョブの入れ物。ブループリントから生成される。実体はAWS Glueのクローラーとトリガー。Glueの面倒なあれこれをラップしている |
データカタログ(Data Catalog) | **メタデータストア。**Apache Hiveのようにメタデータでデータを管理。実体はそのままGlueのデータカタログ。1AWSアカウント、1リージョンに1つだけ作成できる |
Underlying Data | データカタログのテーブルが参照する元データ |
プリンシパル(Principal) | そのままIAMのプリンシパル |
データレイク管理者(Data Lake Administrator) | Lake Formation管理下にあるリソースの全権限を付与されたプリンシパル。LFを開始した際に最初に作られるユーザ。データレイク専用の管理者としてIAMの権限管理機能とは別に定義されており、IAMのAdministratorAccess を持っていても自動的にはデータレイク管理者にはならない(自分で自分を指定することは可能)。※詳細
|
メモ
- LFはGlueとデータカタログを共有する
- Glueにできないことはできない