勉強前イメージ
lakeってことはデータ取り込むような場所ってことかな?
調査
AWS Lake Formation とは
AWS Glueの拡張のようなもので
AWSでデータレイクを構築・運用するためのマネージドサービスで、
安全なデータレイクを数日でセットアップ出来るのが特徴になります。
データの移動や保管、クリーニング処理を素早く行うことが出来ます。
実体はAWSの各種サービス(s3,IAM,Glueなど)をラップしたものになります
データレイクとは?
データをそのまま生データで格納せきるストレージリポジトリで、
非構造化データをそのままの形式で保管することが出来ます。
メリット
- データレイクをすばやく構築する
データの移動、保存、カタログ化、消去をすばやく実行できます。
また、S3内のデータを頻繁に使用されるクエリ用語で整理し、まとめ、効率性を向上します。
- セキュリティ管理を簡素化する
セキュリティ、ガバナンス、監査のポリシーを一元で 1つの場所で定義出来るので、サービスごとに行う必要がありません。
また、定義したポリシーは全体に適応できます。
- データにセルフサービスアクセスを提供する
データカタログを構築することによって、分析対象のデータセットを適切に検索できます。
用語(各コンポーネント)の説明
- データレイク
- データカタログの実体としてs3に保管されたデータ
- 構造化データも非構造化データもどっちも格納できる
- データアクセス
- データへのアクセス権限を管理するもの
- IAM
- ブループリント
- データレイクにデータを格納するためのテンプレート
- ワークフローを作成できる
- ワークフロー
- ブループリントから生成される関連ジョブの格納先
- 実体はAWS Glueのクローラーとトリガー
- データカタログ
- メタデータストアで、メタデータでデータを管理
- 実体はそのままGlueのデータカタログ
勉強後イメージ
s3とかIAMを駆使してデータレイクを作ったサービスって感じ?
元のAWS Glueがわからんからぴんとこないかも