データレイクサービスのまとめ、構成について
ハンズオンで適当な環境でしか実行をしていなかったのでAWSのベストプラクティス的要素とそのたデータレイク関連のサービスについて調べ、まとめることに
最終回で今回の学習をもとにした簡単なデータレイク基盤の作成、glue+Athena+Quicksightの流れを発表したいと思います
今までは単純にS3でデータを取ってくる、前回はSecuritylakeにフォーカスしましたが
AWS Lake FormationとData Lake Foundation on AWS
Partner Solution Deployment Guide
AWS Lake Formation の特徴
AWS Lake Formation を使用すると、分析や機械学習 (ML) 用のデータを一元管理、保護、およびグローバルに共有することが容易になります。
Lake Formation では、AWS Glue データカタログを使用してデータのセキュリティとガバナンスを一元化できます。
データの管理保護、監査をしつつ、権限の管理を行う
良い点として
データ権限を一元化
実際にsecuritylakeだったり、Glueで読み込んだところをlake formationのところで参照ができる
セキュリティ管理とカバナンスを簡素化
データ共有の簡素化
包括的なデータアクセスと監査ロギング
Lake Formation は、CloudTrail で包括的なログ監査をオンにして、アクセスをモニタリングし、一元的に定義されたポリシーに準拠していることを示すことができます。
データ分析のサービスを使用する際に直接的に使用するわけではないが、権限分離、管理などができるため
実際のサービス導入については結構必要になっていくサービスであるとの認識です
ちなみにJPモルガンチェースも導入しており
https://aws.amazon.com/jp/blogs/big-data/how-jpmorgan-chase-built-a-data-mesh-architecture-to-drive-significant-value-to-enhance-their-enterprise-data-platform/
Data Lake Foundation on AWS
Partner Solution Deployment Guide
クイックスタートでは、Amazon Simple Storage Service (Amazon S3)、Amazon Redshift、Amazon Kinesis、Amazon Athena、AWS Glue、Amazon Elasticsearch Service (Amazon ES)、Amazon SageMaker、Amazon QuickSight などの AWS のサービスを統合するデータレイク基盤を構築します
もちろんではあるがクイックスタートではAWSのサービスをすべて使っているほうが良いと
2 つのアベイラビリティーゾーンにまたがり、2 つのパブリックサブネットと 2 つのプライベートサブネットを含む仮想プライベートクラウド (VPC)。*
インターネットへのアクセスを提供するインターネットゲートウェイ。*
パブリックサブネットに配置される、マネージド NAT ゲートウェイ。プライベートサブネット内のリソースへのアウトバウンドのインターネットアクセスを提供します。*
パブリックサブネットの Auto Scaling グループに含まれる Linux 踏み台ホスト。パブリックサブネットおよびプライベートサブネット内の EC2 インスタンスへのインバウンドのセキュアシェル (SSH) アクセスを許可します。*
AWS リソースへのアクセス許可を提供する AWS Identity and Access Management (IAM) ロール。例えば、キュレートされたデータセットに対して Amazon Redshift と Amazon Athena から読み書きできるようになります。
プライベートサブネットに配置される、データ集約、分析、変換、新規にキュレートおよび公開されるデータセットの作成のための Amazon Redshift。
AWS 認証を使用してアクセスできる Amazon SageMaker インスタンス。
Amazon S3、Amazon Athena、AWS Glue、AWS Lambda、Amazon ES with Kibana、Amazon Kinesis、Amazon QuickSight など、他の Amazon サービスとの統合。