0
0

Amazon DataZone のアカウント連携してデータ公開

Last updated at Posted at 2024-05-17

Amazon DataZone における複数アカウントの関連付けを行った上で、ポータル内でデータ共有する流れを試してみました。(備忘録メモとしての記事となります。)

Amazon DataZoneとは

Amazon DataZoneは、AWS、オンプレミス、サードパーティのソースに保存されたデータをカタログ化、検索、共有、管理するためのデータ管理サービスです。

Amazon DataZoneを使用して、組織間のデータアクセスを管理できます。

データのパブリッシュとサブスクライブのワークフローを提供しているので、これにより、データプロデューサーはアセットを、ドメイン内にデータカタログとして公開できます。
そして、データコンシューマーは、サブスクライプフローを通したアクセス制御メカニズムによって、カタログにあるデータにアクセスできるようになります。
Amazon DataZone では、さまざまなデータへのアクセス制御を一元化できるため、誰がどのデータをどのような目的で使用しているかを容易に確認することができます。

あともう1つ、Amazon DataZoneが支援するユースケースとしてあるのが、ビジネスカタログの整備です。

Amazon DataZoneでビジネス用語集を用意することができまして、提供されている検索ポータルから、データを組織内の共通言語によって検索できます。
そして見つけたそのデータカタログがどういったデータなのかを、直感的に理解し、より活用しやすい環境を、データ基盤として作れるというのも、このAmazon DataZoneの特徴にあります。


ではさっそく Amazon DataZone での複数アカウントの関連付けをしていきたいと思います。

この検証では AWS コンソールにおいて、アカウントAはダークモード表示、アカウントBをライトモード表示としております。また、DataZone ポータルでは左上のプロジェクト名でアカウントAとアカウントBを区別できます。

1. アカウントAでドメインを作成していきます。

Screenshot 2024-05-17 at 13.38.17.png

ドメイン名は「Corporate」とします。
Screenshot 2024-05-17 at 13.40.18.png

Screenshot 2024-05-17 at 13.42.03.png

2. DataLake のブループリントを有効にします。

Screenshot 2024-05-17 at 13.43.46.png

Screenshot 2024-05-17 at 13.44.38.png

3. アカウントAでプロジェクト、環境プロファイル、環境を作成していきます。

Account_A というプロジェクトを作成します。
Screenshot 2024-05-17 at 13.45.51.png

AccountAprofile という環境プロファイルを作成します。
Screenshot 2024-05-17 at 13.46.32.png

Screenshot 2024-05-17 at 13.48.25.png

AccountAenvironment という環境を作成します。
Screenshot 2024-05-17 at 13.49.02.png

Screenshot 2024-05-17 at 13.50.58.png

4. Corporate にアカウントBを関連付けしていきます。

AccountA でアカウントBの関連付け申請をします。
Screenshot 2024-05-17 at 13.54.06.png

AccountB で関連付けリクエストを承認します。
Screenshot 2024-05-17 at 13.55.53.png

承認時にブループリントをデータレイクとして選択します。
Screenshot 2024-05-17 at 13.59.14.png

Screenshot 2024-05-17 at 14.01.29.png

5. アカウントBのプロジェクト、環境プロファイル、環境をCorporate内に作成していきます。

Screenshot 2024-05-17 at 14.04.55.png

AccountBprofile という環境プロファイルを作成します。
Screenshot 2024-05-17 at 14.05.43.png

プロファイル作成時にはAWSアカウントの選択でアカウントBのアカウントIDを選択します。
Screenshot 2024-05-17 at 14.06.46.png

Screenshot 2024-05-17 at 14.08.24.png

AccountBenvironment という環境を作成します。
Screenshot 2024-05-17 at 14.10.13.png

※もし環境作成の途中でエラーがでたら、AWS Lake Formationで Data lake administrators にアカウントAのDataZoneプロビジョニングロールを追加して、再実行してください。
Screenshot 2024-05-17 at 14.15.12.png

6. アカウントBでデータカタログを整備します。

アカウントBのS3バケットにデータファイルをアップロードします。
Screenshot 2024-05-17 at 14.17.40.png

AWS Glue で crawler を作成します。Screenshot 2024-05-17 at 14.20.10.png

データソースにさきほどファイルをアップロードしたバケットを選択します。
Screenshot 2024-05-17 at 14.22.34.png

実行ロールを新規で作成し、選択します。
Screenshot 2024-05-17 at 14.23.02.png

ターゲットデータベースに Datazone の accountbenvironment の Pub DB を選択します。
Screenshot 2024-05-17 at 14.24.05.png

crawler が作成されます。
Screenshot 2024-05-17 at 14.26.02.png

crawler を実行する前に、Lake Formation で crawler 実行ロールにおける pub db へのテーブル作成権限を付与します。
Screenshot 2024-05-17 at 14.29.07.png

Screenshot 2024-05-17 at 14.30.33.png

AWS Glue の さきほど作った crawler を実行していきます。
Screenshot 2024-05-17 at 14.31.44.png

Crawler が完了したら、テーブルが作成されていることが確認できます。
Screenshot 2024-05-17 at 14.33.14.png

これで、アカウントBのデータカタログが DataZone 内のポータルで 利用できるようになりました。

7. アカウントB内にあるデータカタログを DataZone の Account_B プロジェクトに取り込みます。

Screenshot 2024-05-17 at 14.38.40.png

取り込みジョブを実行します。
Screenshot 2024-05-17 at 14.39.01.png

取り込みが完了すると、アセット名が表示されます。
Screenshot 2024-05-17 at 14.40.28.png

インベントリデータにもデータアセットが表示されます。
Screenshot 2024-05-17 at 14.42.55.png

Screenshot 2024-05-17 at 14.44.50.png

8. Account_B プロジェクトからアカウントBのデータアセットを公開します。

データアセットを公開しようとすると、DataZone管理対象外というアラートがでます。
Screenshot 2024-05-17 at 14.45.47.png

データアセットを管理対象とするため、アカウントBの AWS Lake Formation のData lake locations の設定を行います。S3 path にはデータファイルをあげたバケットを選択します。
Screenshot 2024-05-17 at 14.47.34.png

登録ができたら、再度 DataZone ポータルで公開を試みると、管理対象外のアラートは消えているのでそのまま公開します。(自動生成メタデータのアラートは今回は無視しております。)
Screenshot 2024-05-17 at 14.50.43.png

8. Account_A プロジェクトから公開されたアカウントBのデータアセットを検索してみます。

Screenshot 2024-05-17 at 14.54.33.png

無事検索ができ、アカウントを関連付けした上で、Amazon DataZone 内でデータ共有ができることが確認できました。


今回、Amzon DataZone で 複数のアカウントを関連付けし、アカウントを跨いだデータ共有の流れを試してみました。まだ、Amazon DataZone は新しいサービスなので、今後 DataZone を試されるどなたかのヒントになれば幸いです。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0