More than 1 year has passed since last update.

Amazon DataZone（Preview）を試してみた

Last updated at 2023-04-25Posted at 2023-04-02

背景・目的

Amazon DataZone(以降、DataZoneといいます。)のPreview 版が公開されましたので、知識の整理と、簡単に動作を試してみました。

前提・留意点

2023年3月31日現在、Previewになっています。GAにより、下記に記載されている内容が変更になる可能性がありますのでご注意ください。
最新の情報は、ドキュメントをご確認ください。

2023年3月31日現在、利用できるリージョンは下記のとおりです。

米国西部 (オレゴン)
欧州 (アイルランド)
米国東部 (バージニア北部)

概要

DataZoneとは？

こちらのドキュメントに記載されている内容を整理します。

DataZone は、下記を可能にするデータ管理サービス。

Catalog
- データプロデューサーがビジネス領域全体でデータをカタログ化して、データをより見つけやすくできる。
Discover
- データコンシューマーが関心のあるデータ資産を検索して簡単に見つけられるようにする。
Govern
- 下記を分離し、ガバナンスを簡素化できる。
  - ドメイン
  - プロデューサー
  - コンシューマー
Share
- プロデューサーがコンシューマーのデータアクセス要求を満たすことができる。
Analyze
- コンシューマーがアクセスできるデータを分析できる。

DataZone を使用すると、アカウントとサポートされているリージョン間でデータを共有してアクセスが可能。
Amazon DataZone は、Amazon Redshift、Amazon Athena、AWS Glue、AWS Lake Formation を含むがこれらに限定されない AWS サービス全体でのエクスペリエンスを簡素化する。

AWSサービスのサービスと統合方法

下記の3種類の統合をサポートしている。

Producer data source
- Glue Data Catalog および Redshift のテーブルとビューに保存されているデータから、データを DataZone カタログにPublish可能
- オブジェクトを S3から Amazon DataZone カタログに手動で発行することも可能
Consumer tools
- Athena、Redshiftクエリエディタを使用して、データにアクセスして分析可能
Access control and fulfillment
- LakeFormation管理のGlueテーブルとRedshiftテーブル、ビューへのアクセス許可をサポートする。
- 他の全てのデータ資産について、DataZoneはユーザのアクション（サブスクリプションリクエストに対する承認など）に関連するイベントをEventBridgeに発行する。これらのイベントを通じてカスタム統合のために、AWSサービスまたは3rd Partyソリューションと統合可能

Data Zoneへのアクセス

APIはプレビューではサポートされていない。

2つのUIが利用できるようです。また、APIも利用できるようですが、プレビューリリースでは利用できないようです。

DataZoneコンソール
- マネジメントコンソールからアクセス。
- DataZoneデータポータルの作成に使用する。
DataZoneデータポータル
- セルフサービス方式で、データに対して下記のことができるブラウザベースのWebアプリケーション
  - catalog
  - discover
  - govern
  - share
  - analyze
DataZone HTTPS API
- プレビューではサポートされていない

Amazon DataZone Terminology and Concepts

Amazon DataZone components

下記の4つの主要コンポーネントが含まれています。

コンポーネント	説明	備考
Business data catalog	・組織全体のデータをビジネスコンテキストともにカタログ化・組織内の全員がデータを素早く見つけて理解できるようにする	データカタログそのもの
Publish and subscribe workﬂows	自動化されたワークフローを使用して、プロデューサーとコンシューマ間のデータをセルフサービス方式で保護し、適切な目的で適切なデータにアクセスできるようにする	ガバナンスを効かせることができる。
Projects	・プロジェクトにより、下記をビジネスユースケースベースでグループ化する　・人　・データ資産　・分析ツール・プロジェクトメンバーがデータ資産を共有できるスペースを提供する。・デフォルトでは、明示的に追加されたユーザのみがプロジェクト内のデータおよび、分析ツールにアクセスできるようにプロジェクトが構成される。・コンシューマーがアクセスできるように、データスチュワードやドメイン管理者により適用されるプロジェクトポリシーに従い、生成されたデータ資産の所有権を管理する	管理の単位と思われる
Data portal (outside the AWS Management Console)	・様々なユーザが、セルフサービス方式でデータのカタログ化、発見、管理、共有、分析を行うことができるWebブラウザ・データポータルはAWS IAM Identity Center(AWS SSOの後継）を使用して、 IAM クレデンシャルまたは、IdPからの資格情報を使用して認証する。

What are Amazon DataZone domains?

DataZoneドメインにより、リソースを整理できるとのことです。ドメインとは、下記のコレクションを指しています。

データアセット
プロジェクト
関連するAWSアカウント
Glue , Redshiftを含むデータソースなどのDataZoneオブジェクト

DataZoneドメインを通じて、下記の組織のビジネス領域とエンティティを柔軟に反映できるとのことです。これらのエンティティを使用することでDataZoneドメインを使用してDataZoneビジネスカタログにデータ資産を公開できる。その後そのドメインにアクセスできる関連付けられたAWSアカウントとリソースへのアクセスを制御できる。

エンティティ	説明
Data assets	データオブジェクト（テーブル、ダッシュボード、ファイル等）
Data sources	Redshiftのテーブル/View、Glueデータカタログ、S3
Metadata forms	データスチュワードの操作を想定している。カスタム定義の属性を追加し、データ資産のメタデータモデルを拡張する。
Business glossaries	メタデータ属性を定義するために使用されるビジネス辞書。Metadata formsに追加され、データ資産に適用される。
Associated AWS accounts	DataZoneドメインを収容するAWSアカウントとの信頼関係がある。この関連によりデータプロデューサーは関連付けされたAWSアカウントからDataZoneドメインにデータ資産をPublishすることが可能になり、コンシューマーは関連付けられたAWSアカウントのデータ資産をサブスクライブできる。

What are Amazon DataZone projects and project profiles?

プロジェクトにより、ユーザーのグループは、DataZone カタログ内のデータ資産のPublish、検出、サブスクライブ、およびコンシュームを含むさまざまなビジネスユースケースで共同作業を行うことが可能になる。各 DataZone プロジェクトには一連のアクセス制御が適用されているため、許可された個人、グループ、およびロールのみがプロジェクトと、このプロジェクトがサブスクライブするデータ資産にアクセスでき、プロジェクトのアクセス許可によって定義されたツールのみを使用できるとのこと。

Project / Project proﬁles	説明
Projects	チームおよびグループの管理されたデータアクセスにプロジェクトが使用できる。プロジェクトは独自のアクセス制御になり、承認された個人、グループ、ロールのみがプロジェクトがサブスクライブしたプロジェクト及びデータ資産にアクセスし、プロジェクトで構成されたツールを使用できる。
Project proﬁles	プロジェクトを作成するための再利用可能なテンプレートを提供する事前に構成されたリソースと機能のセットプロジェクトがデプロイされるAWSアカウントやVPCなどの設定等が含まれる。

Project / Project proﬁles

説明

Projects

チームおよびグループの管理されたデータアクセスにプロジェクトが使用できる。
プロジェクトは独自のアクセス制御になり、承認された個人、グループ、ロールのみがプロジェクトがサブスクライブしたプロジェクト及びデータ資産にアクセスし、プロジェクトで構成されたツールを使用できる。

Project proﬁles

プロジェクトを作成するための再利用可能なテンプレートを提供する事前に構成されたリソースと機能のセット
プロジェクトがデプロイされるAWSアカウントやVPCなどの設定等が含まれる。

What are Amazon DataZone project capabilities?

プロジェクト機能は、プロジェクトの作成中に起動できるデプロイおよび構成パラメーターのスタックのセットを表すとのこと。
Project proﬁlesでは、1つ以上のプロジェクト機能を有効にし、DataZoneプロジェクトの作成に使用できる。
プロジェクトで有効化され他プロジェクト機能は、プロジェクトメンバーがDataZoneカタログのデータ資産を操作する際に使用できるAWSツールとサービス（Athena,Redshift）を定義する。

プレビューでは、下記のプロジェクト機能がサポートされている。また、デフォルトのデータレイク機能を他の機能と組み合わせることはできないとのことです。

Project capability name	説明	リソース
Essential capability	DataZoneプロジェクトから選択された他のサービスを使用するための前提条件。	・KMSキー・IAMロール・S3バケット・CloudWatch Logs ロググループ・S3のVPCエンドポイント・CloudWatch の VPCエンドポイント
Data Lake Default Capability	ドメインの作成時に作成されたデフォルトのプロジェクトプロファイルを使用してプロジェクトを作成すると、デフォルトで選択される。カスタムプロジェクトプロファイルにより、この機能を選択できる。DataZoneプロジェクトのメンバーは、プロジェクト内でDataLakeプロデューサー、コンシューマサービスを起動できる。	デフォルトでは、ユーザはAthenaを使用してLake Formationテーブルを作成、クエリできる。
Data Lake Consumer Capability	DataZoneプロジェクトメンバーは、AthenaおよびLake FormationがサポートするクエリエンジンでLake Formationが管理するアセットのRead Onlyコピーに直接アクセスできる	・Athenaワークグループ・Read onlyのLake Formation権限を持つGlueデータベース・Read Only専用のIAM権限・GlueのVPCエンドポイント・AthenaのVPCエンドポイント・プロジェクトにより管理されるS3へのアクセス
Data Lake Producer Capability	DataZoneプロジェクトメンバーがAthenaを使用して、新しいLakeFormation管理テーブルを作成し、それらをDataZoneカタログにPublishできる。	・Lake FormationのCreate、Grant ・IAM Read、Write ・タグ付けされたGlue ETL
Data Warehouse Consumer Capability	DataZone プロジェクトメンバーが独自の Redshift クラスターに接続して、リモートデータストアにクエリを実行し、新しいデータセットを作成して保存できるようにする。	・Redshiftクエリエディタへのアクセス・DataZoneカタログからサブスクライブされたデータソースへのRead Onlyアクセス・Redshiftのローカルデータ資産を作成する機能
Data Warehouse Producer Capability	DataZone プロジェクトメンバーが独自の Amazon Redshift クラスターに接続して、リモートデータストアのクエリを実行し、新しいデータセットを作成し、それらを Amazon DataZone カタログに公開できるようにする。	・Redshiftクエリエディタへのアクセス・DataZoneカタログからサブスクライブされたデータソースへのRead Onlyアクセス・Redshiftからアセットを作成、公開する機能

What are Amazon DataZone publish and subscribe workflows?

DataZone は、データアセットを Amazon DataZone ドメインに発行するために使用されるプロジェクトを通じてセルフサービス分析を提供する。
プロジェクトは、ドメイン全体でアセットを検出し、サブスクライブすることもできる。最後に、プロジェクトがデータにアクセスして分析できるようにすることで、サブスクリプションを実現できる。

Publish
- データを共有したいDataZoneプロジェクトは、最初にドメインとの有効なパブリッシング契約を結ぶ必要がある。
- パブリッシャーとドメイン間の契約のように機能し、Publishとサブスクライブの条件を定義する。
- Publish契約が成立したらプロジェクトで、Publishジョブを作成し、選択した一連の物理アセットのメタデータをキューレートできる。
- Publishジョブの実行後、ドラフトアセットが作成されデータパブリッシャは追加のメタデータ、説明等を追加してデータ検出を改善する。
Subscribe
- データがドメインに公開されると、サブスクライバーはデータアセットを検出し、サブスクリプションを要求できる。
- サブスクリプションプロセスは、サブスクライバーがカタログを検索及び参照し、必要なアセットを見つけることから始める。
- DataZone ポータルから、正当な理由とリクエストの理由を含むサブスクリプションリクエストを送信することで、データアセットをサブスクライブすることを選択する。
- 次に、Publish契約で定義されているサブスクリプション承認者が、アクセス要求を確認する。
  - このとき要求を承認または拒否ができる。リクエストが承認された場合、サブスクリプションは付与されたと見なされる。
Fulﬁllment
- サブスクリプションが付与されると、サブスクライブしているプロジェクトのデータ資産へのアクセスを容易にするためのフルフィルメントプロセスが開始される。
- データ資産のアクセス制御とフルフィルメントには、下記の 2 つのモードがある。
  - Managed assets
    - DataZone は、Lake Formation が管理する Glue テーブルや Redshift のテーブルとビューなど、管理対象データ資産のフルフィルメントとアクセス許可を管理できる。
  - Unmanaged assets
    - DataZone は、Lake Formation または Redshift のテーブルとビューによって管理されていないデータ資産のフルフィルメントとアクセス許可を管理できない。これらのアセットについて、DataZone はユーザーのアクション (たとえば、サブスクリプションリクエストに対する承認) に関連する標準イベントを EventBridge に発行する。これらの標準イベントを使用して、カスタム統合のために他の AWS サービスまたはサードパーティソリューションと統合できる。

Who are the users of Amazon DataZone?

推奨されるDataZoneペルソナは下記の通り。

ユーザ	ペルソナ	例
Publisher	・データ資産をビジネスデータカタログにPublish ・データ資産のメタデータを編集・Publish要求を承認できるユーザ	・ETLエンジニア・データアナリスト・データエンジニア・データサイエンティスト
Subscriber	データ資産を検出、アクセス、コンシュームしたいユーザ	・ETLエンジニア・データアナリスト・データエンジニア・データサイエンティスト・ビジネスアナリスト・基幹業務ユーザ
Domain administrator	ドメインを作成し、データスチュワードとドメイン管理者をアサインし、Project Profileを作成し、プロジェクトの所有者を編集するユーザ。 DataZoneルートドメイン管理者である場合、DataZoneにデータソースを追加し、AWSアカウントにInvitationを送信しDataZoneドメインに関連付けることもできる。	・データエンジニアリングマネージャー・ITマネージャー・インフラエンジニア
Data steward	Publish条件を設定し、PublisherがPublish契約を通じて、これらの条件を確実に遵守するようにするユーザ。メタデータフォームやビジネス用語集を作成したり、公開されたデータ資産をレビューしたり、DataZoneドメイン全体でサブスクリプションリクエストをレビューしたりできる。

実践

今回は、OrganizationやIAM アイデンティティセンター(旧AWS SSO)を使用せずに試します。

ドメインの作成

DataZoneトップページで、「ドメインを作成」をクリックします。
ドメインを作成ページで、下記を入力し「ドメインを作成」をクリックします。
- ドメイン名：ここでは、datazone-domain-test-1としています。
- データ暗号化：AWS管理のKMSとするため、ここではチェックはしていません。
- サービスアクセス:Use default role
しばらくするとステータスが「操作可能」になります。関連付けられているアカウントには、本アカウントが設定されています。

プロデューサープロジェクトの作成

作成したデータゾーンドメインで、「オープンデータポータル」をクリックします。
別画面が表示されるので、「Browse all projects」をクリックします。
「CREATE PROJECT」をクリックします。
Nameを入力し、SELECT DOMAINをクリックします。
作成したドメインを選択し、「SELECT DOMAIN」をクリックします。
Project Profileに、「Default Project Profile」が表示されるので、最後に「CREATE PROJECT」をクリックします。
しばらくするとActiveになります。（数分かかります。）

DataZoneで公開するデータを作成

プロジェクト名「datazone-project-1」をクリックします。
Query data（Athenaのクエリエディタ）をクリックします。

Athenaのクエリエディタで、下記のサンプルクエリを実行します。

CREATE TABLE catalog_sales AS 
SELECT 146776932 AS order_number, 23 AS quantity, 23.4 AS wholesale_cost, 45.0 as list_price, 43.0 as sales_price, 2.0 as discount, 12 as ship_mode_sk,13 as warehouse_sk, 23 as item_sk, 34 as catalog_page_sk, 232 as ship_customer_sk, 4556 as bill_customer_sk
UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551
UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565
UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563
UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562
UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555
UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556
UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 4551
UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563
UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557
UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561

DataZoneでデータ資産をPublish

プロジェクトで「PUBLISH DATA」をクリックします。
下記を入力し、「CREATE PUBLISHING JOB」をクリックします。
- Choose publishing method：Automated publish
- Publishing job details: sales-producer-projectとしました。
- Publishing agreement：デフォルト
- Data source:デフォルト
- Data selection: publishing dbに記載されているデータベース名を指定
- Selection criteria:デフォルト
- Data Asset publishing:Draft（デフォルト）
- Publishing job schedule:Run once(デフォルト)
プロジェクトで「PUBLISHED DATA」タブをクリックすると作成した「catalog_sales」テーブルが見えました。ここで、テーブル名「catalog_sales」をクリックしてみます。
METADATAタブ、SCHEMAタブ、SUBSCRIPTIONSタブをクリックして確認してみます。
「SUBSCRIPTION REQUESTS」をクリックします。
「PUBLISHING JOBS」をクリックします。
「PUBLISHING AGREEMENTS」をクリックします。
作成したデータセットで「Edit name and description」をクリックします。
タイトルに「Product Sales Data」を入力し、「SAVE CHANGES」をクリックします。
「SET ASSET TO ACTIVE」をクリックします。

コンシューマープロジェクトの作成

「CREATE PROJECT」をクリックします。
下記を入力し、「CREATE PROJECT」をクリックします。
- Name: marketing-consumer-project
- Domain: 作成したドメイン
- Project profile:デフォルト
しばらくするとActiveになります。

サブスクライブの設定

ACTIVEになった「Product Sales Data」をコンシュームします。

検索フィールドに「Sales」を入力すると、「Product Sales Data」が表示されます。次にクリックすると当該ページに画面遷移します。
「SUBSCRIBE」をクリックします。
Subscribe to Product Sales Data で、下記を入力し、「SUBSCRIBE」をクリックします。
- Project: 作成した「marketing-consumer-project」を選択
- Reason for request: 適当にコメントを入力
SUBSCRIPTIONSに追加されました。View requestをクリックします。
リクエスト内容が確認できます。そのまま「Close」をクリックします。
しばらくすると、右上のアイコンをクリックすると「Tasks」としてリクエスト内容が表示されます。

Approveする

プロデューサ側のプロジェクトを選択します。
「PUBLISHED DATA」＞「SUBSCRIPTION REQUESTS」をクリックし、「View request」をクリックします。
ポップアップでSubscription requestが表示されるので、「APPROVE」をクリックします。
Approve this requestに理由を入力し、「APPROVE」をクリックします。
Subscription requestsは消えました。

Publishされたデータ資産をコンシューマーで分析する

コンシューマーでAthenaで分析します。

コンシューマーのプロジェクトで「SUBSCBED DATA」で「APPROVED」をクリックし、上記でApproveしたデータが参照できることを確認します。
「Query data」をクリックしAthenaのクエリエディタを開きます。
データベースで「marketingconsumerproject_sub_db」を選択すると、Publisherのテーブルが参照できました。

以下のクエリを実行し、データを読み込んでみます。

SELECT * FROM "marketingconsumerproject_sub_db"."datazoneproject1_pub_db-catalog_sales-XXXXXXX" limit 10;

分析データを使用してDataZoneカタログに公開する

データベースを切り替えます。

下記のクエリを実行し、サブスクライブしたテーブルを元に、Publish用のデータベースにテーブルとデータを作成します。

CREATE TABLE "marketingconsumerproject_pub_db"."top_three_discounted_items" AS SELECT 'PUBLISH_TEST' AS TMP_COLUMN ,* FROM "marketingconsumerproject_sub_db"."datazoneproject1_pub_db-catalog_sales-XXXXXXXXX" order by discount desc LIMIT 3;

DataZoneポータルで、Consumer のプロジェクトを選択し、「PUBLISHED DATA」タブで「PUBLISHED DATA」をクリックします。
上記と同様にPublish dataでPublishing job details、Database name等を入力し「CREATE PUBLISHING JOB」をクリックします。
先程無かった、PUBLISHED DATAに登録したジョブが表示されました。
あとは同様にタイトル等を入力しPublishします。PUBLISHEDに変わりました。
「SUBSCRIBE」をクリックします。
今度は、Projectにdatazone-project-1を選択し、SUBSCRIBEをクリックします。
後は先程と同様にApproveする。

クエリエディタで、先程のデータが参照ができました。

SELECT * FROM "datazoneproject1_sub_db"."marketingconsumerproject_pub_db-top_three_discounted_items-XXXXX" limit 10;

考察

今回のチュートリアルを通して、DataZoneポータルを介して、データのPublishとSubscribeの流れを試してみました。
なんとなく、PublisherとConsumer間でガバナンスを効かせながら、公開していくイメージが持てました。
今回は、単一アカウントで試しましたが次回はOrganizationや AWS IAM アイデンティティセンターを使用して複数アカウントで試してみたいと思います。

参考

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up