背景・目的
Amazon DataZone(以降、DataZoneといいます。)のPreview 版が公開されましたので、知識の整理と、簡単に動作を試してみました。
前提・留意点
2023年3月31日現在、Previewになっています。GAにより、下記に記載されている内容が変更になる可能性がありますのでご注意ください。
最新の情報は、ドキュメントをご確認ください。
2023年3月31日現在、利用できるリージョンは下記のとおりです。
- 米国西部 (オレゴン)
- 欧州 (アイルランド)
- 米国東部 (バージニア北部)
概要
DataZoneとは?
こちらのドキュメントに記載されている内容を整理します。
DataZone は、下記を可能にするデータ管理サービス。
- Catalog
- データプロデューサーがビジネス領域全体でデータをカタログ化して、データをより見つけやすくできる。
- Discover
- データコンシューマーが関心のあるデータ資産を検索して簡単に見つけられるようにする。
- Govern
- 下記を分離し、ガバナンスを簡素化できる。
- ドメイン
- プロデューサー
- コンシューマー
- 下記を分離し、ガバナンスを簡素化できる。
- Share
- プロデューサーがコンシューマーのデータアクセス要求を満たすことができる。
- Analyze
- コンシューマーがアクセスできるデータを分析できる。
DataZone を使用すると、アカウントとサポートされているリージョン間でデータを共有してアクセスが可能。
Amazon DataZone は、Amazon Redshift、Amazon Athena、AWS Glue、AWS Lake Formation を含むがこれらに限定されない AWS サービス全体でのエクスペリエンスを簡素化する。
AWSサービスのサービスと統合方法
下記の3種類の統合をサポートしている。
- Producer data source
- Glue Data Catalog および Redshift のテーブルとビューに保存されているデータから、データを DataZone カタログにPublish可能
- オブジェクトを S3から Amazon DataZone カタログに手動で発行することも可能
- Consumer tools
- Athena、Redshiftクエリエディタを使用して、データにアクセスして分析可能
- Access control and fulfillment
- LakeFormation管理のGlueテーブルとRedshiftテーブル、ビューへのアクセス許可をサポートする。
- 他の全てのデータ資産について、DataZoneはユーザのアクション(サブスクリプションリクエストに対する承認など)に関連するイベントをEventBridgeに発行する。これらのイベントを通じてカスタム統合のために、AWSサービスまたは3rd Partyソリューションと統合可能
Data Zoneへのアクセス
APIはプレビューではサポートされていない。
2つのUIが利用できるようです。また、APIも利用できるようですが、プレビューリリースでは利用できないようです。
- DataZoneコンソール
- マネジメントコンソールからアクセス。
- DataZoneデータポータルの作成に使用する。
- DataZoneデータポータル
- セルフサービス方式で、データに対して下記のことができるブラウザベースのWebアプリケーション
- catalog
- discover
- govern
- share
- analyze
- セルフサービス方式で、データに対して下記のことができるブラウザベースのWebアプリケーション
- DataZone HTTPS API
- プレビューではサポートされていない
Amazon DataZone Terminology and Concepts
Amazon DataZone components
下記の4つの主要コンポーネントが含まれています。
コンポーネント | 説明 | 備考 |
---|---|---|
Business data catalog | ・組織全体のデータをビジネスコンテキストともにカタログ化 ・組織内の全員がデータを素早く見つけて理解できるようにする |
データカタログそのもの |
Publish and subscribe workflows | 自動化されたワークフローを使用して、プロデューサーとコンシューマ間のデータをセルフサービス方式で保護し、適切な目的で適切なデータにアクセスできるようにする | ガバナンスを効かせることができる。 |
Projects | ・プロジェクトにより、下記をビジネスユースケースベースでグループ化する ・人 ・データ資産 ・分析ツール ・プロジェクトメンバーがデータ資産を共有できるスペースを提供する。 ・デフォルトでは、明示的に追加されたユーザのみがプロジェクト内のデータおよび、分析ツールにアクセスできるようにプロジェクトが構成される。 ・コンシューマーがアクセスできるように、データスチュワードやドメイン管理者により適用されるプロジェクトポリシーに従い、生成されたデータ資産の所有権を管理する |
管理の単位と思われる |
Data portal (outside the AWS Management Console) | ・様々なユーザが、セルフサービス方式でデータのカタログ化、発見、管理、共有、分析を行うことができるWebブラウザ ・データポータルはAWS IAM Identity Center(AWS SSOの後継)を使用して、 IAM クレデンシャルまたは、IdPからの資格情報を使用して認証する。 |
What are Amazon DataZone domains?
DataZoneドメインにより、リソースを整理できるとのことです。ドメインとは、下記のコレクションを指しています。
- データアセット
- プロジェクト
- 関連するAWSアカウント
- Glue , Redshiftを含むデータソースなどのDataZoneオブジェクト
DataZoneドメインを通じて、下記の組織のビジネス領域とエンティティを柔軟に反映できるとのことです。これらのエンティティを使用することでDataZoneドメインを使用してDataZoneビジネスカタログにデータ資産を公開できる。その後そのドメインにアクセスできる関連付けられたAWSアカウントとリソースへのアクセスを制御できる。
エンティティ | 説明 |
---|---|
Data assets | データオブジェクト(テーブル、ダッシュボード、ファイル等) |
Data sources | Redshiftのテーブル/View、Glueデータカタログ、S3 |
Metadata forms | データスチュワードの操作を想定している。カスタム定義の属性を追加し、データ資産のメタデータモデルを拡張する。 |
Business glossaries | メタデータ属性を定義するために使用されるビジネス辞書。Metadata formsに追加され、データ資産に適用される。 |
Associated AWS accounts | DataZoneドメインを収容するAWSアカウントとの信頼関係がある。この関連によりデータプロデューサーは関連付けされたAWSアカウントからDataZoneドメインにデータ資産をPublishすることが可能になり、コンシューマーは関連付けられたAWSアカウントのデータ資産をサブスクライブできる。 |
What are Amazon DataZone projects and project profiles?
プロジェクトにより、ユーザーのグループは、DataZone カタログ内のデータ資産のPublish、検出、サブスクライブ、およびコンシュームを含むさまざまなビジネス ユース ケースで共同作業を行うことが可能になる。 各 DataZone プロジェクトには一連のアクセス制御が適用されているため、許可された個人、グループ、およびロールのみがプロジェクトと、このプロジェクトがサブスクライブするデータ資産にアクセスでき、プロジェクトのアクセス許可によって定義されたツールのみを使用できるとのこと。
Project / Project profiles | 説明 |
---|---|
Projects | チームおよびグループの管理されたデータアクセスにプロジェクトが使用できる。 プロジェクトは独自のアクセス制御になり、承認された個人、グループ、ロールのみがプロジェクトがサブスクライブしたプロジェクト及びデータ資産にアクセスし、プロジェクトで構成されたツールを使用できる。 |
Project profiles | プロジェクトを作成するための再利用可能なテンプレートを提供する事前に構成されたリソースと機能のセット プロジェクトがデプロイされるAWSアカウントやVPCなどの設定等が含まれる。 |
What are Amazon DataZone project capabilities?
プロジェクト機能は、プロジェクトの作成中に起動できるデプロイおよび構成パラメーターのスタックのセットを表すとのこと。
Project profilesでは、1つ以上のプロジェクト機能を有効にし、DataZoneプロジェクトの作成に使用できる。
プロジェクトで有効化され他プロジェクト機能は、プロジェクトメンバーがDataZoneカタログのデータ資産を操作する際に使用できるAWSツールとサービス(Athena,Redshift)を定義する。
プレビューでは、下記のプロジェクト機能がサポートされている。また、デフォルトのデータ レイク機能を他の機能と組み合わせることはできないとのことです。
Project capability name | 説明 | リソース |
---|---|---|
Essential capability | DataZoneプロジェクトから選択された他のサービスを使用するための前提条件。 | ・KMSキー ・IAMロール ・S3バケット ・CloudWatch Logs ロググループ ・S3のVPCエンドポイント ・CloudWatch の VPCエンドポイント |
Data Lake Default Capability | ドメインの作成時に作成されたデフォルトのプロジェクト プロファイルを使用してプロジェクトを作成すると、デフォルトで選択される。 カスタムプロジェクトプロファイルにより、この機能を選択できる。DataZoneプロジェクトのメンバーは、プロジェクト内でDataLakeプロデューサー、コンシューマサービスを起動できる。 |
デフォルトでは、ユーザはAthenaを使用してLake Formationテーブルを作成、クエリできる。 |
Data Lake Consumer Capability | DataZoneプロジェクトメンバーは、AthenaおよびLake FormationがサポートするクエリエンジンでLake Formationが管理するアセットのRead Onlyコピーに直接アクセスできる | ・Athenaワークグループ ・Read onlyのLake Formation権限を持つGlueデータベース ・Read Only専用のIAM権限 ・GlueのVPCエンドポイント ・AthenaのVPCエンドポイント ・プロジェクトにより管理されるS3へのアクセス |
Data Lake Producer Capability | DataZoneプロジェクトメンバーがAthenaを使用して、新しいLakeFormation管理テーブルを作成し、それらをDataZoneカタログにPublishできる。 | ・Lake FormationのCreate、Grant ・IAM Read、Write ・タグ付けされたGlue ETL |
Data Warehouse Consumer Capability | DataZone プロジェクト メンバーが独自の Redshift クラスターに接続して、リモート データ ストアにクエリを実行し、新しいデータ セットを作成して保存できるようにする。 | ・Redshiftクエリエディタへのアクセス ・DataZoneカタログからサブスクライブされたデータソースへのRead Onlyアクセス ・Redshiftのローカルデータ資産を作成する機能 |
Data Warehouse Producer Capability | DataZone プロジェクト メンバーが独自の Amazon Redshift クラスターに接続して、リモート データ ストアのクエリを実行し、新しいデータセットを作成し、それらを Amazon DataZone カタログに公開できるようにする。 | ・Redshiftクエリエディタへのアクセス ・DataZoneカタログからサブスクライブされたデータソースへのRead Onlyアクセス ・Redshiftからアセットを作成、公開する機能 |
What are Amazon DataZone publish and subscribe workflows?
DataZone は、データアセットを Amazon DataZone ドメインに発行するために使用されるプロジェクトを通じてセルフサービス分析を提供する。
プロジェクトは、ドメイン全体でアセットを検出し、サブスクライブすることもできる。 最後に、プロジェクトがデータにアクセスして分析できるようにすることで、サブスクリプションを実現できる。
- Publish
- データを共有したいDataZoneプロジェクトは、最初にドメインとの有効なパブリッシング契約を結ぶ必要がある。
- パブリッシャーとドメイン間の契約のように機能し、Publishとサブスクライブの条件を定義する。
- Publish契約が成立したらプロジェクトで、Publishジョブを作成し、選択した一連の物理アセットのメタデータをキューレートできる。
- Publishジョブの実行後、ドラフトアセットが作成されデータパブリッシャは追加のメタデータ、説明等を追加してデータ検出を改善する。
- Subscribe
- データがドメインに公開されると、サブスクライバーはデータアセットを検出し、サブスクリプションを要求できる。
- サブスクリプションプロセスは、サブスクライバーがカタログを検索及び参照し、必要なアセットを見つけることから始める。
- DataZone ポータルから、正当な理由とリクエストの理由を含むサブスクリプション リクエストを送信することで、データ アセットをサブスクライブすることを選択する。
- 次に、Publish契約で定義されているサブスクリプション承認者が、アクセス要求を確認する。
- このとき要求を承認または拒否ができる。 リクエストが承認された場合、サブスクリプションは付与されたと見なされる。
- Fulfillment
- サブスクリプションが付与されると、サブスクライブしているプロジェクトのデータ資産へのアクセスを容易にするためのフルフィルメント プロセスが開始される。
- データ資産のアクセス制御とフルフィルメントには、下記の 2 つのモードがある。
- Managed assets
- DataZone は、Lake Formation が管理する Glue テーブルや Redshift のテーブルとビューなど、管理対象データ資産のフルフィルメントとアクセス許可を管理できる。
- Unmanaged assets
- DataZone は、Lake Formation または Redshift のテーブルとビューによって管理されていないデータ資産のフルフィルメントとアクセス許可を管理できない。 これらのアセットについて、DataZone はユーザーのアクション (たとえば、サブスクリプション リクエストに対する承認) に関連する標準イベントを EventBridge に発行する。 これらの標準イベントを使用して、カスタム統合のために他の AWS サービスまたはサードパーティ ソリューションと統合できる。
- Managed assets
Who are the users of Amazon DataZone?
推奨されるDataZoneペルソナは下記の通り。
ユーザ | ペルソナ | 例 |
---|---|---|
Publisher | ・データ資産をビジネスデータカタログにPublish ・データ資産のメタデータを編集 ・Publish要求を承認できるユーザ |
・ETLエンジニア ・データアナリスト ・データエンジニア ・データサイエンティスト |
Subscriber | データ資産を検出、アクセス、コンシュームしたいユーザ | ・ETLエンジニア ・データアナリスト ・データエンジニア ・データサイエンティスト ・ビジネスアナリスト ・基幹業務ユーザ |
Domain administrator | ドメインを作成し、データスチュワードとドメイン管理者をアサインし、Project Profileを作成し、プロジェクトの所有者を編集するユーザ。 DataZoneルートドメイン管理者である場合、DataZoneにデータソースを追加し、AWSアカウントにInvitationを送信しDataZoneドメインに関連付けることもできる。 |
・データエンジニアリングマネージャー ・ITマネージャー ・インフラエンジニア |
Data steward | Publish条件を設定し、PublisherがPublish契約を通じて、これらの条件を確実に遵守するようにするユーザ。 メタデータフォームやビジネス用語集を作成したり、公開されたデータ資産をレビューしたり、DataZoneドメイン全体でサブスクリプションリクエストをレビューしたりできる。 |
実践
今回は、OrganizationやIAM アイデンティティセンター(旧AWS SSO)を使用せずに試します。
ドメインの作成
-
ドメインを作成ページで、下記を入力し「ドメインを作成」をクリックします。
プロデューサープロジェクトの作成
DataZoneで公開するデータを作成
-
Athenaのクエリエディタで、下記のサンプルクエリを実行します。
CREATE TABLE catalog_sales AS SELECT 146776932 AS order_number, 23 AS quantity, 23.4 AS wholesale_cost, 45.0 as list_price, 43.0 as sales_price, 2.0 as discount, 12 as ship_mode_sk,13 as warehouse_sk, 23 as item_sk, 34 as catalog_page_sk, 232 as ship_customer_sk, 4556 as bill_customer_sk UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551 UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565 UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563 UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562 UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555 UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556 UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 4551 UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563 UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557 UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561
DataZoneでデータ資産をPublish
-
下記を入力し、「CREATE PUBLISHING JOB」をクリックします。
-
プロジェクトで「PUBLISHED DATA」タブをクリックすると作成した「catalog_sales」テーブルが見えました。ここで、テーブル名「catalog_sales」をクリックしてみます。
コンシューマープロジェクトの作成
-
下記を入力し、「CREATE PROJECT」をクリックします。
サブスクライブの設定
ACTIVEになった「Product Sales Data」をコンシュームします。
-
検索フィールドに「Sales」を入力すると、「Product Sales Data」が表示されます。次にクリックすると当該ページに画面遷移します。
-
Subscribe to Product Sales Data で、下記を入力し、「SUBSCRIBE」をクリックします。
Approveする
Publishされたデータ資産をコンシューマーで分析する
コンシューマーでAthenaで分析します。
-
コンシューマーのプロジェクトで「SUBSCBED DATA」で「APPROVED」をクリックし、上記でApproveしたデータが参照できることを確認します。
-
データベースで「marketingconsumerproject_sub_db」を選択すると、Publisherのテーブルが参照できました。
-
以下のクエリを実行し、データを読み込んでみます。
SELECT * FROM "marketingconsumerproject_sub_db"."datazoneproject1_pub_db-catalog_sales-XXXXXXX" limit 10;
分析データを使用してDataZoneカタログに公開する
-
下記のクエリを実行し、サブスクライブしたテーブルを元に、Publish用のデータベースにテーブルとデータを作成します。
CREATE TABLE "marketingconsumerproject_pub_db"."top_three_discounted_items" AS SELECT 'PUBLISH_TEST' AS TMP_COLUMN ,* FROM "marketingconsumerproject_sub_db"."datazoneproject1_pub_db-catalog_sales-XXXXXXXXX" order by discount desc LIMIT 3;
-
DataZoneポータルで、Consumer のプロジェクトを選択し、「PUBLISHED DATA」タブで「PUBLISHED DATA」をクリックします。
-
上記と同様にPublish dataでPublishing job details、Database name等を入力し「CREATE PUBLISHING JOB」をクリックします。
-
後は先程と同様にApproveする。
-
クエリエディタで、先程のデータが参照ができました。
SELECT * FROM "datazoneproject1_sub_db"."marketingconsumerproject_pub_db-top_three_discounted_items-XXXXX" limit 10;
考察
今回のチュートリアルを通して、DataZoneポータルを介して、データのPublishとSubscribeの流れを試してみました。
なんとなく、PublisherとConsumer間でガバナンスを効かせながら、公開していくイメージが持てました。
今回は、単一アカウントで試しましたが次回はOrganizationや AWS IAM アイデンティティセンターを使用して複数アカウントで試してみたいと思います。
参考