この記事は AWS Advent Calendar 2022 12日目の記事です。
はじめに
先日開催された AWS re:Invent 2022 で新しいデータ管理サービスである Amazon DataZone が発表されました。
Amazon DataZone を使用すると AWS やオンプレミス、サードパーティのソースに保存されているデータのカタログ化、発見、共有、および管理が簡単に行えるようになります。
本記事では 2022/12/11 時点の公開情報と re:Invent 2022 のセッション内容 (ANT344: Democratize data with governance: Bring together people, data, and tools) をもとに Amazon DataZone が提供する機能について掘り下げていきたいと思います。
セッション資料
ブレイクアウトセッションの録画は以下です。
2022/12/12 時点ではスライドはまだアップロードされていません。
確認でき次第、こちらに更新します。
ユーザーの課題
データの共有と発見
データの能力や価値を最大限に引き出すためには適切な人が必要なデータを簡単に見つけてアクセスし、共有できるようにする必要があります。しかし複数の AWS アカウントやリージョン、オンプレミスに散在するデータに対し、そのような仕組みを自前で構築するのは容易ではありません。また誰しもデータレイクの維持・管理ではなく、データによるイノベーションに注力したいと考えています。
ガバナンス
データ共有の安全性を確保するにはガバナンスが必要ですが、適切なバランスをとることが重要です。一方で組織には様々なデータソース、部門、ユースケースがあるため、そのバランスは組織ごとに異なり、すべてを考慮したガバナンス ポリシーを実装することは困難です。
アクセスを簡単に共有、管理し、エンジニア、サイエンティスト、ビジネスユーザーなどあらゆる立場の人がコラボレーションできるプラットフォームを提供し、これらの課題を解決するサービスが Amaazon DataZone です。
Amazon DataZone の主要コンポーネント
Amazon DataZone の 4 つのコアとなるコンポーネントがあります。
- Data portal
- Business data catalog
- Data project
- Pub/Sub workflow with access management
1. Data portal
AWS コンソールの外で提供されるビジュアルインターフェースです。セルフサービスでデータおよび分析ツールへの簡単なアクセス提供し、組織内のコラボレーションを可能にします。
データ消費者 (Consumers) は利用可能になったデータに対し、Data portal から直接 Athena または Redshift の Query Editor に接続し、クエリをなげることもできます。(Deep Links)
2. Business data catalog
組織全体のデータを豊富なメタデータとともに「ビジネスコンテキスト」でカタログ化し、データを検索、共有可能にします。
ビジネスコンテキストというのが重要です。データカタログならこれまでも AWS Glue Data Catalog があったじゃないかと思う人もいるかもしれません。Glue Data Catalog はデータのロケーションやスキーマ情報などのメタ情報を保管するための Apache Hive メタストア互換のマネージドサービスです。AWS の分析サービスが Glue Data Catalog を参照してデータソースに接続する (e.g., Athena が S3 にクエリする) など、システム的な使われ方をします。
Amazon DataZone でもデータソースとの接続には Glue Data Catalog が使用されます (Redshift は直接接続も可能)。データを同期する頻度や、特定のテーブルや列などの公開範囲を設定し、ビジネスメタデータともに Data Portal 上に公開、検索可能にする機能が Bussiness data catalog です。
データの詳細などのメタデータは Data potal 上で手動で登録することもできますが、一方で大規模データを扱う場合はそれが現実的でないケースもあります。Amazon DataZone は機械学習モデルにより、データをカタログ化する際にスキーマ情報などからビジネス用語を自動的に提案します。これにより検索可能なビジネス用語をカタログに追加する作業が削減され、データ消費者は必要なデータをより発見しやすくなります。
3. Data project
Data project はビジネスユースケースベースでデータ交換、成果物を共有できるワークスペースを提供します。データ、分析ツールとユーザーのためのコンテナと言い換えることもできます。プロジェクトに明示的に追加されたユーザーのみがプロジェクト内のデータと分析ツールにアクセスできます。
4. Pub/Sub workflow with access management
自動化されたワークフローによりデータ生産者 (Producer) が公開したデータをデータ消費者が安全にアクセスできるようになります。これは誰がどのようなユースケースでデータを利用しているかの監査プロセスが合理化されることも意味します。
データを公開したいプロジェクトは、まず Publishing agreements を結ぶ必要があります。Publishing agreements とは、データ生産者とドメイン間の契約であり、誰がどのようなアセットを Publish できるのか、誰がサブスクライブできるのか、承認は必要なのか、必要な場合は誰が承認するのかといった条件を定義します。
データ生産者は Producer プロジェクト内でデータソースに接続し、アセットを Bussiness data catalog に Publish することができます。
同様にデータ消費者の Consumer プロジェクトがデータにアクセスし、プロジェクトが許可した分析サービスで分析できるようにすることで、サブスクリプションを実現しています。
この時点で Consumer に実データのアクセス権が与えられます。データは Producer から Consumer に直接共有されるため、別の DWH や Datalake にステージングする必要なくアクセスできます。
これらのコアコンポーネントを理解したうえで、Swami Sivasubramanian 氏の Keynote で行われたデモを再度ご覧ください。サービスへの理解が深まるかと思います。
アクセス許可の仕組み
では実際にどのようにアクセスの許可が行われているのでしょうか。Amazon DataZone は、Preview 時点で AWS Lake Formation が管理する AWS Glue テーブルと Amazon Redshift のテーブルおよびビューのアクセス管理をサポートしています。
Glue tables
データソースが Glue の場合、LakeFormation は AWS アカウント間でデータカタログを共有することができるため、この機能が活用されています。
Data portal 上での Subscribe 後、内部では Data Catalog の共有が行われ、Consumer からアクセス可能になります。Consumer が共有されたリソースに対してアクセスを行うと、一時クレデンシャルを取得して、元データへのアクセスがおこなれるため、データの移動は必要ありません。
Redshift
データソースが Redshift の場合、Data Sharing 機能により、クラスター間でのデータ共有が行われます。
Data portal 上での Subscribe 後、内部では Producer の Redshift Cluster から Consumer の Redshift cluster へデータ共有が行われます。Consumer は Cluster に共有されたデータからビューを作成し、プリンシパルにアクセスを許可します
もっとも重要なのは、どちらのケースでも Producer と Consumer は全く別の AWS アカウント、さらにはリージョンであっても問題ないということです。
データメッシュとドメイン
企業が成長し、データの民主化を進むと、何百、何千という Data Producer、Consumer を抱えることになるかもしれません。このような場合、アーキテクチャを拡張する必要があります。データメッシュは、その機能を提供する最新のデータ・アーキテクチャーの1つです。
データメッシュとは?
データメッシュ事業ドメイン毎にオーナーを建て、データ所有者、データ作成者、データ利用者を直接つなぐことで、ビジネスユーザーがよりアクセスしやすく、より利用しやすくすることを目的としています。
Amazon DataZone では対応する任意のリージョンにルートドメインをプロビジョニングし、複数のドメインを接続します。
Amazon DataZone におけるドメインは複数のData projects を含む更に上位のコンテナとなり、組織の階層を柔軟に反映できます。ドメインにアクセスできる関連付けられた AWS アカウントとリソースへのアクセスを制御できます。
今後のロードマップ
現状アクセスコントロールに対応しているのは Glue と Redshift だけだが、今後は DataZone が公開する Public API を通して、パートナーデータソースにも対応する予定とのことです。
現時点で判明している制限
文字コード
AWSJ シニアエバンジェリスト亀田さんの re:Cap 資料によれば、アナウンス時点で UTF-8 に対応していないとあります。つまりリリース時点では Data portal の Bussiness data catalog や機械学習モデルなどで日本語を扱えない可能性が高いです。
リージョン
Preview 時点では ルートドメインは、米国東部 (バージニア北部)、米国西部 (オレゴン)、または欧州 (アイルランド) の AWS リージョンでのみプロビジョニングできます。
また Data portal へのログインを提供する AWS IAM Identity Center はルートドメインと同じリージョンに設定されている必要があります。
Preview はいつから?
2023/3/30 追記
Amazon DataZone のパブリックプレビューが開始されました!
プレビュー期間中は無料で利用できます。(終了後はユーザー数とメタデータのストレージ容量に対して課金)
追記終わり
Amazon DataZone の Preview は 2023 年初頭予定とアナウンスされています。
以下の URL から登録を行うと、Preview オープン時に通知を受け取ることができるようです。
参考
以上です。
参考になれば幸いです。