今回はjr.championsアドベントカレンダー企画に参加させていただくにあたり、データメッシュについてと、AWSでの構築パターンについて紹介できればと思います。
データメッシュについて
データメッシュとは
そもそも、データメッシュとはオライリー社から出版されているクラウドデータレイクによると、
分権的な形でデータインフラストラクチャとオペレーションを実行できるようにして、社内全体でデータをよりアクセスしやすく、インサイトを得やすくすることを目的としたアーキテクチャ
と記述があります。まだちょっと抽象度が高いかなと思うので、本書をもとに、内容をさらに内容を深ぼってみると、
-
分権的な形で
- 組織の面
- データの全てを行う中央のデータプラットフォーム部門を置く形から、全ての部門にデータのニーズを担当する担当者(スペシャリスト)をおいて、分権化する
- アーキテクチャの面
- 中央にデータなデータウェアハウスやデータレイクを置く形から、分散化されたデータレイクとデータウェアハウスのメッシュを作る形にシフトする
- 運用の面
- データガバナンスが連邦型へシフトし、各ビジネスドメインが自立的にデータの管理や活用を行う
- 組織の面
-
アクセスしやすく、インサイトを得やすくする
- 社内のデータチームやビジネスユニットとみなし、データをプロダクトとして管理する
つまり、データやそれに関するオペレーションをビジネスドメイン単位で分散化し、社内のデータ消費者に対するデータのプロダクトとしての価値を上げると言うことがデータメッシュの根幹にあるのではと個人的には解釈しました。
データメッシュの4原則
織がデータメッシュを採用するためには、以下4つの原則を遵守する必要があるとされています。調べてみるとなかなか難しい内容が多いなと思ったので、私なりに噛み砕いて解釈した内容を記載します。
-
分散ドメイン駆動型アーキテクチャ
- データ管理の責任が、ビジネス部門やドメインに委ねられる。
-
製品としてのデータ
- データアセットを製品、組織の他のビジネスチームやデータチームを顧客とみなし、優れたユーザーエクスペリエンスを提供する。
-
セルフサービスのデータインフラストラクチャ
- ビジネスチームがデータを管理する一方で、データエンジニアリングチームは共通のデータプラットフォームの管理をする。データインフラストラクチャの青写真を定義、管理する。
-
フェデレーションガバナンス
- ドメイン全体に適応させるグローバルな基準やポリシーを決定しながら、ドメイン内での基準やポリシーを実装させ、責任共有としてのセキュリティを実装する。
前述したデータメッシュの要素と技術・組織の側面で合致している内容だなと、個人的には感じます。
データメッシュが現れた背景
そんなデータメッシュですが、データメッシュは主流なデータ基盤の方式である中央集権的なデータレイクの問題を解決するための対応策として考案されたものです。
- データ利用のボトルネック
- 中央に1つのデータチームが複数部署のデータ依頼に応じる形式では、データを使うシナリオが増加すると、活用実現までの時間が足りなかったり、データの業務文脈の理解が足りず、適切な支援に繋がらない可能性がある。
- 密結合なアーキテクチャによる拡張性の低下
- データパイプラインが肥大化し、密結合になり拡張性や変更の容易性が低くなる可能性がある。
これらを解決することで、拡張性のある分権型アーキテクチャを実現でき、データ利活用の促進につながると考えられ、これこそがデータメッシュの持つメリットでもあると言えます。
AWSでの構築パターン
ここでAWSでデータメッシュを実現しようとした際、どのようなパターンになるのか、検討してみます。DataZoneベース
AWS構築する場合には、DataZoneが最初に候補に上がるかなと思います。マネージドサービスで、少し設定をするだけで綺麗なUIが整ったデータポータルが作成され、データ活用のための環境のデプロイやデータのアクセスコントロール、カタログ機能まですぐに使用することができます。
参考:AWS offerings for data mesh
すぐにこのような画面ができ、画面にあるようなデータのアセットや環境(リソース)がすぐに画面から作成できる。
主にメタデータ作成の部分で生成AIが使えるようになった。使いこなせたら便利そう
Data.all
Data.allというオープンソースのフレームワークを使用すれば、DataZoneよりもより高い自由度でかつ、データメッシュが求める分散管理、データの発見、アクセス制御といったData.allの機能を提供し、フルスクラッチよりも効率的に実装できそうです。DataZoneでは要件を満たせない、やりたいことができない場合にはこれが選択肢に上がって来るかなと思います。
参考:data.all
サンプルをみると、サーバーレスっぽくて良さそう
LakeFormation
一からデータメッシュを構築したいという場合には、Lake Formationでアクセス管理等しつつ、そのほかの機能については自由に実装していくという形になりそうです。
以上、データメッシュについてと、AWSでの構築パターンについてでした。DataZoneについてはいつか実際に使ってみての所感や実装方法など、記事に残せればと思っています。