はじめに
私の Microsoft Azure Advent Calendar ネタといえば Microsoft Purview を遊び倒す企画ってのがあります。去年は Microsoft Purview (Azure Purview から改名しました)を PyApacheAtlas で遊ぶ企画がかなりのアクセス数を記録しました😎
Microsoft Purview は、オンプレミス、マルチクラウド、サービスとしてのソフトウェア (SaaS) のデータの管理とガバナンスに役立つ統合データ ガバナンス ソリューションです。自動化されたデータの検出、機密データの分類、エンドツーエンドのデータ系列によって、データ環境の総合的な最新のマップを簡単に作成できます。
今年は、Microsoft Purview にプレビュー機能として搭載されたメタモデル機能についていろいろ遊んでみようと思います。
メタモデルとは
メタモデルは、データ カタログに豊富なビジネス コンテキストを追加するのに役立つデータ マップの新機能です。利用者がデータ アセットの利用法について知りたいとき、これまではデータの所有者や専門家の連絡先程度の情報しか得られませんでした。今回追加されたメタモデル機能によって、以下の定義済みの資産の種類をビジネス アセットとしてデータと関連付けることができるようになりました。
資産の種類 | 説明 |
---|---|
アプリケーション サービス | 適切に定義されたソフトウェア コンポーネント。特に、新しい顧客のオンボード、注文の取得、請求書の送信など、特定のビジネス機能を実装するコンポーネント。 |
ビジネス プロセス | 共同でビジネス目標を実現する組織または技術環境で調整して実行される一連のアクティビティ。 |
データ ドメイン | マスター データ管理のために管理または明示的に管理されるデータのカテゴリ。 |
部署 | その組織のコンテキスト内でのみ完全な認識を持つ組織サブユニット。 部門は、それ自体が法人とは見なされません。 |
業種 | 1 つの製品または製品ファミリに重点を置いた組織の下位区分。 |
組織 | コミュニティまたはその他の社会的、商業的または政治的構造にまとめて組織された人々のコレクション。 グループには、それに属する人のセットを超えて、ユニットとして機能できる共通の目的または理由があります。 組織は多くの場合、階層構造に分解できます。 |
製品 | 提供されている製品またはサービス。 |
プロジェクト | 新しい機能の構築や既存の機能の改善など、プロジェクトの目標を正常に達成するために適切に使用されるように、リソースと関連コストの使用を制御するために使用される特定のアクティビティ。 |
システム | ハードウェアとソフトウェアを含む IT システム。 |
あぁ・・・こうしたビジネスプロセスのモデリングを事前に作成しておけば、多くのプロジェクトで救われる人も出てくるのではないでしょうか。どんな部署がどんなビジネスプロセスで仕事をしていて、どんなシステムを利用していて、どんなデータを使っているのか。これがグラフィカルに分かる。
1. 資産の種類(アセットタイプ)の定義
では早速 Microsoft Purview のデータ マップから「資産の種類(プレビュー)」を選択します。
上のキャンバスでは事前定義されたアセットタイプのリレーションシップがデフォルトで用意されています。ここでまずメタモデルを構築し、その後にデータ カタログ内で実際のビジネス アセットを作成する流れとなります。
定義済みアセットタイプの一つであるビジネス プロセスのリレーションシップについてよく見てみましょう。
ビジネス プロセスは部署の管理下(Manages)にあり、アプリケーション サービスによって実装(Implements)されています。この矢印→は UML のクラス図でいうところの Association を表します。リレーションシップの下部にはカーディナリティが表示されています。このようにして、キャンバス上で定義済みのアセットタイプおよび独自のカスタムタイプを自由に定義することができます。
1.1. ビジネスプロセスにシステムを連結する
デフォルトではシステムはビジネスプロセスと連結されていません。「+新しい関係」をクリックして、下図のようにリレーションシップを作成します。関係では、両者が所有なのか実装されているのか、管理されているかなどの状態を表します。
リレーションシップ カテゴリは、UML クラス図におけるクラス間の関係を使って表現できます。基数と訳されているのは、UML における多重度のようなものです。
- 協会(Association)→協会というか、関連?
- 集計(Aggregation)
- 構成(Composition)
1.2. システムにデータセットを連結する
デフォルトではデータべースのリレーションシップしか用意されていません。ここにもう一つデータセット タイプを連結しましょう。左ペインのコンポーネントから「データセット」をドラッグ&ドロップして、同様にリレーションシップを定義します。
はい、こんな感じでリレーションシップが完成しました。
2. ビジネス アセットの作成
ガワ(メタモデル)のモデリングが完成したので、次は実際にビジネス アセットを作成します。
今度はデータ カタログの「ビジネス資産(プレビュー)」に移動して、「+新しい資産」ボタンをクリックします。メタモデルの構造に従って、以下に示すビジネス アセット(エンティティ)を作成します。
[組織]---[部署]---[ビジネス プロセス]---[システム]---[データセット]
シナリオとしては、Contoso Corp. にマーケティング部があって、そこではマーケティングデータを分析するビジネスプロセスが存在します。このマーケティングデータ分析には、ソーシャルメディア分析システムが含まれており、このシステムは Cosmos DB に保存された Twitter データコレクションを利用している想定とします。
2.1. 例:部署(マーケティング部)の作成
アセットの種類を「部署」にして、名前に「Marketing Div.」と入力します。
次に「関連」タブを表示すると、メタモデルで定義したリレーションシップ情報が自動的に読み込まれて、紐づけるアセットを選択できるリンクが追加されます。
例えば、すでにビジネス プロセスタイプのアセット「Analyze Marketing Data」をすでに作成しておいて、このようにチェックを入れることで紐づけることができるようになります。
「連絡先」タブではエキスパートと所有者のほかにも「スチュワード」ロールを追加できるようになっています。
アセットの保存後「Marketing Div.」を選択し、「関連」タブを開くとこのようにリレーションシップが形成されていることが確認できます。関連やカーディナリティはメタモデルの定義通りになっていますね。
2.2. 例:システム(Social Media Analytics System)
前の例と同様に、ビジネスプロセスが管理するソーシャルメディア分析システムのアセットを作成します。システム タイプの「関連」タブでは、メタモデルで定義したリレーションシップエントリーが表示されていますので、「Has データセット」に事前にスキャンしておいた Cosmos DB の「Twitter」コレクションを選択して追加します。
はい、このようなリレーションシップが完成しました。
3. アセットの検索
ビジネス アセットがデータ アセットと紐づいたので、この状態でデータ アセットを検索してみましょう。「Twitter」と検索し、Azure Cosmos DB SQL API コレクションのアセットを選択します。
「Twitter」コレクションの「プロパティ」タブの「関連するアセット」セクションに注目してください。「IsPartOf System」に「Social Media Analytics System」が紐づいていますね!
これでデータ アセットを発見したユーザーは紐づいているビジネス アセットを辿ることができるというわけです。COOL😎
4. Apache Atlas Open API による開発
PyApacheAtlas を使ったビジネス アセット開発はこちらのデータ アセットの開発手法と同様です。get_all_typedefs()
によって取得できるビジネス アセットのタイプ(型)は、以下が定義されています。ちなみに 1 年前は 2MB だった定義ファイルが、今は 3.5MB まで増えていました🧐 めっちゃ追加されとる…
Purview_DataDomain
Purview_Organization
Purview_Department
Purview_Project
Purview_Product
Purview_LineOfBusiness
Purview_BusinessProcess
Purview_System
Purview_ApplicationService
こちらを get_typedef()
の name
引数にセットすれば定義が取得できます。ビジネス アセットのエンティティは get_entity()
を使用すれば取得できます。リレーションシップについては例えばシステムタイプであれば relationshipAttributes
の isManagedBy_BusinessProcess
エントリーが追加されていることが確認できます。
さいごに
はい、こんな感じで Microsoft Purview のメタモデルを楽しんでいただければと思います。Microsoft Purview にはこの他にも色々な機能があるので試してみるのも面白いのではないでしょうか。そして Microsoft Purview の開発を通して、新たなデータガバナンスエコシステムが活性化されることを楽しみにしています。