この記事は インフォマティカ Advent Calendar 2023 のDay15の記事として書かれています。
はじめに
データマネジメントのエバンジェリストをやっているもりたくです。
本日は、先日ご紹介した生成AIとデータマネジメントの話に関連して、データガバナンスの2023年の新しいトレンドについて、ご紹介します。
この記事を読んだ人が「自社のデータガバナンスを推進または強化していく上で、今世の中でどのような技術が注目を集めているのか、何を自社のアーキテクチャに組み込むべきか」を把握する上での何かしらのヒントになれば幸いです。
データガバナンスにまつわる2023年の新しいトレンド
データガバナンスの最新動向として、私が2023年に見聞きした情報には、大別して以下3つの特徴があったと感じています。
- データ戦略とビジネス戦略の紐付けに注力する企業が増える
- メタデータ管理の世界でデータマーケットプレイスが注目を集める
- 将来的なデータアクセス管理に懸念を抱く企業が増える
この3つの特徴について、本記事では解説していきたいと思います。
データ戦略とビジネス戦略の紐付けに注力する企業が増える
データガバナンスは、多くのコンサルティングファームの説明の中で、戦略、組織、プロセス、技術、監視と統制といった要素を定義し、継続的に運用していく話として語られることが多いですが、本トピックは「戦略」に関連した話になります。
従来、データアナリティクス環境の近代化やBIツールなどの展開、CDPやクラウドレイクハウスの導入などのデータに関するイニシアチブを戦略的に進めてきた企業がいますが、その多くで経営陣からそのビジネス効果を問われるケースが増えています。
- 「今まで色々投資してきたけど、効果出ているの?」
- 「このツール、本当にいる?」
- 「データを使った業務"改善"は聞いてるけど、大きなビジネス"改革"に繋がってないよね?」
2023年は、ChatGPTによって生成AIブームが到来し、データ市場はより活気づいた一年と言えます。
しかし、既にDXの旗印のもとにデータとAIに取り組んできた企業では、その2週目、3週目とも言えるDXの取り組みの中で、データ戦略がビジネスに戦略に結びついている、データのイニシアチブがビジネス上の効果を生んでいることを示さなければならないフェーズにきている気がします。
実際、経営戦略や中計の重点施策との具体的な関連付け、戦略KPIとの紐付け、データの定量/定性効果の可視化、マネタイズ/収益化などに帆走するデータマネジメントオフィスの人たちを多数見てきました。
ベストプラクティスと言い切れないが参考にすべき情報
ちなみに、このデータとビジネスを紐付けるアプローチについては、各企業文化によって求められるレベルの濃淡が異なります。そのため、銀の弾丸のようなベストプラクティスはありませんが、以下の情報などは多角的な観点で参考になるかもしれません。
- Cyber Agent 鈴木 元也 "データ活用が事業貢献していることを示すための取り組み"
- Douglas Laney "Data Monetization: New Value Streams You Need Right Now"
- EDM Council "Data Office ROI Playbook"
- Data Camp "Data Storytelling & Communication Cheat Sheet"
- Data Camp "Data Visualization Cheat Sheet"
- Violation Tracker "Discover Which Corporations are the Biggest Regulatory Violators and Lawbreakers Throughout the United States."
- DATAVERSITY ”Enterprise Data Governance Online 2023"で紹介されていた、"データガバナンスのビジネス価値を可視化するためのメトリクス例"
Business Value Frameworkというアプローチ
また、世界の先進企業の事例を紐解くと、Business Value Frameworkというアプローチを取っている企業も少なくないです。ビジネス目標(成果/価値)とデータユースケース(活用目的)を定義し、その各々の成果指標として戦略KPIとプロセス/データ指標を定義し、ビジネスとデータの紐付けを明確にして統制をかけるアプローチなども有効と言えます。
Business Value Framework by Informatica
メタデータ管理がデータ資産価値の可視化をサポート
そして、このデータとビジネスを紐付けてその価値を説明していく上で、メタデータ管理のアプローチは重要な武器となりえます。
なぜならば、どのデータを誰が、どのような目的で、どのようなビジネスプロセスの中で使っているのか、どれだけのデータ資産を企業として持っているのか、という情報をメタデータで管理することができれば、それらを数値化し、その価値の定量的な推移などを可視化して経営陣に報告することが可能になるからです。
別の言い方をすると、これらのメタデータ管理を行わずして、これらの報告を信頼できる形で継続的に行うのはとても難しいとも言えます。
これをデータカタログで実現するケースもありますが、単純にテクニカルなメタデータ情報(データのシステム上のテーブル名、カラム名、型、桁、プロファイリング情報など)のみを取り扱うデータカタログの場合では、ここまでフォローすることはできません。
ビジネス(ビジネス用語、意味定義、データオーナー、ビジネスプロセスなど)やオペレーショナル(データ品質、データアクセス権限の利用申請、データカタログの参照情報など)なメタデータ情報も、テクニカルなメタデータとリレーションシップと関連付けて管理することで、初めてデータとビジネスの関係が拡大していく様を報告することが可能になります。
- 公開されたデータ資産数 < ビジネス用語、意味定義、データオーナーの登録済データ
- 品質保証されたデータ資産数 < データ ✕ データ品質メトリクス
- 信頼性保証されたデータ資産数 < データ ✕ データリネージ
- 組織別のデータ資産数 < データ ✕ データオーナーの組織
- 組織別のデータ活用成熟度 < データ ✕ データアクセス権限の利用申請の組織
- データの使用人数 < データ ✕ データアクセス権限の利用申請のユーザー
- データの準備時間 < データアクセス権限の利用申請のワークフローの開始/終了時間
- データの使用業務数 < データ ✕ ビジネスプロセス
- 価値の高そうなデータ資産 < データ ✕ データカタログの参照情報
なお、近年はこの「メタデータ管理のサービス=データカタログ」という考えが多くの人達に浸透してきています。私も多くのお客様と会話する上で、最近は「データカタログって何ですか?」という質問を受けることは無くなりました。
その一方、このデータとビジネスの紐付けに注力する流れが、2023年の新たな潮流、「メタデータ管理のビジネスに寄り添ったサービス=データマーケットプレイス」を生んだのではないか、という気がします。
(それ以外にも、データメッシュの普及も関係してると思いますが)
メタデータ管理の世界でデータマーケットプレイスが注目を集める
データマーケットプレイスとは何か?については諸説ありますが、例えば、TechTargetのData Marketplaceでは以下のように定義されています。
データマーケットプレイスまたはデータマーケットは、データ消費者がデータを購入できるオンラインストアです。
データマーケットプレイスは通常、さまざまな市場およびさまざまなソースからのさまざまな種類のデータを提供します。販売される一般的な種類のデータには、ビジネスインテリジェンス、広告、人口統計、個人情報、調査および市場データが含まれます。データ型は、さまざまな方法で混合および構造化できます。データ提供者は、個々のデータ消費者に特定の形式でデータを提供する場合があります。
社外向けのデータマーケットプレイス
この定義におけるわかりやすい例としては、Snowflake Marketplaceがあげられます。今でこそ名称がSnowflake Marketplaceになっていますが、かつてはData Marketplaceという名称で呼ばれていました。
ここでは、Snowflakeのユーザーが他社と共有したいデータをMarketplace上で無償または有償公開し、データの売買や交換といったデータシェアリングを行うことができます。
つまり、このデータマーケットプレイスを使うことで、データを誰でもわかりやすくマネタイズすることができるのです。自社で保有・管理するデータ資産を社外に販売することで、データそのものから直接的に新たな収益を得ることができる。これほどデータのビジネス上の価値を説明する上でこれほどわかりやすい話はありません。
データとビジネスの紐付けに帆走する企業が増える中で、このデータマーケットプレイスが注目を集めるのは、必然の流れのように感じられます。
Douglas Laney "Data Monetization: New Value Streams You Need Right Now"より引用
社内向けのデータマーケットプレイス
一方で、データマーケットプレイスという用語は、このSnowflake Marketplaceのような社外を中心としたデータマネタイズの仕組みだけでなく、間接的にデータからビジネス上の価値を得ていく狙いの、「社内におけるデータシェアリングの仕組み」として使われるケースもあります。
Douglas Laney "Data Monetization: New Value Streams You Need Right Now"より引用
その最も有名な用途としては、「データメッシュの世界におけるデータプロダクトを事業ドメイン横断で社内共有する」目的があげられます。
データメッシュの基礎について理解したい方は、合わせて集中 vs 分散、データメッシュ(Data Mesh) とは?の記事もご参考ください。
しかし、海外では事業ドメイン横断でのデータ活用がより活発になっているため、この社内向けのデータマーケットプレイスを求めるニーズが広がっています。
実際、全社規模で誰もが事業ドメイン横断でデータを組み合わせて業務に活用しようとした場合、データマーケットプレイスのような仕組みがないと、色んな他事業部の担当者に聞いて回ったり、データ共有のお願いをして回る必要があります。それではとても手間がかかるし、散々相談した結果、共有してもらえないようなケースも出てきます。
従って、日本でこの社内向けデータマーケットプレイスの市場が広く浸透していくのは、もう少し先になるかもしれません。
データマーケットプレイスとデータカタログの違い
データマーケットプレイスとデータカタログは、メタデータを管理しデータを可視化するという意味では似ているサービスと言えます。しかし、その役割やケーパビリティには違いがあるため、その違いについては以下の表をご参考ください。
データマーケットプレイス | データカタログ | |
---|---|---|
役割 | データ提供者と消費者の間の仲介者 | 組織のデータ資産に関する情報の中央リポジトリ |
目的 | 信頼できるデータプロダクトの共有・交換の促進 | データ資産の効率的な発見と理解の促進 |
管理 | データプロダクトのパッケージ、データ注文の管理と公開 | データのメタデータ管理と公開 |
検索 | データプロダクトの簡便な検索 | データと関連メタデータの高度な検索 |
紹介 | データプロダクトの製品紹介とガイダンス | データとビジネスの透明性を担保(疑問を解決) |
協業 | データ提供者と消費者のコラボレーション | データマネジメントオフィスも含めデータガバナンスに準拠した管理プロセスの運用 |
依頼 | データプロダクトの注文プロセス | データに関する多様なワークフロー(チケット) |
配信 | データプロダクトの配信とプロビジョニング | アクセス方法のガイダンスのみ |
その他 | データカタログ連携(データプロダクトのメタデータ連携とパッケージ化)、メタデータの要約と可視化、データプロダクトの追加リクエスト、FAQと口コミ管理、データプロダクトの使用目的管理、データアクセス管理連携、データインベントリ | データとリレーションシップ検出、データ分類、データプロファイリング、データリネージュ(データ統合連携)、データ品質連携、データガバナンス連携(ビジネス用語、データオーナー、ポリシー、プロセス、ワークフロー) |
データマーケットプレイスの原則
注目すべきポイントとしては、データマーケットプレイスが以下にフォーカスしている点でしょうか。
- データではなく、データプロダクトを
- テクニカルユーザーではなく、ビジネスユーザー(データ消費者)を
- 詳細さではなく、シンプルさを
- データの管理ではなく、実業務での活用促進を
結局、データカタログは(メタデータの登録・更新の運用工数を無視すれば)情報が詳細で正確に記載されていればいるほど嬉しいものだったりしますが、データマーケットプレイスは情報が少ない、直感的にさっとわかる程度の要約情報のみである方が嬉しかったりします。
皆さんも何か製品を購入する時、とてつもなく詳細に製品仕様が説明されているオンラインショッピングサイトと、知りたいポイントだけ良い感じに紹介されているAmazon Marketplaceがあった場合、どちらを好んで使用するかと言えば答えはほぼ自明かと思います。
しょせんデータは眺めているだけでは価値を生まず、実業務の意思決定の判断材料として使って初めて価値を生みます。従って、データをビジネスに直結させていくためには、業務を実際に日々行っているビジネスユーザーにデータを使ってもらう仕組みが必要である、そのためにデータカタログから発展したデータマーケットプレイスに注目が集まっているのだと思います。
データマーケットプレイスと他データマネジメントサービスの関係
なお、データマーケットプレイスはデータカタログとデータアクセス管理と連携し、データカタログはデータ統合や品質、ガバナンスなどと連携して使うのが基本だったりしますが、この辺の関係性のアーキテクチャイメージは以下をご参照ください。
Modern Data Architecture by Informatica
そして今、このデータマーケットプレイスの導入と展開を推進する中で、連動して運用することが求められる将来的なデータアクセス管理に懸念を抱く企業が増えてきています。
将来的なデータアクセス管理に懸念を抱く企業が増える
データガバナンスの取り組みの中で、データマーケットプレイスによる全社的なデータ活用促進を「攻めのデータ活用」と言うならば、その中で連携して実現するデータアクセス権限の管理は「守りのデータ保護」と言うのがわかりやすいかもしれません。
今、このデータアクセス管理に注目する企業が少しずつ増えてきています。
例えば、ある企業では、自前のデータカタログの中に、データアクセス権限を申請するためのワークフローを組込んでデータマーケットプレイスのように運用をしています。しかし、その権限管理対象となるシステムは多岐に渡っており、その一つ一つに申請に従ってアクセス権限を付与する作業のワークロードは、年々増加しています。今後もシステムは増え続け、データの種類やその量も増え続け、さらにはその利用ユーザーも増え続ける見込みです。この状況下において、将来的に今の運用を継続していくのはワークロード的に不安に感じています。
このような企業は増えてきており、実際、私が会話している複数のコンサルティングファームのクライアントの中には、同様の懸念を持つ企業が少しずつ出てきています。そのために、マルチクラウド環境、さらにデータガバナンス対応型の新しいクラウドデータアクセス管理のサービスの話を詳しく聞かせて欲しい、という依頼も聞くようになっています。
データアクセス権限管理を高度化するための原則
データアクセス権限管理のワークロードを減らすためには、運用レベルで以下のような変化が必要です。
- アクセス権限の管理だけでなく、動的なマスキングの適用有無も含めた多様な権限管理へ
- ユーザー個別単位の管理ではなく、事業ドメインやグループ単位の管理へ
- 物理的なデータセット個別の管理ではなく、同じビジネス用語や意味定義のデータセット郡をグルーピングした管理へ
- 申請単位で公開を個別検討するのではなく、パーパス(目的)と透明性あるポリシーに準じた管理へ
- データ関連サービス個別の管理ではなく、1箇所で定義してサービス横断で一括適用する管理へ
- 規制、ポリシー、組織の変更を恐れるのではなく、変更を受け入れる効率的な集中管理へ
- データ注文/利用申請と権限制御を分離するのではなく、申請と権限制御が自動化された管理へ
この変化を実現する技術こそが、データガバナンスに対応したメタデータ駆動型の新しいクラウドデータアクセス管理です。
以下では、そのイメージをご紹介しましょう。
メタデータ駆動のクラウドデータアクセス管理
データ関連サービス横断でポリシーを一箇所で定義し、一貫したアクセス制御と動的なマスキング制御を行います。
Cloud Data Access Management (CDAM) by Informatica
例えば、日本のユーザーグループに所属するユーザーが、Country(国)のカラムを持つデータセットにアクセスした時、英国の値を持つレコードのみアクセス不可とするようなポリシーを定義したとします。
CDAM's Policy Management Sample by Informatica
画像イメージと説明内容がやや異なるため、そこは注意ください。
(サンプル画像よりもわかり易い例で文章は説明してます)
すると、実際にそのデータセットにアクセスした時、英国のデータのみを非表示に制御することができます。
更に、ポリシーに韓国のデータはマスキングする、生年月日は全て一般化する、といったポリシーを追加定義すれば、それらを同時に施行することができます。
CDAM's Control Image by Informatica
この一貫した制御を、複数のデータ関連サービスを横断して一括適用できるような世界観です。
CDAM's Support Area by Informatica
もしこのレベルの制御を、各システムで個別制御するとしたらいかがでしょうか。
とても、とても運用困難なワークロードが発生することが想像できるのではないかと思います。
また、このレベルの制御を今はできていなくても、将来的に自社のデータの民主化が進んでいけばいつか必要になりそうだな、、、という感覚もこの記事を読んで持っていただければ幸いです。
まとめ
以上のように、データとビジネスの紐付けを求めるニーズから、データマーケットプレイスを自社のデータアーキテクチャに組み込む企業が増え、そこからデータアクセス権限管理を高度化する流れが、データガバナンスの世界の中で生まれています。
そして、これに生成AIの登場によるデータガバナンスの重要性が高まる流れも加わり、2024年以降は新しいデータガバナンスの実装を目指す企業が増えると予想します。
本記事が、データガバナンスやデータマネジメントを推進する方にとって、何かしら今後の取り組みの参考になれば幸いです。
なお、明日投稿する記事においては、この新しいデータガバナンス体験の具体的なイメージも紹介していこうと思いますので、そちらもセットでお読みいただければ幸いです。
最後までお読みいただき、ありがとうございました。