この記事は インフォマティカ Advent Calendar 2023 のDay16の記事として書かれています。
はじめに
データマネジメントのエバンジェリストをやっているもりたくです。
本日は、生成AI全盛の世界の中でより強く求められるデータカタログ+データマーケットプレイス+メタデータ駆動のデータアクセス管理が奏でる新しいデータガバナンスの世界について、ご紹介します。
この記事を読んだ人が「自社のデータガバナンスを推進または強化していく上で、データガバナンスの関連サービスをどのように組み合わせたら良いのか、どのような体験をユーザー(データ消費者)に提供すべきか」を把握する上での何かしらのヒントになれば幸いです。
本記事の前提となるお話
本記事は、先日ご紹介した生成AIとデータマネジメント、さらにデータガバナンスにまつわる2023年の新しいトレンドの話の続きのお話になります。
これらを読んでから本記事を読んだ方が、理解し易い内容になっています。
インフォマティカが2024年以降に新しく提供しようと準備している、以下の新しいデータガバナンス体験とはどのようなものなのか、細かな話は抜きにして、デモを見る感覚でそのユーザー体験を紹介したいと思います。
なお、インフォマティカに興味がない方も、自社でお持ちのデータカタログをイメージしながら、このように拡張していくと便利になるかな、と想像しつつ読んでいただければ幸いです。
想定するビジネスシナリオ
以下の業務に取り組んでいる、ジーナとボブがいると想像してください。
- ジーナ=欧州のAIアナリスト、市場競争力を確保するために世界中の給与を分析している
- ボブ =米国の人事マネージャー、年収の見直しに取り組んでいる
彼らはどちらも現在仕掛中の業務を行うために、従業員の機密データと給与データを探して、アクセスする必要があります。
そこで、社内で分析に使いやすいデータプロダクトが公開されているというデータマーケットプレイスを使おうと考えています。
では、彼らのデータプロダクトの探索、購入、アクセスに至る体験を見ていきましょう。
欧州のAIアナリスト、ジーナの体験
データマーケットプレイスには、この会社の世界中の様々なシステム上に存在するデータプロダクトが公開されています。
AWS、Azure、GCP、さらにはSnowflakeやOracle、Tableauなどのシステムを横断する形で、データが物理的にどこに格納されているかを意識することなく、誰もが簡単にデータプロダクトを探索することができます。
ジーナがデータマーケットプレイスにアクセスすると、データプロダクトを提供している各事業ドメインを確認することができます。
色々な事業ドメインの中から、自分が求めているデータがありそうな人事のカテゴリーを発見しました。
そこで、このカテゴリーにアクセスしてみます。
人事のカテゴリーでは、人事関連で公開されているデータプロダクトを探すことができます。
最近よく使われているデータプロダクト、データプロダクトの一覧を見た結果、給与の分析に使えそうな従業員の給与データが気になったので、これにアクセスしてみます。
続いて表示されたデータプロダクトのサマリーを見ると、世界中の従業員データの詳細と給与情報が含まれていて、さらに、承認されている使用目的から分析やオペレーションの用途での使用が認められていると理解できます。
さらに、データ資産のタブを見てみると、実際に、このデータプロダクトには従業員の給与情報と国や生年月日、組織などの詳細情報が含まれていることがわかります。
データ品質のタブも確認すると、含まれている情報のデータ品質スコアが満点となっており、安心して使えそうなデータだということもわかります。
配信のタブも確認すると、このデータプロダクトへのアクセス方法として、AWS S3上でファイルとして受け取る方法と、TableauレポートのURLを受け取る方法などが選べることがわかります。
ここまで確認すれば、データ品質も担保されているTableauレポートであればすぐに分析に使えそうだし、今回の分析をやる上で便利そうだな、とジーナは判断することができます。
最後に、利用規約もチェックすると、このデータプロダクトは保護されていること、動的にマスクおよびフィルタリングされていて、参照するのが不適切なデータや機密データは削除された状態で参照できること、そのために容易にアクセスできて承認を得るのも簡単なデータであることがわかります。
さらに、データアクセスの制御ポリシーとして、誰が、どこにいて、役割は何で、使用目的は何か、といった条件に基づいて参照できる情報を制御していることもわかります。
給与情報は個人情報を含むので取り扱いは注意しないといけないことはわかっていたジーナですが、それが動的に自動で制御されている安心安全なデータプロダクトだということわかり、安心して使用する判断をします。
そこで、Checkoutのボタンを押し、データアクセスの申請(データプロダクトの購入)をスタートしていきます。
データアクセスの申請画面がでてきたので、データの使用目的が「分析」であり、その用途詳細が「世界中の従業員の給与が業界標準と比較してどういう状況にあるかをAIを用いて分析するため」であると記載していきます。
さらに、具体的に必要なデータとしては、役職と組織、給与詳細であることも補足しておきます。
最後に、申請前に確認した利用規約が念押しで表示されるので、今回の使用目的として問題ないことを再確認し、最後に申請をサブミットして完了します。
暫くした後、データアクセスの使用申請が完了した旨の通知が届いたので、データマーケットプレイスを確認すると、アクセス可能なデータの一覧に先程申請した内容が記載されています。
申請内容を確認すると、キリーが申請を承認し、エミールがデータのアクセス権限を付与した旨のコメントを確認できます。
しかも、このデータはCCPAとGDPRのグローバルプライバシー規制に準拠して保護されている安全なデータだと書かれています。
そして、人事部門であれば更に詳細なデータアクセスが可能であり、彼らと今後コラボレーションするのもお薦めだというアドバイスもありました。
そこで早速、添付されているTableauレポートへのURLリンクをクリックしてみます。
SSOで管理されているジーナの会社のIDを用いて、ログインします。
Tableauレポートを見てみると、確かに、従業員の名前がトークン化されて保護されていて、更に生年月日も生まれた年以外は全て一般化(1/1に補正)され、人事部門については役職がマスクされていることがわかります。
そして、国のカラムからは世界中の情報が含まれていて、給与は正確に確認することができるため、個人情報の取り扱いを自分自身で気をつけなくても安心安全に分析ができることが確認できました。
以上より、ジーナは自分のやるべき世界中の給与分析に使えるデータプロダクトに、データマーケットプレイス(と共に裏で連携して稼働するデータガバナンス&カタログ、データアクセス管理)を通じて、簡単に探索、購入、アクセスすることができました。
米国の人事マネージャー、ボブの体験
先程ジーナがアクセスしてた従業員の給与データには、「データアクセスの制御ポリシーとして、誰が、どこにいて、役割は何で、使用目的は何か、といった条件に基づいて参照できる情報を制御している」とありました。
そこで、実際に米国の人事マネージャー、ボブが、このTableauレポートにアクセスするとどのようにデータが見えるのか、チェックしてみましょう。
氏名、生年月日、役職といった情報が、ジーナの時と異なり、正確な情報が表示されています。
一方、国に注目してみると、米国の従業員データのみが表示されていることがわかります。
以上より、たとえ人事部門のボブであっても、GDPRなどの規制に影響を受ける、欧州の個人情報に相当する従業員情報は見ることができず、一方で管轄である米国の従業員情報のみは正しく詳細に確認できているといえます。
このような自動化された制御が、データマーケットプレイスの裏側で、データアクセス管理のサービスと連動することで実現されています。
結果として、ボブもジーナ同様に個人情報の取り扱いについて安心感を持ちながら、自分の目的である、年収の見直しにこのデータを使うことができるというわけです。
従業員データを管理・保護しているデータガバナンスオフィスの体験
今までの体験より、ジーナとボブがデータマーケットプレイスを通じて、簡単かつ安心安全に必要なデータプロダクトを探索、購入、アクセスできることがご想像いただけたのではないかと思います。
では、この体験を実現するために、裏側でデータガバナンスオフィスの人達がどのようなメタデータを管理しているのかも確認してみましょう。
データマーケットプレイスの従業員の給与データのデータ資産の画面に戻ってみます。
例えば、ここで従業員詳細のデータセットについて詳しく知りたい場合、表示されているリンクをクリックします。
すると、このデータセットに関する詳細な属性情報を確認できます。
更に、属性情報の一つであるアセットリンクのURLをクリックすることで、連動しているデータガバナンス&カタログのサービスにジャンプすることができます。
データガバナンス&カタログ側では、このデータセットを管理する上で必要なメタデータが定義され、管理されています。
実はこのデータガバナンス&カタログ上で整備したメタデータを、データ提供者がデータプロダクトとしてデータマーケットプレイスに公開したものが、先程までジーナが参照していた従業員の給与データだったりします。
もしこのデータセットについてより詳細に調査、理解したい場合、このデータガバナンス&カタログ上で、より多くの情報(プロファイリングやリネージュ)を確認することができます。
データガバナンス&カタログをより詳しく理解するために、ダッシュボードにアクセスしてみます。
すると、全体として、先程のデータ以外に多くの種類のメタデータを管理していることがわかります。
ビジネスメタデータとして、ビジネス用語やポリシー、プロセス、規則、地理情報など。そしてテクニカルメタデータとして、テーブルやカラム、ビュー、プロシージャやBIレポートなど。さらにオペレーショナルメタデータとして、データ品質なども確認できます。
ポリシーのメタデータをチェックしてみると、Human Resourcesという人事関連のデータポリシーが登録されていることがわかります。
このポリシーについては、データアクセス管理のサービスの中で、ユーザープロファイルとコンテキスト属性のメタデータを用いてレコードレベルのアクセスを制御を定義することができます。
実際今回のケースでは、ユーザーグループ「infa_us」(米国の人事)であれば、米国のデータ以外のレコードは表示しないというポリシーを定義していたりします。
さらに、もう一つ、レコードおよびカラムレベルでのマスキングによる詳細な制御をするための、データ変換ポリシーも定義されています。
メタデータを使用して、生年月日は一般化する、Eメールアドレスや従業員番号などは別の値にリプレースする、といったようなレベルの定義を行い、データアクセス時のリアルタイムな制御を実現することができます。
以上、概要レベルの説明とはなりますが、データガバナンス&カタログが管理するメタデータ、さらにはデータマーケットプレイス上でのデータアクセス申請に指定された申請者のメタデータ、それらを組み合わせることによって、最終的にデータアクセス管理のサービスがリアルタイムな各システムへのデータアクセスを制御しています。
まとめ
今回ご紹介した内容、いかがでしたでしょうか。
今後皆さまがデータカタログ、データマーケットプレイス、さらにはデータアクセス管理、といったデータガバナンスに関するサービス/ツールを実装していく上で、どのような連携をすればユーザーに取って便利になるのか、何かしらのヒントになれば幸いです。
なお、今回ご紹介した内容は、本記事の執筆時点(2024/12/16)でまだInformaticaでもリリースされていない機能になります。
従って、実際に2024年以降にリリースされた際には、紹介した流れと一部異なる部分が出てくるかもしれませんので、そこはご留意ください。
ただ、少しでも未来に実装すべき新しいデータガバナンス、新しいメタデータ管理の世界として、今後のデータガバナンス推進の参考になればと思います。
最後までお読みいただき、ありがとうございました。