この記事は インフォマティカ Advent Calendar 2023 のDay9の記事として書かれています。
はじめに
データマネジメントのエバンジェリストをやっているもりたくです。
本日は、今年あらゆる企業が注目した生成AIが、今後データマネジメントの世界にどのような変化を与えるのか、について解説していきたいと思います。
この記事を読んだ人が「データマネジメントを推進する上で、生成AIをどのように取り込んだら良いのか、どう対処したら良いのか」を考えていく上での何かしらのヒントになれば幸いです。
データプラットフォーム企業による生成AIの動向
私がよく会話するお客様たちからよく聞くデータプラットフォームとしては、以下があげられます。
これらの企業は、年次イベントで各々生成AIについて発表をしています。
- Snowflake
- Google BigQuery
- Amazon Redshift
- Azure Synapse (Microsoft Fabric)
- Databricks
Snowflake Cortex
例えばSnowflake、Snowday2023でデータクラウドにおけるAIアプリの発見、分析、構築を簡素化するSnowflakeの新しいフルマネージドサービス、Snowflake Cortexについて発表しています。
Snowflake Cortex上のSnowflake Copilotを活用すれば、もはや自分でSQLを書く必要はありません。SQLスキルを持たない人でも、Copilotのプロンプトに自然言語を使用して質問すれば、データに関するインサイトを得ることもできるし、データの変換をすることも可能です。
Snowflake blog "Snowflake CortexでAIを数秒で使用" より引用
Databricks: Lakehouse IQ
Databricksであれば、Lakehouse IQ。LakehouseIQは、各会社のビジネスとデータのユニークなニュアンスを学習し、様々なユースケースで自然言語によるアクセスを可能にするナレッジエンジンです。LakehouseIQを使えば、組織内のどの従業員でも、自然言語でデータを検索、理解、照会することができます。
Databricks blog "LakehouseIQのご紹介: あなたのビジネスを独自に理解するAIエンジン" より引用
Amazon Q generative SQL
Amazonの場合はどうでしょう。Amazon Q generative SQL in Amazon Redshift Query EditorがAWS Re:Inventにて発表されています。こちらも利用者のメリットとして、列名やテーブル間の関係について自然言語で要望を尋ねるだけで、SQLステートメントを自動的に生成されたクエリを利用できます。生成されたクエリは、ノートブックから直接実行でき、SQLを知らなくてもデータの理解を深めたり加工することが可能です。
Youtube "AWS re:Invent 2023 - [LAUNCH] Amazon Q generative SQL in Amazon Redshift Query Editor (ANT352)" より引用
それ以外に、BIツールであるQuick Sightとの組み合わせにおいては、Amazon Q in QuickSightが使えるようになります。これはGenerative BI機能を使って自然言語で実現したい分析を伝えることで、ダッシュボードや分析を自動で作成できる機能です。 更に、ダッシュボードを要約したり、データを説明するストーリーの構築なども実現できるようです。
Micorosft: Copilot in Synapse Data Warehousing
Microsoftの場合も同様です。Microsoft FabricとAzure OpenAIを統合し、Azure SynapseやPower BI、Notebookなどの各種のデータサービスに関してAI Copilotの便利な機能を使えるようになります。自然言語でCopilotと対話するだけで、SQLやBIツールの知識がなくてもデータに関する理解を得ていくことが可能になります。
Qiita @yangjiayi(Jiayi Yang) "Microsoft Fabric - Next Generation Cloud Data Analytics Solution" より引用
Google Cloud: Duet AI in BigQuery
Google Cloudももちろん同様のサービスが準備されています。Duet AI in BigQueryです。これも自然言語で相談することにより、SQLクエリの自動生成や、提案、更にSQLクエリの説明まで受けることができます。
Google Cloud ”Duet AI の支援を受けてクエリを記述する" より引用
以上のように、もはやクラウドデータレイク、データウェアハウス、BIツールのお供に、生成AIが提供するプロンプトが提供される(Previewバージョンから正式なLaunchになるのは)のは時間の問題です。
従って、どこのベンダーのソフトウェアを使用していても、自らSQLコーディングする必要がなくなり、自然言語で相談するだけでデータを取り扱うことができるようになる世界がやってくるのです。
データマネジメントにおける生成AIの動向
では、データマネジメントの世界における生成AIの活用はどのようになるのでしょうか。
DAMA Wheelで鑑みると、先に紹介したのはデータウェアハウス周りにおける生成AIの活用といえます。
DAMA Japan "DAMA DIMBOK とは" より引用
それ以外の知識領域における活用例についても知ることで、生成AIが与えるデータマネジメントの世界の変化を知ることができます。
Informatica: CLAIRE GPT
そこで、Informaticaが業界初のデータマネジメント向け生成AIとして発表している、CLAIRE GPTのイメージデモから以下の知識領域における変化について考えてみましょう。
リリース前機能のため、リリース後の機能は紹介している機能と異なる可能性があります。
- メタデータ
- データ統合と相互運用性
- データ品質
- 参照データとマスタデータ
まず、データの発見・理解(メタデータ管理)の領域においては、生成AIが組み込まれたプロンプトに自然言語で相談するだけで、誰もがあらゆるデータの発見を簡単にできるようになります。
例えば、Tableau上でSales KPIというBIダッシュボードをみた時、「このデータはどのデータソースから作られたのだろう?」と疑問に思ったらどうでしょう。生成AI対応のデータカタログサービスを持っていれば、「リネージをみせてください」とChatGPT調のプロンプトに自然言語で相談するだけで、疑問に感じたデータの発見と理解を得ることができます。
CLAIRE GPT shows Lineage by Informatica
もはやユーザーはSQLの知識同様に、データカタログの使い方すら知る必要はないのです。
データ統合の領域に至っては、カタログで見つけたデータについて「SnowflakeのDWHへロードするマッピングを生成してください」と相談するだけで、データレプリケーションのETL処理を生成することができます。
CLAIRE GPT creates Data Pipeline by Informatica
データ品質の領域に至っては、「クレンジングしてください」と相談するだけで、ETLまたはELT処理の中にクレンジング処理を組み込むことができます。
CLAIRE GPT standadizes Datasets by Informatica
もちろんマスタデータ管理の領域においても、重要な要素である名寄せ処理も、プロンプトに相談する形で既存の名寄せモデルの適用を自然言語で依頼できるようになります。
CLAIRE GPT deduplicates Customer Master Data by Informatica
以上のように、従来データマネジメントの各知識領域で準備、学習の必要だったツール、クラウドサービスを各々詳細に知らなくても、誰もが簡単にデータを管理できる世界が2024年以降に訪れようとしています。
データマネジメントというと、データ分析や活用と比較して地味な裏方作業で、人員確保などがより難しいエリアと言えます。
そしてその割にやるべきことが多く、ツールも個別に導入していくと多くのツールを使いこなさないといけない状況に陥ります。
そのような大変なデータマネジメント作業も、誰もが簡単に行えるようになることで、より各事業部などに責任を分散して運用することが可能になることが予想されます。
データメッシュの世界においては、各事業ドメインでのセルフサービスのデータプロダクトの管理、オーナーシップなどが重要になりますが、それをより推進しやすくなるとも言えます。
生成AIによりデータの民主化が進んでいく
以上、各ソフトウェアベンダーの取り組みを鑑みると、誰もが生成AIのプロンプトに話しかけるだけで、データの理解やマネジメントができる夢のような世界、今まで以上にデータが民主化される世界がやってきます。
従来、一部の技術者(テクニカルユーザー)にしか扱えなかったデータが、より人数が多く、影響が大きい、一般の従業員(ビジネスユーザー)にも簡単に使えるようになります。つまり、データが業務に使われるその割合が拡大し、データが会社にもたらすビジネス価値がより最大化していくことになります。
Data Democratization and Business Value by Informatica
これはアメリカなどとと比較して、データを扱える技術者が少ないと言われる日本にとっては良い流れと言えるかもしれません。
データに触れるユーザーが増えていかないと、データの世界で複数年遅れを取っていると言われる日本が、世界に追いつけ追い越せとはならないと思うからです。
実際、DX白書2023によれば、DXを推進する人材(必ずしもデータを扱う人材とイコールではありませんが)の確保が日本ではわずか10%の組織しか満足できていない現状に対し、米国では70%以上が満足していると回答しています。
生成AIがこの状況を打破する特効薬の一つとして、活躍してくれることを今後期待したいと思います。
IPA "DX白書2023 第四章 デジタル時代の人材" より引用
データの民主化が進んだその先で起こること
ただ一方、データの民主化が進んだ場合、ポジティブな影響ばかりが起こるとはいえません。
データが簡単に扱えるようになることで、逆にネガティブな影響が発生する可能性があります。
それは「データガバナンス」の問題です。
皆さん、ちょっと思い出してください。
2015~2016年頃には、「UiPath」「Automation Anywhere」「Blue Prism」といったRPAベンダーが注目を浴びて、日本でこれらのRPAツールが急速に採用された歴史があります。
その時には、RPAツールがもたらす劇的な自動化に社会が期待した一方、RPAが人間の仕事を奪うのではないか、との議論が新聞記事などでもよく見られたと思います。
そして、それらの神話とともにRPAの急速な普及が進み、、、その後何が言われるようになったのか。
それは「野良ロボット」の問題です。
Microsoft Bing Image Creatorより自動生成した画像
便利なロボットをプログラミングすることなく、誰もが簡単に作れるようになったことにより、企業が管理・統制できない野良ロボットが多く作られてしまうことになったのです。
この状況、なんとなく今の生成AIのブームに似ていると思いませんか。
生成AIを活用することで、SQLを書けなかった人が簡単にSQLを書けるようになるのです。
参照系のSQLだけならまだしも、データ変換などを伴う更新系のSQL生成も生成AIに相談するだけでできるようになります。
データ民主化がもたらす負の側面
その結果、、、少なくとも以下の悪影響が出てくる可能性があります。
- 野良SQL、野良データが氾濫する
- データの再利用が難しくなる
- 誤ったデータ活用が増え、規制の違反リスクが高まる
Data Democratization's Issues by Informatica
これらの問題に対処するためにどうしたら良いのでしょうか。
データ民主化を成功へ結びつけるために
企業は、生成AI全盛の世界の中で「データガバナンス」に取り組むことがより重要になります。
特に、生成AIのサービスはもはや、パブリックに使えるサービスも多く、気がついたら企業としていつの間にか生成AIレディ(使用可能)になっていくことが考えられます。
一方、データマネジメント・レディ(対処可能)になっている企業はまだ多くないため、データガバナンスの整備は急ピッチで対処することが必要です。
では実際、このデータ民主化を企業のネガティブなリスクではなく、ポジティブな成功へ結びつけるために、具体的にどのようなデータガバナンスの施策を取ったらよいのでしょうか。
それには有効な3つのアプローチが考えられます。
- データとビジネスのメタデータ管理
- データプロダクトの共有管理
- メタデータ(ポリシー)駆動のデータアクセス管理
New Data Governance Capabilities by Informatica
データとビジネスのメタデータ管理
まず、メタデータ管理を推進することで、誰もがデータと関連するビジネスについて、簡単に調べられるようにすることが大切です。
- 今どのようなデータが企業内に存在するのか
- 類似するデータは存在するのか
- 関連するデータは何なのか
- 自分が関心のある業務の中で既に使われているデータはどれなのか
- データ変換の処理が行われたとしてその変換前後のデータの繋がり(リネージュ)はどうなっているのか
なぜならば、誰もがこのようなデータに関する疑問に直面した時、人に聞かないとわからない、生成AIもその実態を正しく回答することができない場合、より楽な手段に出るからです。
具体的には、これらの疑問の解決は諦めて、手っ取り早く生成AIに相談して新しいSQLを生成し、新しいデータを生み出すことになります。結果、似て非なる野良SQLや野良データが氾濫することになります。
しかし、これらの疑問について透明性をもって誰もがセルフサービスで調べられれば状況は変わってきます。しかも、生成AIのプロンプトを通じて自然言語で確認もできるようになれば、より便利でしょう。
ただ、AIを通じて回答を得る場合、ハルシネーション(AIの回答に嘘が含まれる)の問題には注意が必要です。そこで、データとビジネスの関係性をおさえたメタデータ管理(データカタログと呼んだ方が馴染みやすいでしょうか)の内容を引用しながら、生成AIが回答してくれれば最高です。
このように、誰もが自ら新しいデータを生み出さなくても、既にビジネス目的に合致したデータがあると簡単にわかるようになれば、新たなデータを生む流れに歯止めをかけることが期待できます。
データプロダクトの共有管理
更に、データの中でも各事業ドメインが利用を推奨する、お薦めのデータプロダクトが明確になっていて、事業部横断で共有可能になっていたらいかがでしょうか。
生成AIはそれを引用して、ユーザーにデータの変換よりもデータプロダクトの再利用を促すことが楽になるし、何よりユーザーは自らデータを作成するよりも信頼性が保証されたデータプロダクトの利用を好むでしょう。
特に、そのデータプロダクトを既に使用しているユーザーからのお墨付き、口コミなども同時に共有がなされれば、食べログやAmazon感覚でその利用は更に進むことが期待できます。
しかし、、、これらの整備がなされて、生成AIからのリコメンデーションがあったとしても、誤った目的や規制に違反する形でデータを活用する(悪意なく間違える)ユーザーは出てきてしまうかもしれません。
これについては、更に安全な使用ルール遵守について、より強制力を持って推進することが求められます。しかも、データマネジメントの各知識領域の活動から鑑みると、守るべきデータはそこかしこにあり、多くの活動の中でデータの参照/更新が行われています。その全てに強制力を発揮することが求められます。
- データレイク、データウェアハウス
- BIツール、AI/MLツール
- ETL、ELTツール
- データ仮想化ツール
- データカタログツール
メタデータ駆動のデータアクセス管理
そのために、これらデータ関連サービス(当然マルチクラウド想定)を横断する形で、あらゆるデータの参照(マスキングの有無含む)/更新を、規制や社内ポリシーに準じた形で、適切な組織の、適切なユーザーに、適切な地域内のデータのみを、適切な使用目的のみで、適切なデータにマスキングしながら、そのデータアクセスを管理する必要があります。
このアクセス管理を、各システムの各テーブル、各カラムに一つずつ手動で管理運用することを想像してみてください。組織変更などが発生するだけで、情報システム部門の人たちは発狂したくなるような作業工数が発生することが予想されます。
そこで、1箇所でそれらデータアクセスのポリシーを定義し、あらゆるシステムにマルチに適用するようなデータアクセス管理のサービスが今後重要となってくると言えます。
生成AIを通じて悪気なく新しいデータを生み出すデータ変換をしようとした場合でも、他社に共有してはいけないデータを含むダッシュボードを自動生成してしまった場合でも、それらを適切なポリシーに則って制御できていれば、誤った人に誤った形でデータを見せて事故になることが避けられます。
Cloud Data Access Management (CDAM) by Informatica
このようなアクセス管理と制御は、今後データに誰もがアクセスしやすくなることによって、より重要性を増していくと言えます。
ぜひデータマネジメントを推進する皆さまには、生成AIと共にデータガバナンスやデータアクセス管理についても、今後関心を持って強化頂ければ幸いです。
おわりに
本記事では、生成AIがもたらすデータマネジメントの世界の変化についてご紹介させていただきました。そしてデータの民主化が進む中で、よりデータガバナンスの重要性が増して行くお話もさせていただきました。
なお、あまり弊社の製品紹介ばかりはしたくないのですが、実際インフォマティカでは、この生成AI時代に対応した新しいデータガバナンス体験を提供する準備を行っています。
そのために、データアクセス管理のクラウドサービスであるPrivitarをこの2023年に買収し、データマネジメントクラウドの中で新たなデータガバナンス体験として提供する準備を行っています。
New Data Governance Services by Informatica
その新しい体験イメージは、本記事でご紹介するのではなく、インフォマティカ Advent Calendar 2023 で今後執筆予定のデータガバナンスのテーマの中でご紹介させていただこうと思います。
本記事が、Informaticaを採用、検討している人たちはもちろんのこと、Informaticaを知らない人たちにも、一つのプラクティスとしてご参考になっていれば幸いです。
最後までお読みいただき、ありがとうございました。