この記事は インフォマティカ Advent Calender 2022 Day 17の記事として書かれています。
新しくリリースされたデータカタログとデータガバナンスを融合したクラウド版の新サービスである、CDGC (Cloud Data Governance & Catalog) <※以下「CDGC」と記載> のすごい所、5選をお届けします!
1. テクニカルとビジネスのメタデータ統合がすごい!!
旧来のオンプレ版では、データカタログ(テクニカル・メタデータ)とデータガバナンス(ビジネス・メタデータ)は別製品として提供していましたが、CDGCでは統合され、インターフェースも一新されました。テクニカルユーザーだけでなく、ビジネスユーザーにも活用いただける基盤となっています。
テーブルやカラムのテクニカル情報を見ながら、それらに対する利用ポリシーやデータ品質ルールなどのガバナンス情報を確認して、「使えるデータ」なのか、「使っても良いデータ」なのかを総合的に判断することができます。
2. クラウド・ネイティブがすごい!!
クラウド版となった事で、インストールやバージョンアップの作業、日々のパフォーマンス監視や格納データ量に対するメンテナンス作業などの煩わしい作業から開放されます。またハードウェアの準備が全く不要なオプションなどもあり、オンプレ版で必要であった商用データベースなどの準備も不要となっています。
さあ、メタデータを活用する事に集中しましょう
3. リネージュのオーバーレイがすごい!!
インフォマティカのデータカタログは元々、リネージュ(データの流通経路の見える化)に力を入れて来ました。様々なETL製品、BI、スクリプト等からデータのリネージュを自動取得することができます。
さらにデータガバナンス機能と統合することで、例えば、ポリシーやプロセス、データ品質、ビジネス用語をリネージュ上でオーバーレイ(重ねて表示)する事ができ、メタデータの理解が大幅に効率化されます。
4. データ品質の管理がすごい!!
やっと見つけたデータが蓋を開けてみると、不正確だったり、足りなかったり、汚れているなどして、期待通りには分析に使えずと言うのは、データ分析あるあるです。
CDGCでは、そんな状況を打破するために、品質データ管理機能との連携をさらに強化しています。
データ品質管理サービスである Cloud Data Qualityとの連携により、品質スコアの見える化を行います。
また品質の履歴について、時系列のグラフで可視化する事で、いつから問題が発生したかを正確に把握できます。これにより原因分析を加速させる事ができます。
5. AIがすごい!!
AIデータモデルのメタデータ管理機能が追加されました。
AIモデルのアーキテクチャやライブラリ、ルール、IN/OUTなどと言った、AI/ML利用で有用なメタデータを管理することができます。
他方で、データガバナンスのメタデータ管理作業自体を手動で行う事は、骨が折れる作業となります。
担当者はサービスを整備するのに手が掛かり、本来的に注力したい分析支援やガバナンスの強化へ割く時間が少なくなってしまいます。
CDGCでは、CLAIREと呼ばれるAIエンジンを備えており、様々な場面でその恩恵に受ける事ができます。
例えば、自然言語解析による品質ルール作成ができるようになっています。
「It should be between 1 and 5」と言う英語の文章を解析して、4つのパターンのルールが自動生成されるので、それを選択するだけで、ルールの設定が完了します。
最後に
この記事では、データカタログとデータガバナンスを融合したクラウドソリューション CDGC (Cloud Data Governance & Catalog)について、すごい所の5選を解説しました。今後も様々な拡張が予定されているので、ご期待ください!!
CoE部
嶋田真人(Max)