Data Observabilityとは
Data Observability(データオブザーバビリティ/データの可観測性)とは、システムから生成される大量のデータ(ログ、メトリクス、トレースなど)を収集・分析することで、データパイプラインやデータセットの「内部状態」をリアルタイムに深く理解し、問題の早期発見と迅速な解決、そしてデータの品質・信頼性を保証するための能力や技術分野です。
InformaticaのData Observability
InformaticaのCDGCでは、メタデータを管理した上で、データプロファイリングという技術を用いてデータの中身を理解し、複数のプロファイリング結果を比較することでデータ内容の変化を捉えられます。異常な変化があった場合はチケットが発行され、ステークホルダーに通知されます。
システム設定
メタデータコマンドセンターの設定
こちらの設定は非常に簡単で、メタデータ抽出設定のData Observabilityタブに切り替え、機能をONにするだけで利用可能になります。
Data ObservabilityとProfilingの設定は独立して行えます。ただし、Data Observabilityはデータの中身を検知するため、Data Observabilityを実行するとProfilingが自動的に実行されます。
全てのデータをObserveするとProfilingに必要なIPU数が増えるため、最小限のアセットを観察する場合はアセットフィルターの活用をおすすめします。
MCCタスクを実行する際に、Data Observabilityのみの実行は可能です。

カタログ画面上の運用
ダッシュボード
ダッシュボード画面に新しい「Data Observability Widget」を追加できるようになりました。観察したいデータソースとメトリックを選択して、ウィジェットを作成できます。
例えば、経費精算データに対してはこのようにData Observabilityのアラートが表示され、メトリック別・重大度別の詳細一覧を確認できます。
グラフをクリックするとドリルダウンでき、重大度「High」のイベントを詳細に確認可能です。
その中の一例として、従業員のNational IDカラムのユニーク割合の変化を示しています。棒グラフは複数回のProfiling結果を比較しており、過去は100%ユニークだったものが、最新では割合が低下し、重複データが混入していることが分かります。
データエンジニアやデータ管理者は、このNational IDが個人番号であるため重複は許されないと認識し、データの汚れを確信できます。
この後、システム側で重複排除の対応を行い、その後この画面に戻って右上の「Resolve」ボタンをクリックするとイベントが消えます。
(「Reject」ボタンは、このような変化が業務上正常と判断される場合に、今後同様の変化パターンでイベントを生成しない設定です。)
リネージュ
さらに、データエンジニアに嬉しい機能として、リネージュ画面でData Observabilityの結果を合わせて確認できます。
データ異常が発生した際、影響範囲の把握や一つ前のETL処理の状況確認が容易になります。
まとめ
Data Observabilityはデータの変化を観察する機能であり、データ品質サービスと連携してデータの信頼性を担保する重要なサービスです。ぜひ活用してみてください。
あるリサーチコンサル会社がData Observabilityの定義を発表しており、その中にはデータ本体の観察だけでなく、データパイプライン、インフラ、利用状況、さらにはコストに関する観察など多様な要素が含まれています。
この包括的な定義に沿って、Informaticaも今後の機能開発を進めていきますので、ぜひご期待ください。







