この記事は インフォマティカ Advent Calendar 2021 Day 19 の記事として書かれています。
はじめに
前回はSnowflakeのリネージュについて解説しましたが、今回は、最新のCould NativeなData Lake/Houseソリューションである、Databricksについて、メタデータやリネージュを可視化してみます。
インフォマティカのデータカタログ(EDC)では、DatabricksのメタデータおよびNotebooksのリネージュを取得する事ができます。
Delta Lakeのメタデータ
Database, Schema, Tablesをはじめとするデータ・オブジェクトを取得することができます。
またDelta Table内のデータに関して、プロファイリングと呼ばれるデータ特性やパータン、サマリーデータを閲覧できる機能を使う事で、容易にどんなデータが格納されているかをデータカタログから直接、確認することが出来ます。
※クリックして拡大表示できます
Notebooksのリネージュ
Databricksでは、Notebooksと呼ばれる実行可能なセル (コマンド) の開発環境で、PythonやSQL等の言語を使ってデータセットを加工・編集、閲覧することができます。
下記のイメージの例では、Pythonで書かれたNotebooksにおいて、Delta fileからDelta Tableを生成しているセルをデータカタログによって可視化したものになります。データカタログからは関連するデータオブジェクト、およびNotebooksのソースコードを直接確認することが出来ます。
※クリックして拡大表示できます
また下記の例では、Delta fileからDelta Tableを生成しているセルも含めたデータ処理全体を、リネージュとしてデータ流通経路の全体像を可視化することが出来ます。これによりデータがどこから発生し、どこに向かうのか、その途中でどのような処理が行われているかを、ソースコードの閲覧も含めてインタラクティブに確認することが出来るようになり、将来的なデータ利用の要件変更やAI/MLで利用データの説明・証明に活用することができます。
※クリックして拡大表示できます
まとめ
インフォマティカのデータカタログである、Enterprise Data Catalog(EDC)では標準的なメタデータの取得に加えて、リネージュの取得・描画に関する機能を強化しており、今回のDatabricks NotebooksのようにPythonやSQLのコードを読み取り、複雑になりがちなデータの流通経路を正確に把握する事が可能となります。
これらの機能をデータ分析やデータ加工の高度化に向けてご活用下さい。