6
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Databricks Notesbooksのリネージュをデータカタログで可視化してみる

Last updated at Posted at 2021-12-18

この記事は インフォマティカ Advent Calendar 2021 Day 19 の記事として書かれています。

はじめに

前回はSnowflakeのリネージュについて解説しましたが、今回は、最新のCould NativeなData Lake/Houseソリューションである、Databricksについて、メタデータやリネージュを可視化してみます。
インフォマティカのデータカタログ(EDC)では、DatabricksのメタデータおよびNotebooksのリネージュを取得する事ができます。

Delta Lakeのメタデータ

Database, Schema, Tablesをはじめとするデータ・オブジェクトを取得することができます。
またDelta Table内のデータに関して、プロファイリングと呼ばれるデータ特性やパータン、サマリーデータを閲覧できる機能を使う事で、容易にどんなデータが格納されているかをデータカタログから直接、確認することが出来ます。
※クリックして拡大表示できます

databricks_metadata.gif

Notebooksのリネージュ

Databricksでは、Notebooksと呼ばれる実行可能なセル (コマンド) の開発環境で、PythonやSQL等の言語を使ってデータセットを加工・編集、閲覧することができます。
下記のイメージの例では、Pythonで書かれたNotebooksにおいて、Delta fileからDelta Tableを生成しているセルをデータカタログによって可視化したものになります。データカタログからは関連するデータオブジェクト、およびNotebooksのソースコードを直接確認することが出来ます。
※クリックして拡大表示できます

databricks_notebooks.gif

また下記の例では、Delta fileからDelta Tableを生成しているセルも含めたデータ処理全体を、リネージュとしてデータ流通経路の全体像を可視化することが出来ます。これによりデータがどこから発生し、どこに向かうのか、その途中でどのような処理が行われているかを、ソースコードの閲覧も含めてインタラクティブに確認することが出来るようになり、将来的なデータ利用の要件変更やAI/MLで利用データの説明・証明に活用することができます。
※クリックして拡大表示できます

databricks_lineage.gif

まとめ

インフォマティカのデータカタログである、Enterprise Data Catalog(EDC)では標準的なメタデータの取得に加えて、リネージュの取得・描画に関する機能を強化しており、今回のDatabricks NotebooksのようにPythonやSQLのコードを読み取り、複雑になりがちなデータの流通経路を正確に把握する事が可能となります。
これらの機能をデータ分析やデータ加工の高度化に向けてご活用下さい。

6
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?