6
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

こちらのアップデートです。

独自のデータリネージを持ち込む(パブリックプレビュー)
データリネージには、Databricks 外部で実行されるアセットやワークフローも含められるようになりました。Databricks 外でワークロード(たとえば、ファーストマイルの ETL やラストマイルの BI)を実行している場合でも、Unity Catalog を使えば、Databricks が自動的に取得するデータリネージに加えて、外部のリネージメタデータを追加することができ、Unity Catalog 上でエンドツーエンドのリネージビューを得ることができます。これは、Unity Catalog に取り込まれる前にデータがどこから来たのか(例:Salesforce や MySQL)や、Unity Catalog 外でどこでデータが消費されているのか(例:Tableau や PowerBI)を把握したい場合に有用です。

この外部リネージメタデータ機能はパブリックプレビューです。独自のデータリネージを持ち込むをご覧ください。

Unity Catalogの外部リネージ機能

Unity Catalogの外部リネージ機能を使用すると、Databricks外部で実行されるワークフローやシステムのデータリネージを手動で追加できます。この機能により、SalesforceやMySQLなどの外部データソースから、TableauやPowerBIなどのBIツールまで、エンドツーエンドのデータフローを可視化できます。外部メタデータオブジェクトを作成し、Unity Catalogのテーブルやモデルとのリネージ関係を設定することで、データの完全なライフサイクルを把握できます。現在パブリックプレビュー段階にあり、Catalog Explorer UIまたはREST APIを通じて利用可能です。これにより、データガバナンスの強化と、より包括的なデータ管理が実現できます。

機能概要

Unity Catalogの外部リネージ機能は、Databricks環境外で実行されるデータ処理やワークフローを含む、包括的なデータリネージの可視化を実現する機能です。

通常、Unity CatalogはDatabricks内で実行されるクエリ間のデータリネージを自動的にキャプチャしますが、多くの組織では以下のような外部システムも利用しています:

データソース側 (ファーストマイル)

  • Salesforce
  • MySQL
  • PostgreSQL
  • その他のSaaSアプリケーション

データ消費側 (ラストマイル)

  • Tableau
  • Power BI
  • その他のBIツール

外部リネージ機能を使用することで、これらの外部システムとDatabricks内のデータアセットとの関係を明示的に定義し、完全なデータフローを可視化できます。

外部リネージの構成要素

要素 説明
外部メタデータオブジェクト 外部システム内のエンティティ (例: Tableauダッシュボード) を表すオブジェクト
リネージ関係 外部メタデータオブジェクトとUnity Catalogオブジェクト間の接続
システムタイプ 外部システムの種類 (Tableau、PowerBI、カスタムなど)
エンティティタイプ オブジェクトの種類 (テーブル、ダッシュボードなど)

メリット、嬉しさ

1. エンドツーエンドの可視性

外部リネージ機能により、データの完全なライフサイクルを把握できます。データがどこから来て、どのように変換され、最終的にどこで使用されているかを一目で確認できます。

2. 影響分析の精度向上

変更前の影響確認

  • ソースシステムの変更がDatabricksを経由してBIダッシュボードにどう影響するか
  • テーブルスキーマの変更が下流のレポートに与える影響

3. コンプライアンスとガバナンスの強化

規制要件への対応において、データの完全な流れを証明できることは重要です。外部リネージにより:

  • データの出所と行き先を明確に文書化
  • 監査時の説明責任を果たしやすくなる
  • データ品質の問題の根本原因を特定しやすくなる

4. チーム間のコラボレーション向上

データエンジニア、アナリスト、ビジネスユーザー間で共通の理解を持てるようになります。

使い方の流れ

ステップ1: 必要な権限の確認

まず、以下の権限が付与されていることを確認します:

タスク 必要な権限
外部メタデータオブジェクトの作成 メタストアに対するCREATE EXTERNAL METADATA権限
リネージ関係の指定 外部メタデータオブジェクトに対するMODIFY権限
ダウンストリームリネージの指定 Unity Catalogオブジェクトに対する読み取り権限 (例: SELECT)
アップストリームリネージの指定 Unity Catalogオブジェクトに対する書き込み権限 (例: MODIFY)

ステップ2: 外部メタデータオブジェクトの作成

Catalog Explorer UIを使用する場合:

  1. Databricksワークスペースで「カタログ」をクリック

  2. 「外部メタデータ」ボタンをクリック
    Screenshot 2025-06-29 at 8.28.13.png

  3. 「外部メタデータ」タブに移動し、「外部メタデータの作成」をクリック
    Screenshot 2025-06-29 at 8.28.22.png

  4. 以下の情報を入力:
    Screenshot 2025-06-29 at 8.28.31.png

必須項目:

  • 名前: 分かりやすい名前 (スペース不可)
  • システムタイプ: 外部システムを選択 (Tableau、PowerBIなど)
  • エンティティタイプ: オブジェクトの種類 (テーブル、ダッシュボードなど)

オプション項目:

  • URL: 外部アセットへのリンク
  • 説明: オブジェクトの説明
  • : 列レベルのマッピング用の列名
  • プロパティ: JSONキー値ペアとして追加のメタデータ

以下のように外部データベースの体で外部メタデータを作成します。
Screenshot 2025-06-29 at 8.35.41.png

JSONを表示ボタンを押すとJSON定義を確認できます。
Screenshot 2025-06-29 at 8.35.48.png

外部メタデータが作成できたので、Unity Catalogオブジェクトとの依存関係(リネージ)を定義します。
Screenshot 2025-06-29 at 8.35.57.png

ステップ3: リネージ関係の作成

  1. 作成した外部メタデータオブジェクトを選択

  2. 「リネージ関係の作成」をクリック

  3. 上流または下流の関係を選択

  4. 関連付けるオブジェクトタイプを選択:

    • テーブル: Unity Catalogのテーブル
    • モデル: MLモデル
    • パス: ボリュームまたは外部ロケーション
    • 外部メタデータ: 他の外部メタデータオブジェクト

    ここでは、下流の関係を設定します。
    Screenshot 2025-06-29 at 8.36.18.png
     テーブルに紐づけます。
    Screenshot 2025-06-29 at 8.36.26.png
    Screenshot 2025-06-29 at 8.36.44.png
    ここでもJSON定義を確認できます。
    Screenshot 2025-06-29 at 8.37.02.png
    作成をクリックします。
    Screenshot 2025-06-29 at 8.36.50.png
    これでリネージを定義できました。
    Screenshot 2025-06-29 at 8.37.10.png
    リネージグラフを表示で視覚的にも確認できます。
    Screenshot 2025-06-29 at 8.40.38.png

  5. (オプション) 詳細設定で列マッピングや追加メタデータを設定

カタログエクスプローラで紐づけたテーブルにアクセスしても、外部メタデータが関連づけられていることを確認できます。
Screenshot 2025-06-29 at 8.37.24.png

リネージグラフにも表示されています。
Screenshot 2025-06-29 at 8.38.27.png

注意点

1. 手動での管理が必要

現在、外部リネージメタデータは自動的にキャプチャされません。すべての外部リネージ関係は手動で作成・管理する必要があります。

2. リネージシステムテーブルの制限

外部リネージ機能で追加したメタデータは、リネージシステムテーブルからクエリできません。プログラムでアクセスする場合はREST APIを使用する必要があります。

3. Unity Catalog内のテーブル間リネージ

Unity Catalogに登録されている2つのテーブル間のリネージ関係を指定する場合、中間に外部メタデータオブジェクトを作成する必要があります。

4. パブリックプレビューの制限

この機能は現在パブリックプレビュー段階にあるため、将来的に仕様が変更される可能性があります。

5. 権限管理の複雑さ

適切なリネージ関係を設定するには、複数のレベルでの権限が必要です。組織内での権限管理ポリシーを事前に確認することが重要です。

まとめ

Unity Catalogの外部リネージ機能は、Databricks環境を超えたデータの完全な流れを可視化する重要な機能です。SalesforceやMySQLなどのソースシステムから、TableauやPower BIなどのBIツールまで、エンドツーエンドのデータリネージを構築できます。

手動での設定が必要という制限はありますが、データガバナンスの強化、影響分析の精度向上、チーム間のコラボレーション促進など、多くのメリットをもたらします。特に、規制要件への対応やデータ品質管理において、この機能は重要な役割を果たします。

今後、自動化機能の追加やシステムテーブルとの統合など、機能の拡張が期待されます。現時点でも、適切に実装することで、組織のデータ管理能力を大幅に向上させることができるでしょう。

はじめてのDatabricks

はじめてのDatabricks

Databricks無料トライアル

Databricks無料トライアル

6
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?