Announcing Public Preview of Data Lineage in Unity Catalog - The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
本日、AWSとAzureで利用できるUnity Catalogのデータリネージ機能のパブリックプレビューを発表できることを嬉しく思っています。
前回のアナウンスの記事では、レイクハウスにおいて効率的なデータガバナンスツールとしてチームがどのようにデータリネージを活用するできるのかを議論しました。この記事では、本リリースにおけるキーとなる機能のいくつかと、Unity Catalogでデータリネージを活用できるのかを探索し、リネージに関するロードマップの一部を見ていきます。
今ではAWSとAzureで利用できるUnity Catalogは、すべてのクラウドのレイクハウスにおけるすべてのデータ、AIの資産に対する統合ガバナンスソリューションを提供します。Unity Catalogにおける自動データリネージによって、データチームはコンプライアンス要件のためにセンシティブなデータをトラッキングし、データ品質を保証し、レイクハウスにおけるデータ変更のインパクト分析を行えるようになります。リネージは、Unity Catalogにアタッチされたすべてのワークスペースで集約されます。これは、あるワークスペースでキャプチャされたリネージは、同じメタストアを共有するすべてのワークスペースで参照できることを意味します。
パブリックプレビューによって利用できるようになるキーのデータリネージ機能
すべての言語のすべてのワークロードに対するリネージ: Unity Catalogは、自動ですべての言語(Python、SQL、R、Scala)や実行モード(バッチ、ストリーミング)で実行されたクエリーによるデータリネージを追跡します。数クリックでリネージグラフがリアルタイムで表示されます。
ノートブック、ワークフロー、ダッシュボードに対するリネージ: また、Unity Catalogはノートブック、ワークフロー、ダッシュボードのリネージもキャプチャします。これによって、あなたの組織においてデータがどのように使用されているのかに関して、エンドツーエンドの可視性を持ち、データの変更による後段の利用者に対するインパクトを理解する助けになります。
ビルトインのセキュリティ: リネージグラフは、Unity Catalogの共通アクセス権モデルを活用します。ユーザーはリネージデータを参照するための権限を必要とし、いかなるデータ漏洩のリスクを最小化し、追加のセキュリティレイヤーを追加しています。ユーザーがテーブルに対するSELECT権限を持たない場合、そのテーブルに関連づけられているリネージを探索することはできません。さらに、ユーザーは参照できる権限を持っているノートブック、ワークフロー、ダッシュボードのリネージ情報を参照することができます。
カラムレベルの粒度: Unity Catalogはテーブル、ビュー、カラムのデータリネージをキャプチャします。この情報によって、数クリックでデータチームにレイクハウスの特定のテーブルやカラムに対して、前段・後段にどのようにデータが流れているのかに関して、きめ細かなビューを提供します。
REST API経由で容易にエクスポート: 他のデータカタログやガバナンスソリューションとのインテグレーションをサポートするために、リネージ情報をREST API経由で取得することができます。
Unty Catalogでデータリネージを使い始める
Unity Catalogにおけるデータリネージ機能に関する詳細については以下のデモをご覧ください。
データリネージはDatabricksのプレミアム、エンタープライズプランで追加コストなしに利用することができます。すでにDatabricksを利用されているのであれば、スタートするにはデータリネージのガイド(AWS | Azure)をご覧ください。Databricksをまだ利用されていないのであれば、プレミアム、エンタープライズプランのフリートライアルにサインアップしてください。
次に来るものは
これは始まりに過ぎません。我々はレイクハウスにおけるデータリネージのシームレスなデータ観測性やデータ品質に対するビジョンを実現するために、エキサイティングな新機能に取り組んでいます。
ファイルのリネージ: クラウドストレージのファイルへのリネージの追跡。これは特にファーストマイルのETLユースケースで有用です。
コンテキスト内のリネージ: 失敗のインパクトをクイックに理解する特定のワークフローに対するリネージを参照するなど、最も適切な場所でリネージを参照し、アクションを取ります。
システムテーブルとしてのリネージ: お好きな言語を用いてリネージのデータにクエリーを実行するために事前定義済みのシステムテーブルに対して、プログラムからアクセスします。