Announcing General Availability of Data lineage in Unity Catalog - The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
本日、AWSとAzureにおいてUnity Catalogのデータリネージが正式提供になったことを発表できて嬉しく思っています。データリネージの正式提供によって、Databricksレイクハウスプラットフォームのミッションクリティカルなワークロードにおいて、最高レベルの安定性、サポート、エンタープライズのレディネスを期待することができるようになります。利用し始めるにはデータリネージのガイドをご覧ください(AWS | Azure)。
本記事では、実用的なデータガバナンス戦略の鍵となるレバーとして、企業がどのようにデータリネージを活用するのか、GAリリースで利用できる幾つかの主要な機能、Unity Catalogでどのようにデータリネージの利用を開始するのかを説明します。
データリネージによるデータ観測性とコンプライアンスの促進
Unity Catalogは、データ、分析、AIに対する統合ガバナンスソリューションを提供し、データチームがすべてのデータ、AI資産のカタログを作成することを支援し、ANSI SQLをベースとした馴染み深いインタフェースを用いてきめ細かいアクセス権を定義し、監査データのアクセスや、クラウド、リージョン、データプラットフォーム横断でのデータ共有を提供します。
Unity Catalogにおいて、自動で提供されるデータリネージを用いることで、コンプライアンス要件や監査レポートのために、データチームは自動で機微なデータを追跡することができ、すべてのワークロードにおけるデータ品質を保証し、レイクハウスにおけるいかなるデータの変更に対するインパクト分析や変更管理を実施し、データパイプラインのエラーに対する根本原因分析が可能となります。データリネージの一般的なユースケースに関しては以前のブログ記事をご覧ください。
「データリネージによって、我々のデータセットが誰によってどのように活用されているのかに関する洞察を得ることができるようになりました。これは、基本的なドキュメントとしても役立ちますし、データセットの変更や、障害を避けるためにデータセットを非推奨にすることによって誰が影響を受けるのかを特定することができます。」— Sam Shuster, Staff Engineer, Edmunds
「リネージはアクセスコントロールにおける最後の重要なパーツです。これによって、アナリストはすべての利用基準に準拠しながらも、別の環境にテーブルやデータセットを再作成する際においても、自分の仕事を行うためにデータを活用することができます。」— Chris Locklin, Data Platform Manager, Grammarly
「リネージによってMillimanのプロフェッショナルは、データがどこからやってきているのか、どのような変換処理を経ているのか、プロジェクトの期間においてどのように活用されているのかを確認できるようになりました。エンドツーエンドの補完処理や標準的な財務処理を非常によくドキュメント化しています。」— Dan McCurley, Cloud Solutions Architect, Milliman
GAリリースにおけるデータリネージの主要機能
自動かつリアルタイムのリネージ: Unity Catalogは、すべての言語(Python、SQL、R、Scala)、すべての実行モード(バッチ、ストリーミング)で実行されたクエリーに対するデータフローをリアルタイムでキャプチャし表示します。リアルタイムのリネージは、データフローの軌跡を手動で作成するオペレーション上のオーバヘッドを削減します。データリネージは、Unity Catalogメタストアに接続されているすべてのワークスペースから自動で集約されるので、あるワークスペースでキャプチャされたリネージは、同じメタストアを共有する別のワークスペースで参照できることを意味します。
統合されたカラムとテーブルリネージのグラフ: Unity Catalogを用いることで、ユーザーは一つのリネージグラフでカラムとテーブルのリネージの両方を参照することができ、ユーザーは特定のテーブルやカラムが何から構成されているのか、データがどこからやってくるのかに関してより理解できるようになります。全体のデータフローダイアグラムを参照するために、ユーザーは数クリックでリネージグラフの上流、下流をナビゲーションすることができます。
Unity Catalogにおけるテーブル、カラムのリネージ
テーブルやカラムの先へ: また、Unity Catalogはノートブック、ワークフロー、ダッシュボードのリネージも追跡します。これによって、皆様の組織でデータがどのように活用されているのかに関するエンドツーエンドの可視性を改善し、後段の利用者に対するデータ変更のインパクトを理解することができます。
ノートブック、ワークフロー、ダッシュボードのリネージ
ビルトインのセキュリティ: デフォルトでリネージグラフはUnity Catalogの共通アクセス権モデルを使用します。リネージデータフローダイアグラムを参照するために、ユーザーは適切なアクセス権を有している必要があり、追加のセキュリティレイヤーを設けることで意図しないデータ漏洩のリスクを削減します。例えば、ユーザーがテーブルに対するSELECT権限を持っていない場合、彼らはテーブルのリネージを探索することはできません。同様に、ユーザーは参照権限を持つノートブック、ワークフロー、ダッシュボードのリネージ情報のみを参照することができます。
リネージグラフにおけるビルトインセキュリティ
パートナーインテグレーション: また、Unity CatalogはUnity Catalog REST APIを通じて様々なデータガバナンスパートナーとを用いた豊富なインテグレーションを提供しており、容易にリネージ情報をエクスポートすることができます。
Unity Catalogでデータリネージを使い始める
実際のデータリネージに関しては以下のデモ動画をご覧ください。
Databricks PremiumとEnterpriseにおいて、データリネージは追加料金なしに利用できます。Unity Catalogメタストアを参照するすべてのワークロードでは、デフォルトでデータリネージが有効化され、Unity Catalogに対して読み書きを行うすべてのワークロードは自動でリネージをキャプチャします。自動でキャプチャされるデータリネージを活用するには、2022/12/7以前に起動しているすべてのクラスター、SQLウェアハウスを再起動してください。すでにDatabricksアカウントをお持ちであれば、データリネージガイド(AWS | Azure)に沿って利用を開始することができます。Databricksのお客様でない場合には、PremiumあるいはEnterpriseのワークスペースのフリートライアルにサインアップすることができます。