Automated and Real-time Data Lineage With Unity Catalog - The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
訳者注
こちらで紹介しているデータリネージの一部の機能のデモはこちらからも参照することができます。
レイクハウスにおける全てのデータ&AI資産に対する統合ガバナンスソリューションであるUnity Catalogにおいて、データリネージ機能がプレビューで利用できるようになったことを発表できて嬉しく思っています。
本記事では、データリネージの重要性、いくつかの一般的なユースケース、データリネージによって提供されるより優れたデータの透明性とデータの理解に対する我々のビジョンを議論し、開発しているデータの来歴、ガバナンス機能のいくつかを見ていきます。
データリネージとは何であり、なぜ重要なのか?
データリネージは、データがソースから洞察に至るまでの変換や精錬を説明します。リネージには、データセットのソース、作成にどのような他のデータセットが使われたのか、いつ誰によって作成されたのか、どのような変換処理が行われたのか、どのような他のデータによって使われているのか、その他の数多くのイベント、属性を含むデータのライフサイクルと関連づけられる全ての適切なメタデータとイベントの捕捉が含まれます。データリネージソリューションを用いることで、データチームはどのようにデータが変換されたのか、自分達のデータプラットフォーム上をどのように流れていくのかに関してエンドツーエンドのビューを手に入れることができます。
企業がデータドリブンの文化をより取り入れ、データ&AIを民主化、スケールするためのプロセスとツールをセットアップするにつれて、データリネージは実用的なデータ管理、ガバナンス戦略の重要な柱となっていきます。
データリネージの重要性を理解するために、お客様から我々が聞いた一般的なユースケースのいくつかを以下でハイライトします。
インパクト分析
データは、ライフサイクルを通じて複数の更新処理や改訂を経ていくことになり、リスク管理の観点からいかなるデータ変更による後段の利用者に対する潜在的なインパクトを理解することは重要となっています。データリネージを用いることで、データチームはアプリケーション、ダッシュボード、機械学習モデルやデータセットなどデータ変更のインパクトを受ける全ての後段の消費者を参照することができ、インパクトの深刻度を理解し、適切なステークホルダーに通知を行うことができます。また、リネージはITチームがプロアクティブに適切なチームにデータの移行に関してコミュニケーションを取ることができ、ビジネス継続性を保証する役に立ちます。
データの理解及び透明性
企業は複数のソースから流れ込むデータを取り扱っており、データにまつわる文脈をより理解することは、データの信頼性を確実なものにするためには最重要なこととなっています。データリネージは、企業におけるデータの透明性を高め、データチームのリーダーがよりデータを理解できることを促進することを可能とする強力なツールです。また、データリネージはデータサイエンティスト、データエンジニア、データアナリストのようなデータのコンシューマーがコンテキストアウェアになることを可能にし、より品質の高い成果を生み出す分析を実行できるようにします。最後に、データスチュワードは不要なデータを退場させ、エンドユーザーにデータ品質を保証するために、どのデータがもはやアクセスされていないのか、古いものになっているのかを確認することができます。
デバッグ及び診断
同じ場所で全てのチェックを行いバランスを取ることができますが、最終的には何かが壊れるものです。データリネージは、データチームがデータパイプライン、アプリケーション、ダッシュボード、機械学習モデルなどで生じるいかなるエラーをソースまでトレースすることで根本原因分析を支援します。これによって、手動による調査で数日、多くの場合数ヶ月かかるデバッグの時間を劇的に短縮することができます。
コンプライアンス及び監査への対応
General Data Protection Regulation(GDPR)やCalifornia Consumer Privacy Act(CCPA)、Health Insurance Portability and Accountability Act(HIPPA)、Basel Committee on Banking Supervision(BCBS) 239、Sarbanes-Oxley Act (SOX)のような多くのコンプライアンス規制は、企業がデータを理解をしていること、データフローの可視性を持っていることを要求します。このため、自身のデータアーキテクチャが法規制に適合するためには、データのトレーサビリティがキーの要件となります。データリネージを用いることで、企業はコンプライアンスや監査に対応できるので、監査レポートのために手動で証跡を作成するオペレーションのオーバーヘッドを軽減することができます。
データリネージによる低負荷での透明性の確保、およびプロアクティブなコントロール
レイクハウスは単一のプラットフォーム上でデータウェアハウスとAIのユースケースを統合することで、大幅に企業のデータインフラストラクチャをシンプルにし、イノベーションを加速する実用的なデータ管理アーキテクチャを提供します。データリネージは、データ、ジョブ、コンシューマー間の関係を浮かび上がらせることで、お使いのレイクハウスにおいてより優れたデータの透明性とデータ理解を支援し、企業が以下のようなプロアクティブなデータ管理プラクティスを実行する際に、キーとなるイネーブラであると信じています。
- ダッシュボードのオーナーとして、ダッシュボードが利用しているテーブルが次のタイミングで適切にロードされなかった際に通知してほしいとは思いませんか?
- モデルを開発する機械学習実践者として、お使いのモデルの重要な機能がまもなく非推奨になることを警告してもらいたいと思いませんか?
- ガバナンス管理者として、データの起源に基づいて地頭的にアクセスを制御したいと思いませんか?
これらの機能全ては、全てのユースケース、ペルソナに対するデータリネージの自動収集に依存します。だからこそ、レイクハウスとデータリネージの組み合わせがパワフルなものになるのです。
このプレビューでロールアウトするいくつかの機能を示します。
- 自動ランタイムリネージ: Unity CatalogはDatabricksで実行されたオペレーションによって生成されるリネージを自動で捕捉します。これによって、データチームは手動でリネージグラフを作成するためにタグ付けすることと比べて大幅に時間を節約することができます。
- 全てのワークロードをサポート: リネージはSQLのみに限定されるわけではありません。Databricksでサポートされる全ての言語、Python、SQL、R、Scalaの全てのワークロードに対して適用されます。これによって、全てのペルソナ、データアナリスト、データサイエンティスト、MLエキスパートが、データインテリジェンスやデータの周辺情報を用いて自身のツールを拡張し、より優れた洞察を導き出せるようになります。
- カラムレベルの粒度でのリネージ: Unity Catalogはテーブル、ビュー、カラムのデータリネージを捕捉します。この情報はリアルタイムで表示され、データチームは数クリックでレイクハウスの特定のテーブルやカラムに対して前段、後段のデータフローがどうなっているのかを示す詳細なビューを手に入れることができます。
- ノートブック、ワークフロー、ダッシュボードのリネージ: また、Unity Catalogはノートブック、ワークフロー、ダッシュボードのようなデータ以外のエンティティに関連するリネージも捕捉します。これによって、企業でデータがどのように使用されているのかに関するエンドツーエンドの可視性を得る助けになります。このため、「このカラムを使用できないようにしたときに誰がインパクトを受けるのか?」というキーとなる質問に回答することができるようになります。
注意
以下のリンク先をクリックすると別タブでデモ動画が開きます。
テーブルに対するデータリネージ
テーブルカラムに対するデータリネージ
ノートブック、ワークフロー、ダッシュボードに対するデータリネージ
- ビルトインのセキュリティ: Unity Catalogのリネージグラフは権限を考慮しており、 Unity Catalogと同じ権限モデルを共有しています。あるユーザーがテーブルに対するアクセス権を持たない場合には、プライバシーを考慮した追加のセキュリティレイヤーが適用されるので、そのテーブルに関連づけられているリネージを探索することはできません。
- REST API経由で容易に公開可能: リネージはニアリアルタイムでデータエクスプローラーで可視化され、我々のカタログパートナーソリューションとのインテグレーションをサポートするために、REST API経由で取得することができます。
Unity Catalogでデータリネージを使いはじめる
データリネージはAWSとAzureでプレビュー中です。Unity Catalogでデータリネージをトライするためには、Databricks担当営業にコンタクトしてください。