3
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

DatabricksAdvent Calendar 2023

Day 2

データブリックスのUnity Catalogで実現する真のデータガバナンス

Last updated at Posted at 2023-11-29

こちらのサマリーです。以下のリンクからウェビナーの録画を参照できます。

スライドはこちら。

ガバナンスとは?

今ではガバナンスはデータのみに適用されるものではありません。

  • データガバナンスとは、企業のデータ資産をそのライフサイクルを通じて管理するための原則、プラクティス、ツールから構成される包括的なアプローチのことです。
  • ビジネス戦略とデータに関連する要件をアラインすることで、データガバナンスは
    企業に対して優れたデータ管理、品質、可視性、セキュリティ、コンプライアンス
    能力を提供します。
  • 効果的なデータガバナンス戦略によって、企業は許可されないアクセスから自身のデータを保護し、規制の要件によるコンプライアンスを保証しつつも、意思決定に
    容易にデータを活用できるようになります。

データとAIのガバナンスがビジネス価値を生み出します。
Screenshot 2023-11-29 at 21.22.57.png

しかし、データとAIのガバナンスは複雑なものとなっています。
Screenshot 2023-11-29 at 21.23.50.png
Screenshot 2023-11-29 at 21.24.07.png

企業はデータとAIに対する統合的なアプローチを必要としています。
Screenshot 2023-11-29 at 21.24.18.png

Databricksにおけるガバナンスの実現

DatabricksレイクハウスはデータとAIのガバナンスを統合します。
Screenshot 2023-11-29 at 21.24.42.png

DatabricksのUnity Catalogはデータ & AIに対する統合ガバナンスを提供します。

  • データとAIに対する統合ビュー
  • データとAIに対するシンプルな権限モデル
  • AIで強化された監視と観測可能性
  • オープンなデータ共有

Screenshot 2023-11-29 at 21.25.18.png

Unity Catalogがお客様のデータの価値を解放します。
Screenshot 2023-11-29 at 21.26.29.png

Unity CatalogはデータとAIの統合ビューを提供します。

  • 構造化データ、非構造化データ、ファイル、ノートブック、MLモデル、ダッシュボードを一つの場所からディスカバリー・分類
  • データを移動、コピーすることなしに、単一のアクセスポイントを用いて他のデータベースやデータウェアハウスからのデータを統合、クエリー
  • 自動化リネージ、タグ、自動生成されるデータ洞察を用いて、ご自身のデータ領域をより深く理解
  • 自然言語を用いたご自身のデータやAI資産の検索、理解、洞察の抽出による生産性の向上

Screenshot 2023-11-29 at 21.27.09.png

データとAIに対するシンプルな権限モデルを提供します。

  • 一つの場所ですべてのデータとAI資産に対するアクセスポリシーを管理、監査するための統合され、シンプルなインタフェースを用いて皆様のデータ資産を保護
  • 強化されたセキュリティのために、行や列に対するきめ細かいアクセス制御を有効化
  • 一つの場所で一貫性を持って管理される権限とオープンなインタフェースを用いた他の計算プラットフォームからセキュアにデータにアクセス

Screenshot 2023-11-29 at 21.28.28.png

AIで強化された監視と観測可能性を提供します。

  • データとMLモデルの品質問題に対するプロアクティブな警告を受信
  • 効率的な根本原因分析やインパクト評価のためにカラムレベルにまで追跡できるリアルタイムのデータリネージへのアクセス
  • ステークホルダーとデータとML品質レポートを容易に共有するための自動生成ダッシュボードの活用
  • 課金、監査、リネージなどに対する運用インテリジェンスによる完全なデータとAIの観測可能性の実現

Screenshot 2023-11-29 at 21.29.37.png

オープンなデータ共有を実現します。

  • クラウド、リージョン、プラットフォーム横断で複製不要のシームレスなデータ共有のために、オープンソースのDelta Sharingでベンダーロックインを回避
  • データ以上のものを共有 - ノートブック、MLモデル、ダッシュボード、アプリケーション
  • オープンなマーケットプレースでデータ製品の探索と収益化
  • スケーラブルなデータクリーンルーム
    センシティブなデータに対するセキュアな
    コラボレーション

Screenshot 2023-11-29 at 21.31.00.png

ガバナンスの課題とUnity Catalogのアプローチ

  • 目の前にあるテーブルにどのようなクエリーを行えばいいのかわからない。
  • 目の前にあるテーブルが作成された経緯がわからず、容易に活用できない。
  • テーブルの説明文を記載したいが手が回らない。
  • 特定のテーブルに詳しい専門家が特定できず問い合わせられない。
  • 特定のテーブルがどこで利用されているのかわからず、更新・削除が行えない。
  • テーブルだけではなく、機械学習モデルやファイルに対するアクセス制御が煩雑。
  • データに対するアクセスコントロールの粒度が粗く、セキュリティを高めると分析できない。

目の前にあるテーブルにどのようなクエリーを行えばいいのかわからない

  • カタログエクスプローラでテーブルにアクセスし、洞察タブを表示します。
  • テーブルに対して実行されているクエリーにクイックにアクセスすることができます。
  • クエリーをクリックすると詳細を確認でき、Screenshot 2023-11-29 at 21.33.45.pngをクリックすることでクエリエディタに移動できます。

Screenshot 2023-11-29 at 21.33.27.png

目の前にあるテーブルが作成された経緯がわからず、容易に活用できない

  • カタログエクスプローラでテーブルにアクセスし、依存関係タブを表示します。依存関係がUpstreamになっているテーブルから対象のテーブルが作成されていることがわかります。
  • リネージグラフを表示をクリックすることで、より視覚的に依存関係を確認することができます。

Screenshot 2023-11-29 at 21.34.54.png
Screenshot 2023-11-29 at 21.35.04.png

テーブルの説明文を記載したいが手が回らない

  • カタログエクスプローラでテーブルにアクセスすると、生成AI(大規模言語モデル)によって、(英語ですが)自動で説明文が生成されます。

Screenshot 2023-11-29 at 21.35.49.png

特定のテーブルに詳しい専門家が特定できず問い合わせられない

  • カタログエクスプローラでテーブルにアクセスし、洞察タブを表示します。
  • よく使用するユーザーには、対象のテーブルに頻繁にクエリーを実行しているユーザーが表示されるので、詳細を聞いてみましょう。

Screenshot 2023-11-29 at 21.36.28.png

特定のテーブルがどこで利用されているのかわからず、更新・削除が行えない

  • カタログエクスプローラでテーブルにアクセスし、依存関係タブを表示します。
  • ダウンストリームへの接続でフィルタリングして、テーブルにアクセスしているダッシュボード、ノートブック、クエリーなどを特定します。

Screenshot 2023-11-29 at 21.37.23.png

テーブルだけではなく、機械学習モデルやファイルに対するアクセス制御が煩雑

  • カタログエクスプローラでは、テーブルだけではなく、機械学習モデルやファイルに対するアクセス制御を同じGUIから行えます。

Screenshot 2023-11-29 at 21.38.14.png

データに対するアクセスコントロールの粒度が粗く、セキュリティを高めると分析できない

  • 行フィルター、列マスクを用いることで、行・列レベルのアクセスコントロールが可能です。

Screenshot 2023-11-29 at 21.38.47.png

まとめ

  • 今ではガバナンスはデータ(テーブル)のみに適用されるべきものではなく、ファイルや機械学習モデル、処理ロジック(ノートブック)、ダッシュボードなど、データやAIの活用に必要となるあらゆるコンポーネントに対して適用する必要があります。
  • しかし、これらの個別のオブジェクトに個別のソリューションを適用したとしても、すぐに運用が破綻することは想像に難くありません。
  • DatabricksのUnity Catalogを活用することで、これらの課題に容易に対応することができることを感じていただけたら幸いです。皆様のデータと(生成AIを含む)AIの取り組みを支援するために、継続的にUnity Catalogを改善してまいります。是非ご活用ください!

Databricksクイックスタートガイド

Databricksクイックスタートガイド

Databricks無料トライアル

Databricks無料トライアル

3
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?