こちらのサマリーです。以下のリンクからウェビナーの録画を参照できます。
スライドはこちら。
ガバナンスとは?
今ではガバナンスはデータのみに適用されるものではありません。
- データガバナンスとは、企業のデータ資産をそのライフサイクルを通じて管理するための原則、プラクティス、ツールから構成される包括的なアプローチのことです。
- ビジネス戦略とデータに関連する要件をアラインすることで、データガバナンスは
企業に対して優れたデータ管理、品質、可視性、セキュリティ、コンプライアンスの
能力を提供します。 - 効果的なデータガバナンス戦略によって、企業は許可されないアクセスから自身のデータを保護し、規制の要件によるコンプライアンスを保証しつつも、意思決定に
容易にデータを活用できるようになります。
しかし、データとAIのガバナンスは複雑なものとなっています。
企業はデータとAIに対する統合的なアプローチを必要としています。
Databricksにおけるガバナンスの実現
DatabricksレイクハウスはデータとAIのガバナンスを統合します。
DatabricksのUnity Catalogはデータ & AIに対する統合ガバナンスを提供します。
- データとAIに対する統合ビュー
- データとAIに対するシンプルな権限モデル
- AIで強化された監視と観測可能性
- オープンなデータ共有
Unity Catalogがお客様のデータの価値を解放します。
Unity CatalogはデータとAIの統合ビューを提供します。
- 構造化データ、非構造化データ、ファイル、ノートブック、MLモデル、ダッシュボードを一つの場所からディスカバリー・分類
- データを移動、コピーすることなしに、単一のアクセスポイントを用いて他のデータベースやデータウェアハウスからのデータを統合、クエリー
- 自動化リネージ、タグ、自動生成されるデータ洞察を用いて、ご自身のデータ領域をより深く理解
- 自然言語を用いたご自身のデータやAI資産の検索、理解、洞察の抽出による生産性の向上
データとAIに対するシンプルな権限モデルを提供します。
- 一つの場所ですべてのデータとAI資産に対するアクセスポリシーを管理、監査するための統合され、シンプルなインタフェースを用いて皆様のデータ資産を保護
- 強化されたセキュリティのために、行や列に対するきめ細かいアクセス制御を有効化
- 一つの場所で一貫性を持って管理される権限とオープンなインタフェースを用いた他の計算プラットフォームからセキュアにデータにアクセス
AIで強化された監視と観測可能性を提供します。
- データとMLモデルの品質問題に対するプロアクティブな警告を受信
- 効率的な根本原因分析やインパクト評価のためにカラムレベルにまで追跡できるリアルタイムのデータリネージへのアクセス
- ステークホルダーとデータとML品質レポートを容易に共有するための自動生成ダッシュボードの活用
- 課金、監査、リネージなどに対する運用インテリジェンスによる完全なデータとAIの観測可能性の実現
オープンなデータ共有を実現します。
- クラウド、リージョン、プラットフォーム横断で複製不要のシームレスなデータ共有のために、オープンソースのDelta Sharingでベンダーロックインを回避
- データ以上のものを共有 - ノートブック、MLモデル、ダッシュボード、アプリケーション
- オープンなマーケットプレースでデータ製品の探索と収益化
-
スケーラブルなデータクリーンルームで
センシティブなデータに対するセキュアな
コラボレーション
ガバナンスの課題とUnity Catalogのアプローチ
- 目の前にあるテーブルにどのようなクエリーを行えばいいのかわからない。
- 目の前にあるテーブルが作成された経緯がわからず、容易に活用できない。
- テーブルの説明文を記載したいが手が回らない。
- 特定のテーブルに詳しい専門家が特定できず問い合わせられない。
- 特定のテーブルがどこで利用されているのかわからず、更新・削除が行えない。
- テーブルだけではなく、機械学習モデルやファイルに対するアクセス制御が煩雑。
- データに対するアクセスコントロールの粒度が粗く、セキュリティを高めると分析できない。
目の前にあるテーブルにどのようなクエリーを行えばいいのかわからない
- カタログエクスプローラでテーブルにアクセスし、洞察タブを表示します。
- テーブルに対して実行されているクエリーにクイックにアクセスすることができます。
- クエリーをクリックすると詳細を確認でき、をクリックすることでクエリエディタに移動できます。
目の前にあるテーブルが作成された経緯がわからず、容易に活用できない
- カタログエクスプローラでテーブルにアクセスし、依存関係タブを表示します。依存関係がUpstreamになっているテーブルから対象のテーブルが作成されていることがわかります。
- リネージグラフを表示をクリックすることで、より視覚的に依存関係を確認することができます。
テーブルの説明文を記載したいが手が回らない
- カタログエクスプローラでテーブルにアクセスすると、生成AI(大規模言語モデル)によって、(英語ですが)自動で説明文が生成されます。
特定のテーブルに詳しい専門家が特定できず問い合わせられない
- カタログエクスプローラでテーブルにアクセスし、洞察タブを表示します。
- よく使用するユーザーには、対象のテーブルに頻繁にクエリーを実行しているユーザーが表示されるので、詳細を聞いてみましょう。
特定のテーブルがどこで利用されているのかわからず、更新・削除が行えない
- カタログエクスプローラでテーブルにアクセスし、依存関係タブを表示します。
- ダウンストリームへの接続でフィルタリングして、テーブルにアクセスしているダッシュボード、ノートブック、クエリーなどを特定します。
テーブルだけではなく、機械学習モデルやファイルに対するアクセス制御が煩雑
- カタログエクスプローラでは、テーブルだけではなく、機械学習モデルやファイルに対するアクセス制御を同じGUIから行えます。
データに対するアクセスコントロールの粒度が粗く、セキュリティを高めると分析できない
- 行フィルター、列マスクを用いることで、行・列レベルのアクセスコントロールが可能です。
まとめ
- 今ではガバナンスはデータ(テーブル)のみに適用されるべきものではなく、ファイルや機械学習モデル、処理ロジック(ノートブック)、ダッシュボードなど、データやAIの活用に必要となるあらゆるコンポーネントに対して適用する必要があります。
- しかし、これらの個別のオブジェクトに個別のソリューションを適用したとしても、すぐに運用が破綻することは想像に難くありません。
- DatabricksのUnity Catalogを活用することで、これらの課題に容易に対応することができることを感じていただけたら幸いです。皆様のデータと(生成AIを含む)AIの取り組みを支援するために、継続的にUnity Catalogを改善してまいります。是非ご活用ください!