LoginSignup
0
0

More than 1 year has passed since last update.

Databricksのデータガバナンスベストプラクティス

Last updated at Posted at 2023-01-31

Data governance best practices | Databricks on AWS [2023/1/25時点]の翻訳です。

本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

本書では、データバナンスの必要性を説明し、皆様の組織で実装できるベストプラクティスと戦略を共有します。

なぜデータガバナンスが重要なのか?

データガバナンスはデータが確実に価値をもたらし、皆様のビジネス戦略をサポートするための監視機能です。データガバナンスは、組織内のデータ資産をセキュアに管理するために実装されるポリシーとプラクティスをカプセル化します。データの量と複雑性は増加し続けており、コアとなるビジネス成果を確実なものとするために、より多くの企業がデータガバナンスを必要としています。

  • 分析や機械学習の基礎としての一貫性があり高いデータ品質。
  • 洞察に至る時間の短縮。
  • 組織の誰もがデータドリブンの意思決定を行えるようにするデータの民主化。
  • HIPAA、FedRAMP、GDPR、CCPAのような業界規制に対するリスクとコンプライアンスのサポート。
  • ユーザーが大規模なクラスターを起動することを防ぎ、高価なGPUインスタンスを使用する際のガードレールを作成すること等によるコストの最適化。

優れたデータガバナンスソリューションとはのどのようなものか?

データドリブンの企業は多くの場合、レイクハウス上に分析のためのデータアーキテクチャを構築しています。データレイクハウスは、データレイクに格納されている膨大な量のデータに対して直接、効率的かつセキュアなデータエンジニアリング、機械学習、データウェアハウス、ビジネスインテリジェンスを可能とするアーキテクチャです。データレイクハスのデータガバナンスは、以下のような主要な機能を提供します:

  • 統合されたカタログ: 統合されたカタログは、それぞれのデータオブジェクトのメタデータに加えて、すべてのデータ、MLモデル、分析のアーティファクトを格納します。また、統合されたカタログは既存のHiveメタストアのような他のカタログのデータも組み合わせます。
  • 統合されたデータアクセスコントロール: すべてのデータ資産、すべてのクラウドに対して単一かつ統合された権限モデル。これには、個人識別情報(PII)に対する属性ベースのアクセスコントロール(ABAC)も含まれます。
  • データ監査: 説明可能性を高めるために、アラートとモニタリング機能を用いて集中的にデータアクセスが監査されます。
  • データ品質管理: 後段のBI、分析、機械学習ワークロードで高精度かつ有用なデータが活用されるように、ビルトインの品質管理、テスト、モニタリング、強制を用いた堅牢なデータ品質管理。
  • データリネージ: ソースから利用に至るレイクハウスにおけるデータフローに対するエンドツーエンドの可視性を提供するデータリネージ。
  • データディスカバリー: データサイエンティスト、データアナリスト、データエンジニアが適切なデータをクイックに発見、参照し、価値創出に至る時間を短縮できるようにする簡単なデータ発見。
  • データ共有: クラウド、プラットフォーム横断でデータを共有。

データガバナンスとDatabricks

Databricksでは、Unity CatalogとDelta Sharingを用いて、データとIAに対する集中管理されたガバナンスを提供します。

  • Unity Catalogは、DatabricksレイクハウスにおけるデータとAIに対する高精細なガバナンスソリューションです。データアクセスを管理し、監査する集中管理の場所を提供すすることで、データに対するセキュリティとガバナンスをシンプルにする役に立ちます。
  • Delta Sharingは、使用している計算プラットフォームに関係なく、別の組織や組織内の別チームとセキュアにデータ共有するために、Databricksによって開発されたオープンプロトコルです。

Unity CatalogとDelta Sharingを導入する際のベストプラクティスに関しては、Databricks Unity Catalogのベストプラクティスをご覧ください。

すべての優れたデータガバナンスの物語は、強力なアイデンティティ基盤からスタートします。Databricksにおけるアイデンティティ設定のベストプラクティスについては、Databricksにおけるアイデンティティ管理のベストプラクティスをご覧ください。

より詳細は

皆様の組織の要件に合致する包括的なセキュリティソリューションの構築に役立つリソースを以下に示します。

Databricks 無料トライアル

Databricks 無料トライアル

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0