Data governance best practices | Databricks on AWS [2023/1/25時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
本書では、データバナンスの必要性を説明し、皆様の組織で実装できるベストプラクティスと戦略を共有します。
なぜデータガバナンスが重要なのか?
データガバナンスはデータが確実に価値をもたらし、皆様のビジネス戦略をサポートするための監視機能です。データガバナンスは、組織内のデータ資産をセキュアに管理するために実装されるポリシーとプラクティスをカプセル化します。データの量と複雑性は増加し続けており、コアとなるビジネス成果を確実なものとするために、より多くの企業がデータガバナンスを必要としています。
- 分析や機械学習の基礎としての一貫性があり高いデータ品質。
- 洞察に至る時間の短縮。
- 組織の誰もがデータドリブンの意思決定を行えるようにするデータの民主化。
- HIPAA、FedRAMP、GDPR、CCPAのような業界規制に対するリスクとコンプライアンスのサポート。
- ユーザーが大規模なクラスターを起動することを防ぎ、高価なGPUインスタンスを使用する際のガードレールを作成すること等によるコストの最適化。
優れたデータガバナンスソリューションとはのどのようなものか?
データドリブンの企業は多くの場合、レイクハウス上に分析のためのデータアーキテクチャを構築しています。データレイクハウスは、データレイクに格納されている膨大な量のデータに対して直接、効率的かつセキュアなデータエンジニアリング、機械学習、データウェアハウス、ビジネスインテリジェンスを可能とするアーキテクチャです。データレイクハスのデータガバナンスは、以下のような主要な機能を提供します:
- 統合されたカタログ: 統合されたカタログは、それぞれのデータオブジェクトのメタデータに加えて、すべてのデータ、MLモデル、分析のアーティファクトを格納します。また、統合されたカタログは既存のHiveメタストアのような他のカタログのデータも組み合わせます。
- 統合されたデータアクセスコントロール: すべてのデータ資産、すべてのクラウドに対して単一かつ統合された権限モデル。これには、個人識別情報(PII)に対する属性ベースのアクセスコントロール(ABAC)も含まれます。
- データ監査: 説明可能性を高めるために、アラートとモニタリング機能を用いて集中的にデータアクセスが監査されます。
- データ品質管理: 後段のBI、分析、機械学習ワークロードで高精度かつ有用なデータが活用されるように、ビルトインの品質管理、テスト、モニタリング、強制を用いた堅牢なデータ品質管理。
- データリネージ: ソースから利用に至るレイクハウスにおけるデータフローに対するエンドツーエンドの可視性を提供するデータリネージ。
- データディスカバリー: データサイエンティスト、データアナリスト、データエンジニアが適切なデータをクイックに発見、参照し、価値創出に至る時間を短縮できるようにする簡単なデータ発見。
- データ共有: クラウド、プラットフォーム横断でデータを共有。
データガバナンスとDatabricks
Databricksでは、Unity CatalogとDelta Sharingを用いて、データとIAに対する集中管理されたガバナンスを提供します。
- Unity Catalogは、DatabricksレイクハウスにおけるデータとAIに対する高精細なガバナンスソリューションです。データアクセスを管理し、監査する集中管理の場所を提供すすることで、データに対するセキュリティとガバナンスをシンプルにする役に立ちます。
- Delta Sharingは、使用している計算プラットフォームに関係なく、別の組織や組織内の別チームとセキュアにデータ共有するために、Databricksによって開発されたオープンプロトコルです。
Unity CatalogとDelta Sharingを導入する際のベストプラクティスに関しては、Databricks Unity Catalogのベストプラクティスをご覧ください。
すべての優れたデータガバナンスの物語は、強力なアイデンティティ基盤からスタートします。Databricksにおけるアイデンティティ設定のベストプラクティスについては、Databricksにおけるアイデンティティ管理のベストプラクティスをご覧ください。
より詳細は
皆様の組織の要件に合致する包括的なセキュリティソリューションの構築に役立つリソースを以下に示します。
- Unity Catalogの使い始めるには、Unity Catalogを使い始めるをご覧ください。
- 他の企業とセキュアにデータを共有する方法を学ぶには、Delta Sharingによるデータ共有をご覧ください。
- Databricksレイクハウスプラットフォームのすべてのレイヤーにおいて、どのようなセキュリティが組み込まれているのかに関する情報を提供するDatabricks Security and Trust Center。
- 資格情報を格納し、ノートブックやジョブで参照できるDatabricksシークレットの使い方に関しては、Databricksにおけるシークレットの管理をご覧ください。秘密情報をハードコードしたり、平文で格納すべきではありません。
- Databricksのテーブルアクセスコントロール(レガシー)を用いることで、データに対するデータガバナンスの制御を適用することができます。
- Databricksにログインする際に用いたアイデンティティを用いて、DatabricksクラスターからS3バケットに対する認証を自動で行う方法については、Databricks SCIMを用いたIAMクレディンシャルパススルーによるS3バケットへのアクセス(レガシー)をご覧ください。