Data sharing guide | Databricks on AWS [2022/8/25時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
このガイドでは、Databricksのデータを企業外の受信者と共有するためにDelta Sharingをどのように使用するかを説明します。
Delta Sharingは、使用しているコンピューティングプラットフォームに関係なく、他の企業とセキュアにデータ共有するためにDatabricksによって開発されたオープンプロトコルです。
Unity Catalogは、Databricksによって開発されたセキュアなメタストアです。企業データのメタデータとガバナンスを集中管理します。Unity Catalogを用いることで、企業で使用しているワークスペースの数やBIツールの数に関係なしに、必要に応じてデータガバナンスのルールをスケールさせます。Unity Catalogを使い始めるをご覧ください。
Delta Sharingを使い始めるには以下の作業を行います。
-
Unity Catalogのメタストアにデータをロードします。
メタストアで新規テーブルを作成するか、ワークスペースローカルのHiveメタストアからUnity Catalogに既存テーブルをインポートすることができます。
-
メタストアでDelta Sharingを有効化します。
-
共有(share)と受信者(recipient)を作成します。共有と受信者はDelta Sharingのオブジェクトです。
- 共有は1つ以上の受信者と共有されるテーブルとテーブルパーティションの読み取り専用のコレクションです。メタストアには複数の共有を含めることができ、どの受信者がそれぞれの共有にアクセスできるのかをコントロールすることができます。一つのメタストアには複数の共有を含めることができますが、それぞれの共有は一つのメタストアにのみ属することができます。共有を削除すると、その共有のすべての受信者はアクセスする権限を失います。
- 受信者は組織が一つ以上の共有にアクセスできるようにする資格情報を伴って組織と関連づけられるオブジェクトです。受信者を作成すると、当該受信者に対してダウンロード可能な資格情報が生成されます。それぞれのメタストアには、複数の受信者を含めることができますが、それぞれの受信者は一つのメタストアにのみ属することができます。受信者は複数の共有にアクセスすることができます。受信者を削除すると、これまでアクセスできていたすべての共有へのアクセス権を失います。
-
受信者を作成し、共有への受信者のアクセスを許可した後は、受信者とコミュニケーションするためにセキュアなチャネルを用い、資格情報をダウンロードできるユニークなURLを共有します。
資格情報は一度のみダウンロードすることができます。ダウンロードした資格情報を格納、共有するためにパスワードマネージャを使用することをお勧めします。
また、Delta Sharingのデータ受信者向けのドキュメントを共有します。あなたが共有したデータにアクセスするために、彼らはこのドキュメントを活用することができます。
-
任意のタイミングで、共有のコンテンツを変更することができ、受信者がどの共有にアクセスできるのかを変更することができ、共有や受信者を削除することができます。
-
データ受信者は即座にライブかつ最新のデータに対して読み取り専用アクセスを持つことになります。
-
データ提供者は、誰が共有や受信者を作成し、どの受信者がどの共有にアクセスしているのかを理解するためにDelta Sharingの監査ログを有効化することができます。
-
Delta SharingのデータにアクセスするためにDatabricksを使用するデータ受信者は、誰がどのDelta Sharingデータにアクセスしているのかを理解するために監査ログを有効化することもできます。
このガイドでは以下をカバーします。
- Delta Sharingによるデータ共有
- Delta Sharingによる共有データへのアクセス
- Delta Sharingを用いたデータの共有・アクセスのトラブルシュート
- Delta Sharing IP access list guide
- DatabricksマネージドのDelta Sharing