Data sharing guide | Databricks on AWS [2022/3/10時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
このガイドでは、Databricksで組織外の受領者とのデータ共有を行うためにどのようにDelta Sharingを使うのかを説明します。
Delta Sharingは、Databricksによって開発された、どのような計算プラットフォームを使っているのかに関係なく他の企業とデータを共有できるセキュアなオープンプロトコルです。Delta SharingはUnity Catalogのメタストアのデータに対して使用することができます。Unity Catalogを使い始めるをご覧ください。
Delta Sharingでデータを共有するには以下の手順を実行します。
-
Unity Catalogのメタストアにデータをロードします。
新規テーブルを作成し、レコードをインサートするか、ワークスペースローカルのHiveメタストアから既存テーブルをUnity Catalogにインポートすることができます。 -
メタストアでDelta Sharingを有効化します。
-
共有(share)と受領者(resipient)を作成します。共有と受領者はDelta Sharingのオブジェクトです。
- 共有(share)は1人以上の受領者と共有するテーブル、テーブルのパーティションの読み取り専用のコレクションを意味します。メタストアで複数の共有を作成することができ、どの受領者がそれぞれの共有にアクセスできるのかをコントロールすることができます。1つのメタストアには複数の共有を含めることができますが、それぞれの共有は1つのみのメタストアに属することができます。共有を削除すると、その共有の全ての受領者はアクセス権を失います。
- 受領者(recipient)は、1つ以上の共有にアクセスできる組織を許可する認証情報と組織を関連づけるオブジェクトを意味します。受領者を作成すると、受領者がダウンロード可能な認証情報が生成されます。メタストアで複数の受領者を作成することができますが、それぞれの受領者は1つのみのメタストアに属することができます。受領者は複数の共有にアクセスすることができます。受領者を削除すると、それまでアクセスできていたすべての共有にアクセスできなくなります。
-
受領者を作成し、共有に対する受領者のアクセスを許可した後で、セキュアなチャネルを通じて受領者とやりとりを行い、認証情報をダウンロードできるユニークなURLを受領者に送信します。
認証情報ファイルは一度しかダウンロードすることはできません。ご自身の組織の他の方と共有する場合には、パスワードマネージャを使用することをお勧めします。
また、Delta Sharingのデータ受領者向けドキュメントを共有します。彼らは、あなたが共有したデータにアクセスするためにこのドキュメントを活用することができます。
-
任意のタイミングで、共有コンテンツを変更し、受領者がアクセスできる共有を変更し、共有や受領者を削除することができます。
-
データ受領者は即座にライブかつ最新の共有データに対する読み取り専用アクセスを取得します。
-
データ提供者は、誰が共有、受領者を作成し、どの受領者がどの共有にアクセスできるのかを理解するために、Delta Sharing向けの監査ログを有効化することができます。
-
Delta SharingのデータにアクセスするためにDatabricksを使用しているデータ受領者は、誰がどのDelta Sharingデータにアクセスしているのかを理解するために監査ログを有効化することができます。
このガイドでは以下を説明します。