改めて整理してみます。2023/7/11時点の内容です。
AWSでDatabricksをデプロイする際、お客様のS3バケットが必要となります。大きく分けて以下の3つのS3バケットが必要となります。
- Databricksワークスペースのルートストレージ
- Unity Catalogメタストアのストレージ
- 外部ロケーションとストレージ資格情報で参照するストレージ
これ以外にクラスター(EC2)に付帯するEBSもありますが、ここでは説明を割愛します。
Databricksワークスペースのルートストレージ
DBFSルートボリューム、クラスターログ、ノートブックの改訂履歴、ジョブ実行結果などが格納されます。
このS3バケットは、複数のワークスペースで共有することができます。ワークスペースごとにS3バケットを作成する必要はありません。アカウントで複数ワークスペースでS3バケットを共有すると、S3バケットはワークスペースごとにパーティショニングされます。
DBFSはアクセスコントロールされないので、プロダクション用途のデータは格納しないでください。テスト用データなどを格納するようにしてください。
Unity Catalogメタストアのストレージ
Unity Catalogで管理されるテーブルのメタデータやデータが格納されます。
このS3バケットはメタストア専用です。他の用途では使用しないでください。
外部ロケーションとストレージ資格情報で参照するストレージ
上述した格納場所に当てはまらないケース、特にセキュリティ保護を講じてS3アクセスをコントロールしたい場合にはこちらのストレージを使用します。