0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Databricks on AWSで使用するS3バケット

Posted at

改めて整理してみます。2023/7/11時点の内容です。

AWSでDatabricksをデプロイする際、お客様のS3バケットが必要となります。大きく分けて以下の3つのS3バケットが必要となります。

  1. Databricksワークスペースのルートストレージ
  2. Unity Catalogメタストアのストレージ
  3. 外部ロケーションとストレージ資格情報で参照するストレージ

Screenshot 2023-07-11 at 14.04.03.png

これ以外にクラスター(EC2)に付帯するEBSもありますが、ここでは説明を割愛します。

Databricksワークスペースのルートストレージ

DBFSルートボリューム、クラスターログ、ノートブックの改訂履歴、ジョブ実行結果などが格納されます。

このS3バケットは、複数のワークスペースで共有することができます。ワークスペースごとにS3バケットを作成する必要はありません。アカウントで複数ワークスペースでS3バケットを共有すると、S3バケットはワークスペースごとにパーティショニングされます。

DBFSはアクセスコントロールされないので、プロダクション用途のデータは格納しないでください。テスト用データなどを格納するようにしてください。

Unity Catalogメタストアのストレージ

Unity Catalogで管理されるテーブルのメタデータやデータが格納されます。

このS3バケットはメタストア専用です。他の用途では使用しないでください。

外部ロケーションとストレージ資格情報で参照するストレージ

上述した格納場所に当てはまらないケース、特にセキュリティ保護を講じてS3アクセスをコントロールしたい場合にはこちらのストレージを使用します。

Databricksクイックスタートガイド

Databricksクイックスタートガイド

Databricks無料トライアル

Databricks無料トライアル

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?