ご質問いただくことがあるのでこちらにメモ。自分の備忘録も兼ねて。
コントロールプレーンとは
Databricksのアーキテクチャはコントロールプレーンとデータプレーンから構成されています。
- コントロールプレーンには、DatabricksのAWSアカウント上でDatabricksが管理するバックエンドサービスが含まれます。ノートブックコマンドやその他のワークスペース設定はコントロールプレーンに格納され、暗号化されています。
-
データプレーンはあなたのデータを処理する場所となります。
- ほとんどのDatabricksの計算処理における計算リソースは、クラシックデータプレーンと呼ばれるあなたのAWSアカウントに存在します。ノートブック、ジョブ、Databricks SQLウェアハウスのproとクラシックでは、Databricksはこのタイプのデータプレーンを使用します。
- Databricks SQLでサーバレスコンピュートを有効化すると、Databricks SQLの計算リソースは共有のサーバレスデータプレーンに存在することになります。ノートブック、ジョブ、Databricks SQLウェアハウスのproとクラシックの計算リソースは依然としてお客様のアカウントに存在します。Databricksのサーバーレスコンピュートをご覧ください。
コントロールプレーンに格納されるデータ
以下のデータがコントロールプレーンに格納されます。ノートブックの実行結果に関しては、格納場所を変更することができます。
- ノートブックのコード
- SQLクエリーとクエリー履歴
- シークレット
- クラスタータイプ、サイズ、ジョブのスケジュールのようなクラスターとジョブのメタデータ
- モデルのメトリクスやパラメータのようなMLflowメタデータ
- カタログ、スキーマ、テーブル名のようなUnity CatalogやHiveメタストアのメタデータ
- テレメトリーデータ(ログ)
- ノートブックの実行結果
格納データに対するコントロール
コントロールの方法は以下の2つがあります。
- 顧客管理キー(CMK)による暗号化(デフォルトではDatabricks管理のキーで暗号化されています)
- 格納場所の変更
各オブジェクトとコントロールの関係を以下にまとめます。
オブジェクト | CMK | 格納場所の変更 |
---|---|---|
ノートブックのコード | ⚪︎ | |
SQLクエリーとクエリー履歴 | ⚪︎ | |
シークレット | ⚪︎ | |
クラスターとジョブのメタデータ | ||
MLflowメタデータ | ||
Unity CatalogやHiveメタストアのメタデータ | ||
テレメトリーデータ(ログ) | ||
ノートブックの実行結果 | ⚪︎ | ⚪︎ |
また、復旧可能な手動削除に加えて、手動による強制パージが可能です。