Recommendations for working with DBFS root | Databricks on AWS [2022/9/2時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
Databricksでは、いくつかのワークスペースのアクションのデフォルトロケーションとしてDBFSルートディレクトリを使用します。DBFSルートにプロダクションデータやセンシティブな情報を格納することはお勧めしません。本書では、誤ってセンシティブなデータをDBFSルートで公開してしまうことを避けるための推奨事項にフォーカスしています。
注意
Databricksは、内部DBFSと呼ばれる顧客保有のクラウドストレージにデータや設定を永続化するために、別のプライベートストレージロケーションを設定します。このロケーションはユーザーには公開されません。
DBFSルートにデータを格納しないようにユーザーを教育してください
DBFSルートはワークスペースの全てのユーザーがアクセスできるので、ここに格納されたデータには全てのユーザーがアクセスできます。センシティブなデータを格納する際にこのロケーションを使わないようにユーザーに指示することが重要となります。DatabricksにおけるHiveメタストアのマネージドテーブルのデフォルトロケーションはDBFSルートとなります。マネージドテーブルを作成するユーザーがDBFSルートに書き込まないように、Hiveメタストアでデータベースを作成する際に外部ストレージのロケーションを宣言してください。
Unity Catalogのマネージドテーブルは、デフォルトでセキュアなストレージロケーションを使用します。Unity Catalogのマネージドテーブルを使用することをお勧めします。
アクティビティをモニタリングするために監査ログを使用してください
データをDBFSルートに格納するユーザーを監視、特定するために、ワークスペースの監査ログを用いてクラウド監査ログを活用することができます。
問題を迅速に調査できるように、DBFSルートバケットにS3オブジェクトレベルのロギングを有効化することをお勧めします。S3オブジェクトレベルのロギングを有効化すると、AWSの利用コストが増加することに注意してください。
顧客管理キーを用いてDBFSルートのデータを暗号化してください
顧客管理キーを用いてDBFSルートのデータを暗号化することができます。Databricksワークスペースストレージに対する顧客管理キーの適用をご覧ください。