What is the Databricks File System (DBFS)? | Databricks on AWS [2022/8/18時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
DatabricksファイルシステムはDatabricksワークスペースにマウントされる分散ファイルシステムであり、Databricksクラスターから利用することができます。DBFSは、ネイティブクラウドストレージAPIの呼び出しにマッピングされる最適化FUSE(Filesystem in Userspace)インタフェースを提供するスケーラブルなオブジェクトストレージ上にある抽象化レイヤーです。
注意
Databricksワークスペースは、デフォルトで全てのユーザーがアクセスできるDBFSルートボリュームとともにデプロイされます。この場所にプロダクションデータを格納することはお勧めしません。
DBFSで何ができるか?
DBFSは、クラウドオブジェクトストレージのURIを相対パスにマッピングすることで以下のようなメリットを提供します。
- クラウド固有のAPIコマンドではなく、ディレクトリとファイルのセマンティクスを用いてオブジェクトストレージを操作できるようになります。
- ストレージの資格情報をDatabricksワークスペースのパスにマッピングできるように、クラウドオブジェクトストレージのロケーションをマウントできるようになります。
- オブジェクトストレージにファイルを永続化するプロセスをシンプルにし、クラスター停止時に、安全に仮想マシンとアタッチされたボリュームを削除できるようになります。
- クラスター初期化のためのinitスクリプト、JAR、ライブラリ、設定情報を格納する便利なロケーションを提供します。
- OSSのディープラーニングライブラリを用いたモデルトレーニングの過程で、チェックポイントファイルを保存する便利なロケーションを提供します。
クラウドベースのオブジェクトストレージのファイルを操作する
DBFSは、クラウドオブジェクトストレージのファイルを操作するための数多くのオプションを提供します。
- Databricksにおけるファイルの操作方法
- Databricksユーティリティを用いて、ファイルを一覧、移動、コピー、削除する
- Browse files in DBFS
- Upload files to DBFS with the UI
- Interact with DBFS files using the Databricks CLI
- Interact with DBFS files using the Databricks REST API
オブジェクトストレージをマウントする
DBFSにオブジェクトストレージをマウントすることで、ローカルファイルシステムに存在するかのようにオブジェクトストレージのオブジェクトにアクセスできるようになります。マウントにはストレージにアクセスする際に必要なHadoop設定が格納されるので、コードやクラスター設定でこれらの設定を指定する必要はありません。
詳細は、Mounting cloud object storage on Databricksをご覧ください。
DBFSルートとは何か?
DBFSルートとは、Databricksワークスペースのデフォルトストレージロケーションであり、Databricksワークスペースを含むクラウドアカウントでのワークスペースの作成過程でプロビジョンされます。DBFSルートの設定とデプロイメントの詳細については、Configure AWS storageをご覧ください。DBFSルートのデータの保護に関するベストプラクティスについては、DBFSルートを操作する際の推奨事項をご覧ください。
何人かのDatabricksユーザーは、DBFSルートを「DBFS」とみなす傾向があります。DBFSはクラウドオブジェクトストレージのデータを操作するために使用されるファイルシステムであり、DBFSルートはクラウドストレージのロケーションであるという違いを知ることが重要です。DBFSルートを操作するためにDBFSを使用しますが、これらは別の概念であり、DBFSにはDBFSルートよりも多くのアプリケーションが存在します。
DBFSルートには、ワークスペースのユーザーによって実行されるさまざまなアクションのデフォルトとして動作する数多くの特殊なロケーションが含まれています。詳細に関しては、DBFSルートにはデフォルトでどのようなディレクトリが存在するのか?をご覧ください。
DBFSとUnity Catalogはどのように動作するのか?
Unity Catalogは、企業がクラウドオブジェクトストレージのデータに対して最小権限によるアクセスを提供することを支援するための、外部ロケーションとマネージドストレージ資格情報の概念を追加します。また、Unity Catalogはマネージドテーブルの新たなデフォルトストレージロケーションを提供します。いくつかのセキュリティ設定は、Unity CatalogマネージドのリソースとDBFSの両方に対して直接のアクセスを提供します。DatabricksではDBFSとUnity Catalogを使用する際の推奨事項をまとめています。