はじめに
Databricks でワークスペースを立ち上げるにあたって、どのようなセキュリティ設定が必要かについて確認するために、公式のセキュリティガイドを確認しました。この記事ではそちらを基に、ワークスペースを作成する前と、した直後に確認しておきたいセキュリティの設定についてまとめています。
ワークスペース GUI ではアクセス制御リスト (ACL) を利用してファイルへのアクセス権限を設定することが可能です。基本的には、「何かにアクセスできる人(ユーザー/グループ)は誰か」「その人は何ができるか」をセットにしたルールを一つずつ設定します。
ワークスペース作成後にやっておくこと
- ワークスペースやクラスターなどに対するアクセス制御の有効化
- クラスターやジョブに対してアクセスが必要なユーザーを設定
- データに対してアクセス許可を設定
ワークスペースの設定
Databricks のセキュリティ設定は基本的にアクセスができるユーザーにだけ特権を与えるという形式になっているようです。ただし、ワークスペース全体のアクセス制御を有効化していないとノートブックやクラスターが全員に見えてしまいますので、初期設定としてワークスペースのアクセス制御を有効化しておくことが必要です。
はじめに、ワークスペース全体におけるファイル等へのアクセスに関する設定を行います。
- 右上のタブをクリックし管理者設定を開く
- ワークスペースの設定 (Workspace Settings)を選択
- アクセス制御 (Access Control)の欄を確認する
以下に各設定の詳細を述べますが、基本的にすべて Enabled (有効)になっている事を確認すればOKです。
筆者が新規にワークスペースを作成した際は初期状態で「テーブルアクセス」以外は有効化されていました。
ワークスペースのアクセス制御 (Workspace Access Control)
設定すると、ワークスペースの管理者以外はフォルダやノートブックなどのオブジェクトを開くことができなくなります。
なお、これを設定するだけだとファイルの名前自体は見えてしまうので、次に示す表示コントロールの設定を併せて行う必要があります。
ワークスペース表示コントロール (Workspace Visibility Control)
設定すると、管理者以外にファイル自体が見えなくなります。ワークスペース以外にも、ジョブ・クラスターにも同様の設定が存在します。
クラスター・プール・ジョブのアクセス制御 (Cluster, Pool, and Jobs Access Control)
管理者のみがクラスターなどに対する以下の操作ができるように制限します。
- クラスター: クラスターの作成、アタッチ、再起動、クラスター毎の権限の編集
- プール: 作成、アタッチ、権限の編集
- ジョブ: 結果の閲覧、実行やキャンセル
クラスターの作成許可
アクセス制限を設定すると、管理者以外はクラスターを作成できなくなりますが、ユーザー個別に特権を与えることもできます。
ただしクラスターを作成したユーザーはそのクラスターに対する全アクセスの権限が与えられ、クラスターを通してデータベースに不正アクセスされる可能性などがあるため、管理者以外は基本的に全員外しておくことが推奨されます。
- 右上のタブをクリックし管理者設定を開く
- ユーザー(またはグループ)のタブを選択
- 該当のユーザーの無制限のクラスターの作成を許可するのチェックボックスをクリック
クラスター毎の設定
クラスターはそれぞれ、個別にアクセスの権限を設定することができ、さらにどの操作まで許可できるかという設定も可能です。例えば以下のようなケースです。
- クラスター#01の起動や停止をさせられる
- ただし構成を変更したり、#01以外のクラスターにはアクセスできない
クラスターへの権限設定方法
- サイドバーのクラスターをクリックしクラスター名を選択
- その他から権限を選択
- 下のプルダウンからリストを開き、追加したいユーザー/グループを選択
- 与える権限をプルダウンで選択
クラスターの権限レベル
権限なしを除くと3種類あり、下の権限はその上の権限も同時に持ちます。
-
アタッチ可
- クラスターにアタッチする
- Spark UI を見る
- メトリクス・ドライバーログを見る
-
再起動可能
- クラスターを起動・停止・再起動する
-
管理可能
- クラスターの編集
- ライブラリのアタッチ
- クラスターサイズの変更
- クラスターへのアクセス権限の変更
クラスターを作成したユーザーは自動的に「管理可能」になることに注意しましょう。
プールの権限設定
基本的にはクラスターと同様の設定方法で、上部のタブから該当するページを開いて選択します。
-
アタッチ可
- クラスターにアタッチする
-
管理可能
- 削除、編集、権限の変更
ジョブの権限設定
「ワークフロー」メニューを開き、対応するジョブを選択すると現れる詳細画面を下の方にスクロールすると権限設定のボタンが表示されます。
記事執筆時点ではUIが未訳でした。
-
Can View
- ジョブの詳細や結果を見る
-
Can Manage Run
- 実行・キャンセル
-
管理可能 / Is Owner
- 設定変更、権限変更、削除
管理可能とオーナーはできることが同じですが、ジョブあたり1人だけオーナーになれるという違いがあるようです。
データへのアクセス制御
ここまでの設定で、ワークスペース上にある各種オブジェクトに対する制御はできましたが、外部のストレージに置かれているデータベースに対しては個別に設定を行う必要があります。
Unity Catalog の機能を使えば、カタログ・スキーマ・テーブルといったデータオブジェクトに対して、ユーザーが可能な操作を定義することが簡単にできます。
Data Explorer からのアクセス許可の管理
- サイドバーのデータをクリック
- 設定するデータオブジェクトを選択
- アクセス許可の項目を選択してから、許可をクリック
- ユーザー名もしくはグループ名を入力する
- 付与したい権限を選択して OK
また、設定済みの権限を選択して取り消しをクリックすることで権限を取り消すこともできます。
付与できる権限の詳細については、Unity Catalog の権限とセキュリティ保護可能なオブジェクトを参照してください。また、こちらの知識があれば権限情報をSQLで操作する、ということも可能になります。
トークンベースの認証を利用
外部のアプリから REST API を通して接続するような場合にはセキュリティトークンを生成する必要がありますが、こちらを利用する際には事前の準備が必要となります。
- ワークスペースの設定>個人用アクセス トークンを選択し、有効化
- 確認をクリック
トークン関連は基本的には API で操作することになりますが、一部 GUI 上でできる操作もあります。
トークン生成
- ユーザー名をクリック>ユーザー設定
- アクセストークン>新しいトークンの作成
- 有効期限を設定する(デフォルト90日、空欄にすると無期限)
- 生成をクリックし、コピーする
ユーザ毎のトークン利用可否設定
- ワークスペースの設定>個人用アクセス トークンの横にあるアクセス許可をクリック
- ユーザー名を選択し、権限を設定する
権限には「使用可能」と「管理可能」があります。後者は自分以外にも、全ユーザーのトークンを取り消したりアクセス拒否することが可能です。
まとめ
以上のように ACL には多数の設定があり、セキュリティに詳しくない筆者は公式のドキュメントを読んだ際は理解に時間がかかりました。ただ、基本的にはホワイトリスト制になっているため、最低限必要なユーザーにだけ権限の設定を与えるという原則を守っていれば良い、と認識しました。
安全に運用するためには、まずワークスペースのアクセス制御設定をすべて有効化し、その上で必要なユーザー以外にはオブジェクトの作成を許可しないという方針をとる必要がありそうです。
参考文献
Microsoft Learn