この記事は株式会社ナレッジコミュニケーションが運営する Amazon AI by ナレコム Advent Calendar 2020 の 5日目のエントリーです!
はじめに
AWS 上での Databricks 利用を検討する場合、とりあえず必要十分そうな機能をがそろってる Premium プランで契約、必要に応じて Enterprise プランにアップグレードすればいいかな、と考える方が多いのではないでしょうか?
2020年9月に E2 Architecture というものがアナウンスされ、2020年11月末に日本リージョンでも GA されました。リソース管理の利便性やセキュリティ要件などに関する複数のオプションが用意されています。
Databricks on AWS を利用する場合、利用者の AWS リソース(= Control Plane) と Databricks の AWS リソース(= Data Plane) を接続する必要があります。E2 Architecture では後者の構成が随分違うようで、例えば Premium プランから E2 プランへのワークスペース移植には以下工程が発生します。ワークスペースを維持したままの E2 へのアップグレードはできないので注意してください。(2020年12月7日現在)
- メタストアの移植 (スクリプトで実装)
- Permission の設定 (ユーザー数が少ないのであればマニュアルで実装)
よって、
- セキュアな環境構築は必須 and/or その必要性はイメージできる
- 最新機能を使いたい or 将来的に使いたい
という方は 最初から E2 プランを選択したほうが良いよ、というのが本項の趣旨です。
以下のウェビナーに分かりやすい概念図があったので整理しておきます。
Features in the new architecture for the Databricks platform on AWS
これまでの Enterprise プラン
- 作れるワークスペースは1つのみ
- プロジェクトごとにアクセス制限したい場合は逐一設定する必要
- ユーザー数、ジョブ数、クラスター数などに制限
- InfoSec の制限上、ネットワーク関連で利用制限
- ワークスペースへの IP アクセス制限ができない
E2 Architecture
以下は一部抜粋です。詳細はこちらを参照のほど。
Databricks architecture overview
なお 2020年12月7日現在、
- E2 アカウント申請
- Databricks 社で承認
- ワークスペース構築
の手順で進める必要があるので注意です。
マルチアカウント
- マスターアカウント作って後はAPIで操作すれば、新しいワークスペースを数分で作れる
- AWS 側のリソース (クロスアカウントロールやS3バケット) の構築は必要
- Create a new workspace using the acount API
- 中央集権的に複数ワークスペースを管理。費用もモニター
- アカウントAPI でもろもろの情報取得可能
- GUI での管理コンソールはこれから実装?
- ワークスペースにプレフィックス設定可能
ネットワーク
- アウトバウンドのみに制限可能
- ネットワーク管理が簡単に
- 情報セキュリティ認証が簡単に
- コンソールへのIP アクセス制限ができるように
- Databricks 内部からのアタックについてもロギング&トラッキング
- 独自の VPC に Databricks ワークスペースを作成できるように
- Data Plane 側(ユーザー側 AWS リソース) での VPC Peering が簡単に
- 権限付与が細かい粒度で設定可能に
認証
- ワークスペース内オブジェクトへ付与できる権限のバリエーションの増加
- トークンをいつだれが作ったか、といった情報も管理できるように
- 一部のオプションのみに制限するような Cluster Policy を JSON で設定可能
- A さんはどんなスペックのクラスタでも作れるけど、B さんは XX DBU 以下のクラスタしか作れない、など
データ保護
- 透過的な認証組めるようになった
- メタストア (Databricks で保持されているメタデータ) の定義に応じてセキュリティレベルを設定可能に
- 顧客管理キーの追加が可能に
- Notebook などのオブジェクトに対するセキュリティを強化
- クラスターに対して、キーや認証の管理が不要に
- クラスタノード間でやり取りされるデータが暗号化
- すべてのノードがプライベートIPのみを持つクラスタを起動可能
セキュリティ
まとめ
E2 Architecture に用意されている機能は使ってくうちに必須要件になってくものが多い印象です。最新機能もここに盛り込まれていくでしょうから最初から E2 プランで進めたほうがよさそうです。