LoginSignup
3
1

More than 3 years have passed since last update.

Databricks on AWS - E2 Architecture 概要

Last updated at Posted at 2020-12-07

この記事は株式会社ナレッジコミュニケーションが運営する Amazon AI by ナレコム Advent Calendar 2020 の 5日目のエントリーです!

はじめに

AWS 上での Databricks 利用を検討する場合、とりあえず必要十分そうな機能をがそろってる Premium プランで契約、必要に応じて Enterprise プランにアップグレードすればいいかな、と考える方が多いのではないでしょうか?

Databricks on AWS pricing
image.png

2020年9月に E2 Architecture というものがアナウンスされ、2020年11月末に日本リージョンでも GA されました。リソース管理の利便性やセキュリティ要件などに関する複数のオプションが用意されています。

Databricks on AWS を利用する場合、利用者の AWS リソース(= Control Plane) と Databricks の AWS リソース(= Data Plane) を接続する必要があります。E2 Architecture では後者の構成が随分違うようで、例えば Premium プランから E2 プランへのワークスペース移植には以下工程が発生します。ワークスペースを維持したままの E2 へのアップグレードはできないので注意してください。(2020年12月7日現在)

  • メタストアの移植 (スクリプトで実装)
  • Permission の設定 (ユーザー数が少ないのであればマニュアルで実装)

よって、

  • セキュアな環境構築は必須 and/or その必要性はイメージできる
  • 最新機能を使いたい or 将来的に使いたい

という方は 最初から E2 プランを選択したほうが良いよ、というのが本項の趣旨です。
以下のウェビナーに分かりやすい概念図があったので整理しておきます。

Features in the new architecture for the Databricks platform on AWS

これまでの Enterprise プラン

  • 作れるワークスペースは1つのみ
    • プロジェクトごとにアクセス制限したい場合は逐一設定する必要
  • ユーザー数、ジョブ数、クラスター数などに制限
  • InfoSec の制限上、ネットワーク関連で利用制限
  • ワークスペースへの IP アクセス制限ができない image.png

E2 Architecture

以下は一部抜粋です。詳細はこちらを参照のほど。

Databricks architecture overview

なお 2020年12月7日現在、

  • E2 アカウント申請
  • Databricks 社で承認
  • ワークスペース構築

の手順で進める必要があるので注意です。

マルチアカウント

  • マスターアカウント作って後はAPIで操作すれば、新しいワークスペースを数分で作れる
  • 中央集権的に複数ワークスペースを管理。費用もモニター
    • アカウントAPI でもろもろの情報取得可能
    • GUI での管理コンソールはこれから実装?
  • ワークスペースにプレフィックス設定可能
    • プロジェクトごとの管理しやくなった image.png

ネットワーク

  • アウトバウンドのみに制限可能
  • ネットワーク管理が簡単に
  • 情報セキュリティ認証が簡単に

image.png

  • コンソールへのIP アクセス制限ができるように
  • Databricks 内部からのアタックについてもロギング&トラッキング

image.png

  • 独自の VPC に Databricks ワークスペースを作成できるように
  • Data Plane 側(ユーザー側 AWS リソース) での VPC Peering が簡単に
  • 権限付与が細かい粒度で設定可能に

image.png

  • 閉域網の構築可能 image.png

認証

  • ワークスペース内オブジェクトへ付与できる権限のバリエーションの増加

image.png

  • トークンをいつだれが作ったか、といった情報も管理できるように

image.png

  • 一部のオプションのみに制限するような Cluster Policy を JSON で設定可能
  • A さんはどんなスペックのクラスタでも作れるけど、B さんは XX DBU 以下のクラスタしか作れない、など

image.png

データ保護

  • 透過的な認証組めるようになった

image.png

  • メタストア (Databricks で保持されているメタデータ) の定義に応じてセキュリティレベルを設定可能に

image.png

  • 顧客管理キーの追加が可能に
  • Notebook などのオブジェクトに対するセキュリティを強化

image.png

  • クラスターに対して、キーや認証の管理が不要に
  • クラスタノード間でやり取りされるデータが暗号化
  • すべてのノードがプライベートIPのみを持つクラスタを起動可能

image.png

セキュリティ

  • 以下セキュリティポリシーに準拠 image.png

まとめ

E2 Architecture に用意されている機能は使ってくうちに必須要件になってくものが多い印象です。最新機能もここに盛り込まれていくでしょうから最初から E2 プランで進めたほうがよさそうです。

3
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
1