4
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

DatabricksAdvent Calendar 2022

Day 6

AWSにおけるDatabricksデプロイメントについてまとめてみた

Last updated at Posted at 2022-08-24

主要クラウドサービス(AWS、Azure、GCP)で動作するDatabricksですが、AWSでデプロイする際には自分でVPCの構成を決めたり、PrivateLink構成を選択することができます(他のCSPでも順次対応しています)。

その分、「どの構成にしたらいいのか?」と迷うこともしばしばです。これまでに少なくとも10以上のDatabricksワークスペースをデプロイしてきた経験を踏まえて、記事にまとめてみました。

AWSにおけるDatabricksデプロイメントの方法

方法としては以下の2つがあります。

  1. Databricksアカウントコンソール(GUI)
  2. Account API(REST API)

設定自体を自動化するツールには以下の2つがあります。サインアップした際のデフォルトのデプロイメント手段はAWS QuickStartになっています。

  1. AWS QuickStart
  2. Terraform

デプロイメント形態

デプロイメントの形態には大きく以下の2つがあります。

  1. 公衆ネットワークを用いたデプロイ
  2. PrivateLinkを用いたデプロイ
    • フロントエンドPrivateLink
    • バックエンドPrivateLink

どのデプロイメント形態を採用すべきか?

どのデプロイメント形態にするのかを決定するフローチャートです。以下で述べている顧客管理VPCに関しては、Databricksにおける顧客管理VPCをご覧ください。

Screenshot 2023-05-24 at 17.17.14.png

デプロイメント形態にはそれぞれPros & Consがあります。センシティブなデータを取り扱わないPOCの場合は公衆ネットワークを使用する構成、本番環境ではPrivateLink構成を検討することをお勧めします。

デプロイメント形態 Pros Cons
AWS Private Networkを用いたデプロイ すぐにデプロイできます。POCならこちらがお勧めです。 コントロールプレーン、データプレーン間の通信ではAWS Private Networkを経由することになります。ブラウザからDatabricksへの接続は公衆回線経由となります。
PrivateLinkを用いたデプロイ
  • バックエンドPrivateLink:コントロールプレーン、データプレーン間はAWSのバックボーンネットワークと使用するのでAWS Private Networkを経由しません。本番環境はこちらをお勧めするケースが多いです。
  • フロントエンドPrivateLink:クライアントからの接続でも公衆回線を経由したくないケースではお勧めしています。こちらも本番向け。バックエンドPrivateLinkとセットでかつロックダウン構成にするのが定石です。
  • Built-inのHiveメタストアは動かないので、Glueを使うかUnity Catalgを使います。
  • クラスターからはインターネットに接続できないので、pipなどは追加の設定をしない限り使用できません。
  • フロントエンドPrivateLink構成を取る際にはDNS設定が必要になるので、SIパートナーなどのサポートを要請することをお勧めします。

PrivateLink構成のワークスペースをデプロイするのに必要なオブジェクト

PrivateLink構成のワークスペースをデプロイするまでには様々なオブジェクトを作成します。

Screen Shot 2022-08-24 at 22.08.09.png

AWSマネジメントコンソールで作成

  • クロスアカウントIAMロール
  • S3バケット
  • VPC
  • サブネット
  • セキュリティグループ(ネットワークACL)
  • ルートテーブル
  • VPCエンドポイント

Databricks Account Consoleで作成

  • 認証情報設定オブジェクト(Credential configuration)
  • ストレージ設定オブジェクト(Storage configuration)
  • ネットワーク設定オブジェクト(Network configuration)
  • VPCエンドポイントの登録
  • プライベートアクセス設定オブジェクト(Private Access Setting configuration)
  • ワークスペース

AWSのオブジェクトとDatabricksのオブジェクトには以下の関係性があります。
Screen Shot 2022-08-24 at 22.09.21.png

これらの設定手順に関しては、以下の手順書を参照ください。

参考資料

Databricks 無料トライアル

Databricks 無料トライアル

4
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?