みなさん、こんにちは!
Azure Databricks は統合データ分析プラットフォームの Databricks を Azure 上で利用できるサービスです。
これから初めて Azure Databricks を使うという方を対象に、デプロイ方法についてご説明します。
ワークスペース作成
Azure Databricks の管理画面を開き、「サービスを作成」ボタンをクリックします。
作成画面が開くと、いくつかの設定項目があります。まずは基本の設定を行います。
- サブスクリプション:対象のサブスクリプションを選択してください。
- リソースグループ:既存のものを選択するか、新規作成します。
- ワークスペース名:作成されるワークスペースの名前を指定します。
- リージョン:指定のリージョンを選択します。
- 価格レベル:Databricks の料金プランです。Standard、Premium、試用版(Premiumの14日間無料トライアル)から選択できます。例では Standard を選択しました。
- マネージドリソースグループ名:Databricks に必要なネットワークリソース等を含んだマネージドリソースグループが指定した名前で自動的に作成されます。
ネットワーク設定
上の項目は、VM をパブリックIPなしでデプロイするかどうかの設定です。有効にすると VM にパブリックIPが付与されず、自動作成された NAT ゲートウェイを利用して外部アクセスするようになります。
下の項目は、自分で作成した仮想ネットワークに VM をデプロイするための設定です。Azure Storage などに Private Endpoint を経由してアクセスしたい場合に必要となるそうです。
ネットワーク設定の詳細についてはこちらの記事が詳しいです。気になる方はご参照ください。
暗号化
データの暗号化に関する設定を行えます。
Data Encryption では顧客管理の暗号化鍵を設定することが可能です。Double encryption for DBFS root は Databricks ファイルシステムの root ディレクトリを Data Encryption に加えて二重で暗号化する設定です。
なお、いずれも Premium 以上のプランでのみ有効化できます。
Security & Compliance
Security & Compliance では、データのセキュリティ要件に関する設定を行うことができます。プロファイルを有効化することで、HIPAA、PCI-DSSといったセキュリティ要件を満たすことを保証できます。
「ワークスペースの起動」をクリックすると Databricks の管理画面へ遷移します。
クラスター作成
ワークスペースが作成できたので、クラスターも作成しておきましょう。
ご利用のユースケースに合わせてクラスターの設定を行います。
今回は検証目的なので、小さめのインスタンスで課金を抑える形で設定しています。
「コンピューティングを作成」をクリックして待つと、一覧に作成したクラスターが表示されます。
クラスター作成までの手順はこれで完了です!お疲れ様でした。
補足
デプロイに関して、以下の点にご注意ください。
- すでに作成したワークスペースのリソースグループは変更できません。
- ワークスペースを削除すると、ワークスペースに紐づいたマネージドリソースグループも自動的に削除されます。
さいごに
Azure Databricks のデプロイ方法について見てきましたが、ご紹介した内容の通り、追加の環境セットアップ等なしでとても簡単に Databricks をデプロイすることができます。
Azure を利用していれば別途 Databricks のアカウントを用意したりする必要なく、すぐに使い始められる点が便利です。