More than 1 year has passed since last update.

【Databricks】クラスターについて整理してみた

Posted at 2023-12-23

背景・目的

Databricksのコンピュートについて整理します。

まとめ

下記の特徴があります。

Databricksのコンピュートのワークロードは、下記の通り
- 本番運用 ETL パイプライン
- ストリーミングアナリティクス
- アドホックアナリティクス
- 機械学習
下記のコンピュートタイプがある。
- 汎用コンピュート
- ジョブコンピュート
- SQL Warehouse

概要

コンピュートを元に整理しました。

Databricks コンピュートは、本番運用 ETL パイプライン、ストリーミングアナリティクス、アドホックアナリティクス、機械学習など、データエンジニアリング、データサイエンス、データアナリティクスのワークロードを実行するコンピューティングリソースと構成です。ワークスペースのコンピュートリソースは、ワークスペースの [コンピュート ] セクションを使用して作成および管理できます。

Databricksのコンピュートは、下記のようなワークロードを実行するために利用します。
- 本番運用 ETL パイプライン
- ストリーミングアナリティクス
- アドホックアナリティクス
- 機械学習

下記の種類のコンピュートが使用できます。

汎用コンピュート
- 対話型ノートブックを使用してデータを共同で分析するために使用する。
ジョブコンピュート
- 高速で堅牢な自動ジョブを実行するために使用される。
- Databricks ジョブスケジューラは、新しいコンピュートでジョブを実行すると、ジョブコンピュートを作成する。
- コンピュートは、ジョブが完了すると終了する。
- ジョブクラスターは再起動できない。
SQL Warehouse
- Databricks SQL 内のデータオブジェクトに対して SQL コマンドを実行するために使用される。
- SQLウェアハウスは、UI、CLI、またはREST APIを使用して作成できる
インスタンス・プール
- アイドル状態のすぐに使用できるインスタンスでコンピューティングし、開始時間とオートスケール時間を短縮するために使用される。

Databricks Runtime

Databricks Runtime は、コンピュートで実行されるコアコンポーネントのセットです。 Databricks Runtime の各バージョンには、ビッグデータ分析の使いやすさ、パフォーマンス、セキュリティを向上させる更新プログラムが含まれています。コンピュート上の Databricks Runtime には、次のような多くの機能が追加されています。

Delta Lake は、Apache Spark 上に構築された次世代のストレージレイヤーで、データパイプラインを構築するための ACIDトランザクション、最適化されたレイアウトとインデックス、実行エンジンの改善を提供します。「Delta Lake とは」を参照してください。

Java、Scala、Python、R ライブラリをインストールしました。

Ubuntuとそれに付随するシステムライブラリ。

GPU 対応クラスターの GPU ライブラリ。

プラットフォームの他のコンポーネント (ノートブック、ジョブ、クラスター管理など) と統合される Databricks サービス。

Databricks Runtimeはコンピュートで実行されるコアコンポーネント
Databricks Runtimeの各バージョンには、ビッグデータ分析の使いやすさ、パフォーマンス、セキュリティを向上させる更新プログラムが含まれる。
GPU対応クラスターのGPUライブラリが含まれる
Java、Scala、Python、Rライブラリ
他のコンポーネントと統合されるDatabricksサービス

汎用コンピューティング

ポリシー

ポリシーは、ユーザーがクラスターを作成するときに使用できる構成オプションを制限するために管理者が使用する一連のルールです。ポリシーに従ってクラスターを構成するには、 [ ポリシー ] ドロップダウンからポリシーを選択します。

ポリシーは、ユーザがクラスタを作成するときに使用する構成オプションを制限するためのルール

コンピュートポリシーの作成と管理

コンピュートポリシーの作成と管理を元に整理します。

コンピュートポリシーとは何ですか?

ポリシーは、ワークスペース管理者が一連のポリシールールに基づいてユーザーまたはグループのコンピュート作成アクセス許可を制限するために使用できるツールです。

ポリシーには、次の利点があります。

ユーザーによるクラスターの作成を所定の設定に制限します。

ユーザーによるクラスターの作成を特定の数に制限します。
（一部の値を修正および非表示にすることによって）ユーザーインターフェースを簡素化し、より多くのユーザーが独自のクラスターを作成できるようにします。

クラスターごとの最大コストを制限してコストを制御します（時間単位の価格に寄与する値を持つ属性に制限を設定します）。

クラスタースコープのライブラリのインストールを強制します。

クラスタの作成を所定の設定に制限する
クラスタの作成を特定の数に制限する
クラスタごとのコストを制御する
ライブラリのインストールを強制する

パーソナルコンピューティングポリシー

デフォルトでは、すべてのユーザーが個人用コンピュートポリシーにアクセスでき、単一マシンのコンピュートリソースを作成できます。クラスターの作成時に [Personal conピュート] ポリシーがオプションとして表示されない場合は、ポリシーへのアクセス権が付与されていません。ワークスペース管理者に問い合わせて、パーソナル・コンピュート・ポリシーまたは適切な同等のポリシーへのアクセスを要求してください。

デフォルトでは、個人用のコンピュートポリシーにアクセスでき、コンピュートリソースを作成できる

アクセスモード

クラスターアクセスモードは、クラスターを使用できるユーザーと、クラスターを介してアクセスできるデータを決定するセキュリティ機能です。Databricksでクラスターを作成するときは、アクセスモードを選択する必要があります。

クラスターアクセスモードは、クラスタを使用できるユーザと、クラスタを介してアクセスできるデータを決定するセキュリティ機能
クラスタ作成時に、アクセスモードを選択する必要がある

Access Mode	Visible to user	UC Support	Supported Languages
Single user	常に	Python SQL Scala R	1人のユーザに割り当てて使用できる
Shared	常に	Python SQL Scala	ユーザ間でデータを分離することで、複数のユーザが使用できる
No Isolation Shared	管理者は、非表示にできる	Python、SQL、Scala、R	分離なし共有クラスターに関連するアカウントレベルの設定がある
Custom	非常時	Python、SQL、Scala、R	アクセスモードが指定されない既存のクラスターがある場合にのみ表示される

ワーカーノードとドライバーノードの種類

クラスターは、1つのドライバーノードと0個以上のワーカーノードで構成されます。ドライバーノードとワーカーノードに別々のクラウドプロバイダーインスタンスタイプを選択できますが、デフォルトでは、ドライバーノードはワーカーノードと同じインスタンスタイプを使用します。インスタンスタイプのファミリーが異なれば、メモリ集約型またはコンピュート集約型のワークロードなど、さまざまなユースケースに適合します。

クラスタは、1つのドライバーノードと0個以上のワーカーノードで構成される
ドライバノードとワーカーノードに別々のインスタんタイプを指定できるが、デフォルトでは同じ

ワーカー type

Databricksワーカーノードは、クラスターが適切に機能するために必要なSparkエグゼキューターとその他のサービスを実行します。Sparkを使用してワークロードを分散すると、すべての分散処理がワーカーノードで行われます。Databricksでは、ワーカーノードごとに1つのエグゼキューターを実行します。そのため、エグゼキューターとワーカーという用語は、Databricksアーキテクチャのコンテキストでは同じ意味で使用されます。

Databricksでは、ワーカーノードに1つのExecutorを実行する
- つまり、Executor＝Worker

ワーカーノードのIPアドレス

Databricksは、それぞれ2つのプライベートIPアドレスを持つワーカーノードを起動します。ノードのプライマリプライベート IP アドレスは、Databricksの内部トラフィックをホストします。セカンダリプライベートIPアドレスは、クラスター内通信のためにSparkコンテナーで使用されます。このモデルにより、Databricksでは同じワークスペース内の複数のクラスター間の分離が可能となります。

2つのプライベートIPアドレスを持つワーカーノードを起動する
- プライマリプライベートIPアドレスは、Databricksの内部のトラフィックをホストする
- セカンダリIPアドレスは、クラスタ内通信のためにSparkコンテナで使用される

ドライバーの種類

ドライバーノードは、クラスターに接続されているすべてのノートブックの状態情報を保持します。また、ドライバーノードはSparkContextを維持し、クラスター上のノートブックまたはライブラリから実行するすべてのコマンドを解釈し、Sparkエグゼキューターと連携するApache Sparkマスターを実行します。

クラスタに接続されているすべてのノートブックの状態情報を保持する
- ドライバーノードは
  - SparkContextを維持する
  - Sparkのマスターを実行する

ドライバーノードタイプのデフォルト値は、ワーカーノードタイプと同じです。 Sparkワーカーから大量のデータをcollect()により収集してノートブックで分析する場合は、より多くのメモリを備えたより大きなドライバーノードの種類を選択できます。

デフォルトではワーカーノードタイプと同じノードタイプ

GPUインスタンスタイプ

ディープラーニングに関連するタスクなど、高いパフォーマンスを必要とする計算量が多いタスクの場合、Databricksはグラフィックス処理装置（GPU）で高速化されたクラスターをサポートします。詳細については、「GPU対応クラスター」を参照してください。

AWS Graviton instance types

Databricks クラスターでは、 AWS Graviton インスタンスがサポートされています。これらのインスタンスは、Arm64 命令セットアーキテクチャ上に構築された AWS 設計の Graviton プロセッサを使用します。 AWS は、これらのプロセッサを搭載したインスタンスタイプは、Amazon EC2 のどのインスタンスタイプよりも価格対パフォーマンス比が高いと主張しています。 Graviton インスタンスタイプを使用するには、[Worker type] (ワーカータイプ)、[Driver type] (ドライバータイプ)、またはその両方で使用可能な AWS Graviton インスタンスタイプのいずれかを選択します。#### 入手方法
Databricks は、AWS Graviton 対応クラスターをサポートしています。

Photon 以外の場合は Databricks Runtime 9.1 LTS 以降、Photon の場合は Databricks Runtime 10.2 (サポート対象外) 以降。

すべての AWS リージョン。ただし、すべてのインスタンスタイプがすべてのリージョンで使用できるわけではないことに注意してください。ワークスペースのリージョンで使用できないインスタンスタイプを選択すると、クラスターの作成が失敗します。

AWS Graviton2 および Graviton3 プロセッサの場合。

Grabitonをサポートしている

Enable オートスケール

[ Enable autoscale ] をオンにすると、クラスターのワーカーの最小数と最大数を指定できます。その後、Databricks によって、ジョブの実行に必要な適切な数のワーカーが選択されます。
クラスターがオートスケールするワーカーの最小数と最大数を設定するには、[ワーカーの種類] ドロップダウンの横にある [最小ワーカー] フィールドと [最大ワーカー] フィールドを使用します。
オートスケールを有効にしない場合は、ワーカータイプドロップダウンの横にあるワーカーフィールドに固定数のワーカーを入力します。

オートスケールにより、ワーカー数が増減する

オートスケールのメリット

オートスケーリングを使用すると、Databricksはジョブの特性を考慮してワーカーを動的にアカウントに再割り当てします。パイプラインの特定の部分は他の部分よりも計算負荷が高い場合があり、Databricksはジョブのこれらのフェーズ中にワーカーを自動的に追加（さらに、ワーカーが不要になったときにワーカーを削除）します。

動的にワーカーをアサインする

オートスケールを使用すると、ワークロードに合わせてクラスターをプロビジョニングする必要がないため、高いクラスター使用率を簡単に実現できます。これは特に、時間の経過と共に要件が変化するワークロード (1 日のうちにデータセットを探索するなど) に適用されますが、プロビジョニング要件が不明な 1 回限りの短いワークロードにも適用できます。したがって、オートスケールには2つの利点があります。

ワークロードは、固定サイズのプロビジョニング不足のクラスターと比較して高速に実行できます。

クラスターのオートスケーリングでは、静的サイズのクラスターと比較して全体的なコストを削減できます。

変化の激しいワークロードで有効
コスト削減につながる

クラスターとワークロードの固定サイズに応じて、オートスケーリングでは、これらの利点の一方または両方が同時に実現されます。クラスターのサイズは、クラウドプロバイダーがインスタンスを終了するときに選択されたワーカーの最小数を下回る可能性があります。この場合、Databricksは、ワーカーの最小数を維持するために、インスタンスの再プロビジョニングを継続的に再試行します。

クラウドプロバイダーにより、インスタンスがTerminateするときに、選択されたワーカの最小数を下回る可能性がある。このとき、最プロビジョニングする

オートスケーリングの動作

Premium および Enterprise 料金プランのワークスペースでは、最適化されたオートスケールが使用されます。標準料金プランのワークスペースでは、標準のオートスケールが使用されます。
最適化されたオートスケールには、次の特性があります。

2つのステップで最小から最大にスケールアップします。

クラスターがアイドル状態でない場合でも、シャッフルファイルの状態を確認することでスケールダウンできます。

現在のノードの割合に基づいてスケールダウンします。

ジョブクラスターでは、過去40秒間にクラスターが十分に活用されていない場合にスケールダウンします。

All-Purposeクラスターでは、過去150秒間にクラスターが十分に活用されていない場合にスケールダウンします。

spark.databricks.aggressiveWindowDownS Spark 構成プロパティは、クラスターがダウンスケーリングの決定を行う頻度を秒単位で指定します。値を大きくすると、クラスターのスケールダウンが遅くなります。最大値は600です。

PremiumとEnterpriseでは、最適化されたオートスケールが利用される
- 標準の料金プランでは、標準のオートスケール
現在のノードの割合に基づきスケールダウンする
ジョブクラスターでは、過去40秒間にクラスターが十分に活用されない場合にスケールダウンする
All-Purposeクラスタでは、過去150秒間にクラスターが十分に活用されてない場合にスケールダウンする

Standard オートスケールは、Standard プランのワークスペースで使用されます。標準オートスケールには、次の特徴があります。

8 つのノードを追加することから始めます。その後、指数関数的にスケールアップし、最大値に達するために必要な数のステップを実行します。

ノードの 90% が 10 分間ビジー状態ではなく、クラスターが 30 秒以上アイドル状態になると、スケールダウンします。

1 ノードから指数関数的にスケールダウンします。

オートスケール local storage

クラスター作成時に固定数の EBS ボリュームを割り当てない場合は、オートスケールローカルストレージを使用します。オートスケールローカルストレージを使用すると、Databricks はクラスターの Spark ワーカーで使用可能な空きディスク領域の量を監視します。ワーカーの実行がディスクの少なすぎる状態になると、Databricks は、ディスク領域が不足する前に、新しい EBS ボリュームをワーカーに自動的にアタッチします。 EBS ボリュームは、インスタンスあたり (インスタンスのローカルストレージを含む) の合計ディスク容量が 5 TB まで制限されてアタッチされます。

クラスタ作成時に固定数のEBSボリュームを割り当てない場合、オートスケールローカルストレージを使用する
オートスケールローカルストレージでは、
- DatabricksはクラスタのSparkワーカーで使用可能な空きディスクの領域の量を監視し、ワーカーの実行がディスクが少なすぎる状態になると、Databricksはディスク領域が不足する前に、新しいEBSボリュームをワーカーに自動的にアタッチする
- 5TBまでアタッチされる。

オートスケールストレージを設定するには、[ Enable autoscale local storage] (オートスケールローカルストレージを有効にする) を選択します。
インスタンスにアタッチされた EBS ボリュームは、インスタンスが AWS に返却されたときにのみデタッチされます。つまり、EBS ボリュームは、稼働中のクラスターの一部である限り、インスタンスからデタッチされることはありません。 EBS の使用をスケールダウンするには、オートスケールコンピュートまたは自動終了で構成されたクラスターでこの機能を使用することをお勧めします。

EBSボリュームは、インスタンスがAWSに戻されたときにデタッチされる
オートスケール、自動終了で構成されたクラスタでの使用を推奨

ローカルディスクの暗号化

クラスターの実行に使用する一部のインスタンスタイプには、ローカルにアタッチされたディスクがある場合があります。 Databricks は、これらのローカルに接続されたディスクにシャッフルデータまたはエフェメラルデータを格納する場合があります。クラスターのローカルディスクに一時的に保存されるシャッフルデータを含め、すべてのストレージタイプで保存されているすべてのデータが暗号化されるようにするには、ローカルディスクの暗号化を有効にします。

エフェメラルデータを格納する場合に、暗号化を有効化する

SQLウェアハウスの構成

SQLウェアハウスの構成を元に整理します。

SQLウェアハウスとは

SQLウェアハウスは、Databricks SQL内のデータオブジェクトに対してSQLコマンドを実行できるコンピュートリソースです。コンピュートリソースは、クラウドにおける処理能力を提供するインフラストラクチャ・リソースです。

要件

SQLウェアハウスには、次の要件があります。

SQLウェアハウスを作成するには、ワークスペース管理者であるか、または、無制限のクラスター作成権限を持つユーザーでなければなりません。

SQLウェアハウスを管理するには、ワークスペース管理者であるか、または、SQLウェアハウスの[管理可能] 権限を持っている必要があります。

この機能をサポートするリージョンでサーバーレスSQLウェアハウスを作成する前に、いくつかの手順が必要とされる場合があります。サーバーレスのSQLウェアハウスを使用するを参照してください。

考察

今まで、なんとなく利用してましたが、あらためて認識したり、新たに下記の気づきを得られました。

Executor数 = Worker数
ローカルストレージもオートスケールが可能

参考

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

【Databricks】クラスターについて整理してみた

背景・目的

まとめ

概要

Databricks Runtime

汎用コンピューティング

ポリシー

コンピュートポリシーの作成と管理

コンピュート ポリシーとは何ですか?

パーソナルコンピューティングポリシー

アクセスモード

ワーカー ノードとドライバー ノードの種類

ワーカー type

ワーカーノードのIPアドレス

ドライバーの種類

GPUインスタンスタイプ

AWS Graviton instance types

Enable オートスケール

オートスケールのメリット

オートスケーリングの動作

オートスケール local storage

ローカルディスクの暗号化

SQLウェアハウスの構成

SQLウェアハウスとは

要件

考察

参考

コンピュートポリシーとは何ですか?

ワーカーノードとドライバーノードの種類