Clusters | Databricks on AWS [2022/1/21時点]の翻訳です。
Databricksクイックスタートガイドのコンテンツです。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
Databricksクラスターは、プロダクションのETLパイプライン、ストリーミング分析、アドホック分析、機械学習のようなデータエンジニアリング、データサイエンス、データ分析ワークロードを実行するための計算リソース、設定のセットです。
ノートブックの一連のコマンドや自動化されたジョブとしてこれらのワークロードを実行します。Databricksはall-purposeクラスターとjobクラスターを区別します。インタラクティブなノートブックを用いて、コラボレーションをつうて自データ分析を行う際にはall-purposeクラスターを使用します。高速かつ堅牢な自動化ジョブを実行するためにjobクラスターを使用します。
- UI、CLI、REST APIを用いてall-purposeクラスターを作成することができます。手動でall-purposeクラスターを停止、再起動することができます。複数のユーザーが、コラボレーティブかつインタラクティブな分析を行うためにこれらのクラスターを使用することができます。
- 新規jobクラスターでジョブを実行する際、Databricksのジョブスケジューラーがjobクラスターを作成し、ジョブが完了するとクラスターを停止します。jobクラスターを再起動することはできません。
このセクションでは、UIを用いてクラスターをどのように操作するのかを説明します。他の方法については、Clusters CLI、Clusters API 2.0を参照ください。
このセクションでは、jobクラスターよりもall-purposeクラスターにフォーカスしますが、説明する設定、管理ツールの多くは両方のクラスタータイプに適用されます。jobクラスターの作成方法の詳細については、ジョブを参照ください。
重要!
Databricksは、過去30日以内に停止された最大70台のall-purposeクラスターの設定情報を維持し、ジョブスケジューラーによって停止された最大30台のjobクラスターの情報を保持します。停止後30日を経過してもall-purposeクラスターの設定を維持したい場合には、管理者はクラスターリストにクラスターをピン留めすることができます。
- Cluster basics
- Databricksにおけるクラスター作成
- Databricksにおけるクラスター管理
- Databricksクラスターの設定
- Databricksクラスター設定のベストプラクティス
- Task preemption
- Customize containers with Databricks Container Services
- Cluster node initialization scripts
- GPU-enabled clusters
- Databricksのシングルノードクラスター
- DatabricksのPools
- Web terminal