Databricksクラスター

Last updated at 2022-02-09Posted at 2022-01-29

Clusters | Databricks on AWS [2022/1/21時点]の翻訳です。

Databricksクイックスタートガイドのコンテンツです。

本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

Databricksクラスターは、プロダクションのETLパイプライン、ストリーミング分析、アドホック分析、機械学習のようなデータエンジニアリング、データサイエンス、データ分析ワークロードを実行するための計算リソース、設定のセットです。

ノートブックの一連のコマンドや自動化されたジョブとしてこれらのワークロードを実行します。Databricksはall-purposeクラスターとjobクラスターを区別します。インタラクティブなノートブックを用いて、コラボレーションをつうて自データ分析を行う際にはall-purposeクラスターを使用します。高速かつ堅牢な自動化ジョブを実行するためにjobクラスターを使用します。

UI、CLI、REST APIを用いてall-purposeクラスターを作成することができます。手動でall-purposeクラスターを停止、再起動することができます。複数のユーザーが、コラボレーティブかつインタラクティブな分析を行うためにこれらのクラスターを使用することができます。
新規jobクラスターでジョブを実行する際、Databricksのジョブスケジューラーがjobクラスターを作成し、ジョブが完了するとクラスターを停止します。jobクラスターを再起動することはできません。

このセクションでは、UIを用いてクラスターをどのように操作するのかを説明します。他の方法については、Clusters CLI、Clusters API 2.0を参照ください。

このセクションでは、jobクラスターよりもall-purposeクラスターにフォーカスしますが、説明する設定、管理ツールの多くは両方のクラスタータイプに適用されます。jobクラスターの作成方法の詳細については、ジョブを参照ください。

重要！
Databricksは、過去30日以内に停止された最大70台のall-purposeクラスターの設定情報を維持し、ジョブスケジューラーによって停止された最大30台のjobクラスターの情報を保持します。停止後30日を経過してもall-purposeクラスターの設定を維持したい場合には、管理者はクラスターリストにクラスターをピン留めすることができます。

Databricks 無料トライアル

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up