How to Save Time and Costs With Cluster Reuse in Databricks Jobs - The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
ジョブオーケストレーションのローンチによって、Databricksにおけるパイプラインのオーケストレーションは劇的に容易になりました。複数のタスクの異なるETL、MLパイプラインに分割できる能力は、作成、管理の観点で数多くのメリットを提供します。モジュール化のアプローチによって、全体的な処理時間を削減するために並列実行を可能としつつも、チームは独立してそれぞれの責任範囲を定義し、作業することが可能となります。この能力はあらゆるクラウドにおける洗練されたデータ、機械学習ワークフローをお客様が作成、実行、監視する方法を変化させる大きな一歩です。今回、我々はジョブの実行における複数のタスクにおいて同じクラスターを再利用できる機能の提供によって、このオーケストレーション機能を強化できることを嬉しく思います。これによってお客様はさらに時間とコストを削減することが可能となります。
これまでは、異なるタイプのワークロードに対応するために、それぞれのタスクにはそれぞれのクラスターが必要でした。この柔軟性によってきめ細かい設定が可能でしたが、クラスターの起動、並列タスクにおける低い使用率によって時間とコストのオーバーヘッドをもたらしていました。
この柔軟性を維持しつつも、リソース使用率を改善するために、クラスター再利用の発表ができることを嬉しく思います。複数のタスクでジョブクラスターを共有することで、オーバーヘッドを削減し、並列タスクにおけるクラスターの利用率を改善することで、お客様はジョブに要する時間とコストを削減することが可能となります。
タスクを定義する際、お客様には新規クラスターを設定するか既存クラスターを選択することができます。クラスターの再利用の実現によって、既存クラスターのリストにジョブにおける他のタスクで定義されたクラスターが表示されるようになります。複数のタスクがジョブクラスターを共有する場合、最初の適切なタスクが起動する際にクラスターが初期化されます。このクラスターを使用する最後のクラスターが処理を終了するまで、このクラスターは維持されます。このように、クラスターが初期化されたあとは追加の起動時間は発生せず、他のワークロードから分離されたジョブクラスターを使用しつつも時間とコストを削減することができます。
新たな機能に皆様も興奮されているかと思います。クラスター再利用の詳細をチェックし、起動時間とコストを節約するために共有ジョブクラスターを使ってみませんか。フィードバックがございましたら、ぜひコンタクトいただければと思います。