Now in Databricks: Orchestrate Multiple Tasks Within a Databricks Jobs - The Databricks Blogの翻訳です。
詳細はドキュメントで確認できます。
ビジネスインテリジェンス(BI)や人工知能(AI)により一層取り組む企業においては、シンプル、明確かつ信頼性のあるデータ処理タスクのオーケストレーションのニーズが高まります。これまでは、Databricksユーザーはこれらのタスクすべてを一つのノートブックで実行するか、他のワークフローツールを用いることで環境の複雑性を増加させるかを選択しなくてはなりませんでした。
本日(2021/7/13)、Databricksのジョブにおいて、パブリックプレビューとしてタスクのオーケストレーションをサポートしたことを嬉しく思います。これによって、有向非巡回グラフ(DAG)を用いて複数のタスクを実行することができます。ジョブは、インタラクティブ性を必要としないアプリケーションをDatabricksクラスターで実行する方法です。例えば、即時実行したいETLジョブやデータ分析タスク、スケジュールジョブを実行できます。ジョブにおいて複数のタスクをオーケストレートする機能は、追加コストなしにデータや機械学習ワークフローの作成、管理、モニタリングをシンプルなものにします。新機能のメリットには以下のようなものが含まれます:
シンプルなタスクオーケストレーション
今や、誰でもDatabricksのUI、APIを用いてDAGで容易にタスクをオーケストレートすることができます。これによって、データサイエンティストやアナリストが自身でジョブを構築、モニタリングでき、キーとなるAI、MLの取り組みを容易に進められるので、データチームの負荷を軽減できます。以下の例では、推薦を行う機械学習モデルのトレーニングを行う7つのノートブックを実行するジョブを示しています。
どこでも何でもオーケストレーション
ジョブオーケストレーションはDatabricksに完全に統合されており、追加のインフラストラクチャやDevOpsのリソースは不要です。ユーザーはJobs APIあるいはUIを使ってジョブやメールによるアラートなどの機能を作成・管理することができます。データチームは、この機能を利用するために新たなスキルを学ぶ必要はありません。この機能によって、Databricks外のものであってもAPIさえ公開しているものであれば何でも(例えば、CRMからデータを取得)オーケストレートすることができます。
次のステップ
タスクオーケストレーションは7/13以降、パブリックプレビューとしてすべてのDatabricksワークスペースでロールアウトされます。以降数ヶ月で、ジョブ内のタスクでのクラスターの再利用、以前処理に失敗したタスクのみを実行するDAGの再起動をサポートする予定です。
Databricksジョブにおけるタスクのオーケストレーションと複数タスクに関してはドキュメントを参照ください。そして、Admin consoleでTask orchestration in Jobs有効化することで、本機能を無料で利用できます。