Orchestrate data processing workflows on Databricks | Databricks on AWS [2022/10/19時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
Databricksでは、あなたのデータ処理ワークフローをサポートするための包括的なツールスイートとインテグレーションを提供しています。
Databricksジョブによるデータ処理や分析のワークフロー
スケーラブルなリソースを持つDatabricksクラスター上でデータ処理やデータ分析タスクを実行するために、Databricksジョブを活用することができます。ジョブは単一のタスクで構成されたり、複雑な依存関係を持つ複数のタスクからなる大規模なもので構成されたりします。Databricksは、ジョブの全てにおけるタスクのオーケストレーション、クラスター管理、モニタリング、エラーレポートを管理します。ジョブは即時実行したり、使いやすいスケジューリングシステムを通じて定期的に実行することができます。ノートブック、JAR、Delta Live Tablesパイプライン、Python、Scala、Spark submit、Javaアプリケーションを用いてジョブのタスクを実装することができます。
Jobs UI、Jobs API、Databricks CLIからジョブを作成します。Jobs UIを用いることで、実行中あるいは完了済みのジョブのモニタリング、テスト、トラブルシュートを行うことができます。
使い始めるには:
- クイックスタートで最初のDatabricksジョブワークフローを作成します。
- Databricksジョブのユーザーインタフェースを用いたワークフローの作成、参照、実行方法を学びます。
- Databricksジョブを用いたワークフローの作成や管理をサポートするための、Jobs API updatesを学びます。
- ワークフローにおけるdbtの変換処理の使い方を学びます。
- Databricksジョブを管理、スケジュールするためのApache Airflowの使い方を学びます。
Delta Live Tablesによるデータの変換処理
Delta Live Tablesは高信頼、維持可能、テスト可能なデータ処理パイプラインを構築するためのフレームワークです。お手元のデータに対して実行する変換処理を定義すると、Delta Live Tablesはタスクー消すとレーション、クラスター管理、モニタリング、データ品質、エラーハンドリングを管理します。Delta Live Tablesを用いてすべてのデータ処理ワークフローを構築することもできますし、複雑なデータ処理ワークフローをオーケストレーションするために、Databricksジョブのワークフローの中にパイプラインをインテグレーションすることもできます。
使い始めるには、Delta Live Tables introductionをご覧ください。
訳者注
Delta Live Tablesに関しては、こちらもご覧ください。