Run jobs using notebooks in a remote Git repository | Databricks on AWS [2022/5/10時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
プレビュー
本機能はパブリックプレビューです。
リモートGitリポジトリに格納されているノートブックを用いて、Databricksでどのようにジョブを実行するのかを学びます。
なぜリモートリポジトリのソースからジョブを実行するのか?
この機能を用いることで、プロダクションジョブの作成、管理をシンプルにし、継続的デプロイメントを自動化します。
- Databricksで別のリポジトリを作成し、アクセス権を管理し、更新し続ける必要がなくなります。
- プロダクションのリポジトリ上でのローカルの編集や、ブランチに切り替えることによる変更など、プロダクションジョブにおける意図しない変更を避けることができます。
- ジョブ定義プロセスは、リモートリポジトリ上で信頼できる唯一の情報源(single source of truth)を持つことになります。
要件
Gitの認証情報をDatabricksに追加する必要があります。Databricksでは多くのGitリポジトリプロバイダーをサポートしています。
Gitの設定
DatabricksがリモートのGitリポジトリに読み書きできるように設定します。
Gitの設定を行うには:
- サイドバーでSettings > User Settingsをクリックします。
- User Settingsページで、Git integrationをクリックします。
- Change settingsをクリックします。以降の画面上の手順においては、お使いのGitプロバイダーを選択し、自身のリポジトリにサインインするための認証情報を入力します。
ジョブの作成
-
サイドバーでJobs > Create Jobをクリックします。
-
Sourceでは、Gitを選択しEditをクリックします。
-
Pathには、
etl/notebooks/
のようにノートブックのパスを入力します。相対パスを入力する場合には先頭に
/
や./
を含めず、.py
のようなファイルの拡張子を含めないでください。
マルチタスクジョブで次のタスクを追加する
マルチタスクジョブの中にあるノートブックタスクは、以下のいずれかの方法でリモートリポジトリにある同じコミットを参照します。
-
git_branch
が設定されている場合、$branch/head
のsha
-
git_tag
が設定されている場合、$tag
のsha
-
git_commit
の値
マルチタスクジョブにおいては、ローカルのノートブックを使用するタスクとリモートリポジトリを使用するタスクを一緒に含めることはできません。この制限は、非ノートブックのタスクには適用されません。
ランの詳細を参照する
それぞれのランごとにコミットは記録され、ランの詳細に表示されます。
ジョブを編集する
ジョブの設定を編集するには:
-
サイドバーでJobsをクリックします。
-
ジョブ一覧で、編集したいジョブの名前をクリックします。
-
Job detailsパネルでジョブの設定を変更することができます。
- Gitの設定
- スケジュール
- 使用するクラスターと設定
- メールのアラート
- アクセス権
- 最大同時実行数