概要
Databricksにてトレーニングを実施する際に参加者に入力してもらうセルを空白にしておくことがよくあり、そのノートブックが想定のコードを入力した際の動作を確認する方法を共有します。
トレーニング実施する際には、正解を記載したノートブック(下記図の左)と作業を実施してもらうノートブック(下記図の右)を用意することがよくあります。トレーニング時には処理を段階的にセルに記載するため、作業を実施してもらうノートブックが適切に動作することを確認する必要があります。
実施方法は、Gitのチェリーピック機能により#to-do
のセルを#Answer
に書き換え、Databricks ReposにてPullしたコードをDatabricks Jobsで実行する方法です。正常終了する場合には下記図の左のように、異常終了する場合には下記図の右のようになります。
利用するサービスと機能
- Databricks
- Databricks Repos
- Databricks Jobs
- Gitサービス(今回はAzure Repos)
実施手順
1. Databricksにて#to-do
のセルを#Answer
に書き換えてDatabricks Jobを作成後PRを作成
1-1. レポジトリを作成
1-2. Databricks Reposにてレポジトリを設定
1-3. ノートブック(dbcファイル)を取り込む
1-4. mainにプッシュ(Commit & Push)
1-5. #to-do
のセルを#Answer
に書き換える
1-6. Databricks Jobsにてノートブックを実行するジョブを作成
1-7. 別のブランチ(本記事ではanswer)にプッシュ(Commit & Push)
1-8. Gitサービス(Azure DevOps)にて、Pull Requestを作成。
※PRの作成のみを行い、マージ処理を行わない
2. 検証対象のノートブック(dbcファイル)をGitに連携後、チェリーピックで#to-do
のセルを#Answer
に書き換えてDatabricks Jobsを実行
2-1. Reposのブランチをmainに設定
2-2. 既存のノートブックを削除した上で、検証対象のノートブック(dbcファイル)を取り込む
2-3. mainにプッシュ(Commit & Push)
2-4. 1の作成手順で作成したPRからチェリーピックを作成
2-5. PRにてマージ処理を実行
2-6. Databricks ReposにてPullを実行
2-7. #to-do
のセルが#Answer
に書き換わっていることを確認
2-8. Databricks Jobsを実行して正常終了することを確認
よくある質問
特になし