Databricksジョブでジョブに含まれるタスクの処理時間・ステータスを俯瞰できるマトリクスビューと、失敗したタスクのみを再実行できる修復(リペア)機能がサポートされました。間も無く日本リージョンでも利用できるようになります。
マトリクスビュー
これまでは一覧でしかジョブの実行結果を確認することができませんでしたが、対象のジョブ詳細画面の右上に表示されるトグルスイッチでマトリックスを選択することで、マトリクスビューに切り替えることができます。
ジョブ全体の所要時間、タスクごとのステータスをマトリクス上で確認することができます。
- Job Runsの行の棒グラフはジョブの実行時間に応じた長さで表示されます。
- セルの色はジョブ、タスクのステータスに対応します。成功は緑、失敗は赤、スキップされたタスクはピンクになります。
- それぞれのセルの上にマウスカーソルを移動すると、詳細を確認することができます。
ジョブのリペア
Databricksジョブはマルチタスクジョブであり、複数のタスクからジョブを構成することができます。ただ、これまでは、途中のタスクで処理が失敗しても、そこから再開することができませんでした。このリペア機能を活用することで、失敗したタスクからジョブを再開することができます。
-
こちらの
filter-baby-names
タスクのノートブックの最後の行のdisplay
をdisplay1
に変更します。これでジョブを実行すると、2つ目のタスクがエラーとなります。
-
失敗したジョブの詳細画面に移動すると右上に修復ジョブの実行ボタンが表示されます。
このボタンを押すと失敗したタスクから処理を再試行します。このボタンを押す前に上で明示的に混入させていたエラーを直します。
-
修復ジョブの実行ボタンを押すと、パラメーターを指定するためのダイアログが表示されます。ジョブのパラメーターを変更する場合にはここで指定します。
この機能を活用することで、大規模なジョブが失敗した場合でも全ての処理をやり直す必要がなくなります。
Databricksジョブのマニュアル
Databricksジョブのマニュアルはこちらを参照ください。
本記事で紹介した新機能の説明はこちらとなります。