Databricksのデータパイプライン開発・運用ソリューションのDLT(旧称Delta Live Tables)の大幅なアップデートです。
DLTにおけるETLパイプライン開発のマルチファイルエディタ
ETLパイプラインの開発、デバッグのためにDLTで新たなマルチファイルエディタを使えるようになりました。このマルチファイルエディタでは、パイプラインアセットブラウザに一連のファイルとしてパイプラインを表示します。一箇所でファイルを編集し、パイプラインの設定やどのファイルをパイプラインに含めるのをコントロールすることができます。DLTのマルチファイルエディタを用いたETLパイプラインの開発およびデバッグをご覧ください。
注意
執筆時点ではベータ版です。
マニュアルはこちらです。
機能の有効化
プレビューで、Pipelines multi-file developer experienceをオンにします。
また、各人の設定の開発者でノートブックとファイルのタブをオンにします。
サイドメニューのパイプラインからETLパイプラインの作成をクリックすると、以下のようなダイアログが表示されるので、ETLエディタを有効化をクリックします。
パイプラインの作成
今回は以下のチュートリアルに沿ってパイプラインを作成します。
以下のようなダイアログが表示されるので、パイプライン名とデフォルトカタログ、デフォルトスキーマを指定します。
高度なパイプラインを作成リンクをクリックすると、より詳細な設定を行える画面(以前からあるパイプライン作成画面)に遷移します。
マルチファイルエディタ
作成をクリックすることで、マルチファイルエディタの画面が開きます。
左がアセットブラウザ、中央上がソースコード、右がパイプラインのDAG、下がテーブル(マテリアライズドビュー、ストリーミングテーブル)情報が表示されます。画面構成の詳細はこちらをご覧ください。
パイプライン作成と同時にデフォルトのフォルダ構成や、サンプルファイルも作成されるのでこれらを変更していきます。
このエディタにおいて新たにルートフォルダというコンセプトが導入されました。これは、パイプラインごとに設定されるフォルダです。このフォルダ配下にソースコードを格納することで、マルチファイルエディタをスムーズに活用できます。ルートフォルダ配下のソースコードをパイプラインに含めるかどうかを選択することができます。
ドライラン
以前は検証と言っていた機能です。データの処理は行わずにロジックの検証のみを行います。
画面右にはパイプラインのグラフ構造、下にはパイプラインに含まれるテーブルの一覧が表示されます。グラフ構造は縦横を切り替えることができます。
パイプラインの実行
ドライランの右のパイプラインを実行をクリックすることで、パイプラインを実行します。
テーブルの確認
テーブル一覧のテーブル名をクリックすることで、直接テーブルの中身を確認できます。
処理のパフォーマンスメトリクスも確認できます。
設定の変更
画面上の設定をクリックすることで、パイプラインの設定自体を変更できます。以前はパイプライン画面への遷移が必要でした。
イベントログ
右下のインジケータをクリックし、イベントログを表示をクリックすることで、イベントログにアクセスできます。
リネージ
DLTパイプラインのリネージは従来通りカタログエクスプローラで確認できます。以前はボリュームのリネージが取れていませんでしたが、追跡されるようになっていました。
まとめ
複数ファイルの管理、ソースコード開発、DAGの確認、パイプラインによって生成されるテーブルの中身の確認、イベントログの確認、パイプラインの設定がすべて一つの画面で行えますので、画面の移動が減ることは間違いありません。是非ご活用ください!