こちらのアップデートです。
ワークスペースのDatabricksアセットバンドルにおけるコラボレーション
ワークスペースのUIからバンドルを作成、デプロイ、実行することができます。databricks.ymlを持つ定義済みのプロジェクトを格納するリポジトリをクローンするか、定義済みのテンプレートを用いて新規のバンドルを作成します。
リリースノートはこちら。
ワークスペースにおけるDatabricksアセットバンドル(パブリックプレビュー)
ワークスペース内でのバンドルによって、ワークスペースのユーザーはUIを通じてバンドルを編集、コミット、テスト、デプロイすることができ、組織における他のユーザーとのDatabricksアセットバンドルを活用したコラボレーションがより簡単になりました。
マニュアルはこちらです。
Databricksアセットバンドルとは
Databricks アセットバンドルは、ソース管理、コードレビュー、テスト、継続的インテグレーションとデリバリー (CI/CD) など、ソフトウェアエンジニアリングのベストプラクティスをデータプロジェクトや AI プロジェクトに導入するためのツールです。バンドルを使用すると、プロジェクトのソースファイルと一緒にメタデータを含めることができ、ジョブやパイプラインなどの Databricks リソースをソースファイルとして記述できます。最終的に、バンドルはプロジェクトのエンドツーエンドの定義であり、プロジェクトの構造化、テスト、デプロイの方法が含まれます。これにより、活発な開発中にプロジェクトでの共同作業が容易になります。
要はDatabricksのアセット(ノートブックやコンピュート、ジョブなどの資産)をバンドル(束)として開発、デプロイ、管理できる仕組みです。以前触ってました。
何かしらのプロジェクトを行う際に使用するアセットをバンドルとしてまとめて管理することで、開発環境、テスト環境、本番環境におけるCI/CDを容易にします。
ただ、こちらの機能は以前はローカルマシンからDatabricks CLIを使ってしか利用ができなかったので、コラボレーションはGitHubなどDatabricks外の環境に限定されていました。今回のアップデートでDatabricksワークスペース上でコラボレーションしながらアセットバンドルの機能を活用することができます。
機能の有効化
プレビューでCollaborate on Databricks Asset Bundles from the workspaceをオンにします。
チュートリアルのウォークスルー
こちらにチュートリアルがあるので試してみます。
GitHubリポジトリのおよびGitフォルダの作成
この機能を使うにはGitフォルダが必要ですので作成します。
アセットバンドルの作成
Gitフォルダで作成をクリックすると、アセットバンドルが表示されるのでクリックします。
バンドルの名前をつけて、Empty project(空のプロジェクト) を選択し、作成をクリックします。
ノートブックの作成
アセットバンドル編集用のエディタが表示されます。
このバンドルは1つのノートブックを実行するシンプルなものです。ノートブックを作成するために、Create notebookをクリックします。
バンドルのフォルダ内にノートブックが作成されるので、名前をつけてコードを記述します。
ノートブックを実行するジョブの定義
画面左にあるロケットマークをクリックして、デプロイメントパネルを表示します。
作成ボタンをクリックして、新しいジョブ定義を作成するをクリックします。
ジョブの名前をつけます。
ジョブを定義するYAMLファイルが作成されます。
これを編集して、ノートブックが実行されるジョブにします。
resources:
jobs:
run_notebook:
name: run-notebook
queue:
enabled: true
tasks:
- task_key: my-notebook-task
notebook_task:
notebook_path: ../helloworld.ipynb
バンドルのデプロイ
デプロイメントパネルではデプロイ先を選択できます。デフォルトのdev
のままとします。このデプロイメントモードに関してはこちらをごらんください。
デプロイボタンをクリックします。
確認画面が表示されるのでデプロイをクリックします。
デプロイメントがスタートします。
デプロイされました。
ジョブの実行
デプロイが完了すると画面左のBundle resourcesにあるジョブが活性化します。マウスをホバーすると右端に再生ボタンが表示されるので、これをクリックします。
ジョブの画面に実行すると、バンドルが実行されたことを確認できます。
リポジトリへのコミット
そして、これらのアセットバンドルはGitフォルダに格納されているので、GitHubなどのソースコントロールシステムで管理することができます。
これまで以上にお手軽にアセットバンドルを利用できるようになりましたので、是非ご活用ください!