Posted at

DataBricks をgit連携する


DataBricksのノートブックの管理方法

DataBricksを使っていてノートブックなどのバックアップをしたり履歴をトレースしたい場合は、ビルトインのVersion Controlがお手頃です。


ビルトインのVersion Control

以下にビルトイン機能の利用方法があります。

https://docs.databricks.com/user-guide/notebooks/notebook-use.html#version-control

以下が可能です。


  • コメントを追加する(随時セーブ)

  • リビジョンを復旧する

  • リビジョンを削除する

  • リビジョン履歴を削除する

基本的にはnotebookの変更時に自動保存されるので、自分でリビジョンをコントロールするというよりは、単純にバックアップという機能に近いです。ブラウザでやっている以上、不測の事態が起こりがちなので、最低限この機能は保障されているのはうれしいところですね。


github

githubの統合は以下の手順で可能です。

https://docs.databricks.com/user-guide/notebooks/github-version-control.html


1) githubアクセストークンを得る

image.png


2) DataBricks側でaccess tokenを入力する

[User Setting]メニューに項目があります。

image.png

image.png


3) notebookでgitをリンク

先ほどのRevision historyタブのところにGitのリンクボタンがあるので押して、リポジトリを設定します。

image.png

image.png


4) マニュアルでrevision historyにセーブ

Commitしたい場合は、自動では行われないのでRevision HistoryにマニュアルでセーブするSave nowボタンを押します。

image.png

コメントが求められるので、その下の"Also commit to Git"チェックボックスをONにすることでGitへのcommitを同時に行います。

image.png


Azure DevOps (VisualStudio Online)

ADOに対するリンクは簡単です。

https://docs.azuredatabricks.net/user-guide/notebooks/azure-devops-services-version-control.html

以下のようにgitプロバイダとしてAzure DevOpsを選択するだけです。同じAzure ADを使っている場合はクリデンシャルの再登録は必要無いようです。

image.png