DataBricksのノートブックの管理方法
DataBricksを使っていてノートブックなどのバックアップをしたり履歴をトレースしたい場合は、ビルトインのVersion Controlがお手頃です。
ビルトインのVersion Control
以下にビルトイン機能の利用方法があります。
https://docs.databricks.com/user-guide/notebooks/notebook-use.html#version-control
以下が可能です。
- コメントを追加する(随時セーブ)
- リビジョンを復旧する
- リビジョンを削除する
- リビジョン履歴を削除する
基本的にはnotebookの変更時に自動保存されるので、自分でリビジョンをコントロールするというよりは、単純にバックアップという機能に近いです。ブラウザでやっている以上、不測の事態が起こりがちなので、最低限この機能は保障されているのはうれしいところですね。
github
githubの統合は以下の手順で可能です。
https://docs.databricks.com/user-guide/notebooks/github-version-control.html
1) githubアクセストークンを得る
2) DataBricks側でaccess tokenを入力する
[User Setting]メニューに項目があります。
3) notebookでgitをリンク
先ほどのRevision historyタブのところにGitのリンクボタンがあるので押して、リポジトリを設定します。
4) マニュアルでrevision historyにセーブ
Commitしたい場合は、自動では行われないのでRevision HistoryにマニュアルでセーブするSave nowボタンを押します。
コメントが求められるので、その下の"Also commit to Git"チェックボックスをONにすることでGitへのcommitを同時に行います。
Azure DevOps (VisualStudio Online)
ADOに対するリンクは簡単です。
以下のようにgitプロバイダとしてAzure DevOpsを選択するだけです。同じAzure ADを使っている場合はクリデンシャルの再登録は必要無いようです。