こちらで説明しているdbx sync
の使用法をウォークスルーします。
ここでは、同期先をDatabricks Repos、同期元のソースコードはVSCodeで操作します。GitプロバイダーはGitHubです。全体のフローは以下のようになります。dbx sync
を起動することで、ローカルでのファイルの変更がリアルタイムでDatabricks Reposに同期されます。なお、Gitプロバイダーのリポジトリに対しては別途コミット&プッシュが必要です。
こちらの手順に従って、dbxの設定を完了しておきます。
Gitリポジトリの準備
- Databricks ReposがサポートしているGitプロバイダーでリポジトリを作成します。ここでは
taka-yayoi
というリポジトリとしています。
- Databricks Reposで上記リポジトリを追加します。
- ローカルマシンでGitリポジトリをクローンします。
dbx sync
の起動
-
ターミナルでクローンしたGitリポジトリのルートディレクトリに移動します。
-
以下のコマンドを実行して
dbx sync
を起動します。Bashdbx sync repo -d taka-yayoi --source .
注意
[SSLCertVerificationError: (1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed...
というエラーが出る場合には、こちらを参考に.databrickscfg
ファイルにinsecure = True
を追加してください。 -
コマンドを停止しない限り、監視と同期は継続されます。
VSCodeでの操作
-
ローカルマシンでクローンしたGitリポジトリのルートディレクトリでVSCodeを起動します。
Bashcode .
Reposでの確認
DatabricksワークスペースでReposにアクセスするとファイルが追加されているのを確認することができます。
ファイルをクラスターにアタッチすることでコードを実行することも可能です。
最後にReposの内容をGitHubにコミット&プッシュしておきます。
まとめ
dbx sync
を用いることで、IDEの高度な編集機能とDatabricksの計算資源やワークフローの機能をうまく組み合わせることができます。ぜひご活用ください。