こちらで説明しているdbx syncの使用法をウォークスルーします。
ここでは、同期先をDatabricks Repos、同期元のソースコードはVSCodeで操作します。GitプロバイダーはGitHubです。全体のフローは以下のようになります。dbx syncを起動することで、ローカルでのファイルの変更がリアルタイムでDatabricks Reposに同期されます。なお、Gitプロバイダーのリポジトリに対しては別途コミット&プッシュが必要です。

こちらの手順に従って、dbxの設定を完了しておきます。
Gitリポジトリの準備
- Databricks ReposがサポートしているGitプロバイダーでリポジトリを作成します。ここでは
taka-yayoiというリポジトリとしています。
- Databricks Reposで上記リポジトリを追加します。
- ローカルマシンでGitリポジトリをクローンします。
dbx syncの起動
-
ターミナルでクローンしたGitリポジトリのルートディレクトリに移動します。
-
以下のコマンドを実行して
dbx syncを起動します。Bashdbx sync repo -d taka-yayoi --source .注意
[SSLCertVerificationError: (1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed...というエラーが出る場合には、こちらを参考に.databrickscfgファイルにinsecure = Trueを追加してください。 -
コマンドを停止しない限り、監視と同期は継続されます。
VSCodeでの操作
-
ローカルマシンでクローンしたGitリポジトリのルートディレクトリでVSCodeを起動します。
Bashcode .
Reposでの確認
DatabricksワークスペースでReposにアクセスするとファイルが追加されているのを確認することができます。


ファイルをクラスターにアタッチすることでコードを実行することも可能です。

最後にReposの内容をGitHubにコミット&プッシュしておきます。

まとめ
dbx syncを用いることで、IDEの高度な編集機能とDatabricksの計算資源やワークフローの機能をうまく組み合わせることができます。ぜひご活用ください。




