背景・目的
DatabricksのGitフォルダーについて特徴を整理し、試してみます。
まとめ
下記に特徴をまとめます。
特徴 | 説明 |
---|---|
Gitフォルダーとは | ・DatabricksのビジュアルGitクライアント ・API |
Gitフォルダーでサポートする内容 | ・クローン ・コミット ・プッシュ ・プル ・ブランチ管理 ・コミット時の差分の視覚的比較 |
概要
Databricks Git フォルダーと Git の統合を基に整理します。
Databricks Git フォルダーは、Databricks のビジュアル Git クライアントおよび API です。 リポジトリのクローン作成、コミットとプッシュ、プル、ブランチ管理、コミット時の差分の視覚的比較などの一般的な Git 操作をサポートします。
- Gitフォルダーとは、下記を指す
- DatabricksのビジュアルGitクライアント
- API
- 下記をサポートする
- クローン
- コミット
- プッシュ
- プル
- ブランチ管理
- コミット時の差分の視覚的比較
Git フォルダー内では、ノートブックまたはその他のファイルでコードを開発し、バージョン管理、コラボレーション、CI/CD に Git を使用したデータサイエンスおよびエンジニアリング コード開発のベスト プラクティスに従うことができます。
- Gitフォルダー内は、ノートブックまたはその他のファイルでコード開発する
- バージョン管理、コラボレーション、CI/CDにGitを使用したデータサイエンスおよびエンジニアリングコード開発のベストプラクティスに従う事が可能
Databricks Git フォルダーで何ができるでしょうか?
Databricks Git フォルダーは、Git プロバイダーと統合することで、データおよび AI プロジェクトのソース管理を提供します。
Databricks Git フォルダーでは、Git 機能を使用して次のことを行うことができます。
- リモートGitリポジトリのクローン作成、プッシュ、プルを行います。
- マージ、リベース、競合の解決などの開発作業のためのブランチの作成と管理を行います。
- ノートブック (IPYNB ノートブックを含む) を作成し、それらと他のファイルを編集します。
- コミット時に相違点を視覚的に比較し、マージの競合を解決します。
- Gitプロバイダーと統合することで、データおよびAIプロジェクトのソース管理を提供する
- リモートGitリポジトリのクローン作成、Push、Pull
- Merge、rebase、競合の解決などの開発作業のためのブランチの作成と管理
- ノートブックを作成し、それらと他のファイルを編集
- コミット時に相違点を視覚的に比較し、マージの競合を解決する
サポートされているGitプロバイダー
Databricks Git フォルダーは、統合された Git リポジトリによってサポートされます。 リポジトリは、次のセクションにリストされているクラウドおよびエンタープライズ Git プロバイダーのいずれかでホストできます。
- Gitフォルダーは、統合されたGitリポジトリによりサポートされる
クラウド Databricks がサポートする Git プロバイダー
- GitHub、GitHub AE、および GitHub Enterprise クラウド
- Atlassian Bitbucket クラウド
- GitLab と GitLab EE
- Microsoft Azure DevOps (Azure repo)
- AWS CodeCommit
Databricks でサポートされているオンプレミスの Git プロバイダー
- GitHub エンタープライズ サーバー
- アトラシアン Bitbucket Server および Data Center
- GitLabセルフマネージド
- Microsoft Azure DevOps Server
PAT の代わりに Databricks GitHub アプリを使用する理由
Databricks Git フォルダーを使用すると、ホストされた GitHub アカウントを使用している場合、PAT の代わりにユーザー認証に Databricks GitHub アプリを選択できます。 GitHub アプリを使用すると、PAT に比べて次の利点があります。
- ユーザー認証には OAuth 2.0 を使用します。 OAuth 2.0 repo トラフィックは、強力なセキュリティのために暗号化されています。
- 統合が容易で(下記のステップを参照)、トークンを個別に追跡する必要がありません。
- トークンの更新は自動的に処理されます。
- 統合のスコープを特定のアタッチされた Git repoにすることができ、アクセスをよりきめ細かく制御できます。
- Gitフォルダーを使用すると、ホストされたGitHubアカウントを使用している場合、PATの代わりにユーザに認証にGitHubアプリを選択できる
- GitHubアプリの利点
- ユーザ認証にOAtuth2.0
- 統合が容易
- トークンの更新は自動的に処理される
- 統合のスコープを特定のアタッチされたGit repoにすることが可能。アクセス制御を細かくできる
実践
Git 資格情報を構成し、リモート リポジトリを Databricksに接続する
Git 資格情報を構成し、リモート リポジトリを Databricksに接続するを元に試します。
Databricks GitHub アプリを使用して GitHub アカウントをリンクする
-
Databricksにサインインします
-
「Linked accounts」をクリックします
1.Git providerに、①「GitHub」、②「Link Git account」を選択し、 「Link」をクリックします
Databricks GitHub アプリをインストールして構成し、リポジトリへのアクセスを許可する
Databricks Git フォルダーからアクセスする GitHub リポジトリに Databricks GitHub アプリをインストールして構成できます。 アプリのインストールの詳細については、 GitHub ドキュメントを参照してください。
- GitフォルダーからアクセスするGitHubリポジトリにDatabricks GitHubアプリをインストールし、操作ができる
- Databricks GitHub アプリのインストール ページを開きます
- リポジトリを選択し、「Install」をクリックします
- インストールすることで、コードへの読み書きアクセスが許可されます
Databricks Git フォルダーで Git 操作を実行する ( Repos )
Databricks Git フォルダーで Git 操作を実行する ( Repos )を基に試します。
リモート Git リポジトリに接続されたリポジトリのクローンを作成する
-
ナビゲーションペインで、「Workspace」をクリックします
-
下記を入力し、「Create Git folder」をクリックします
新しいブランチを作成する
コミット〜プッシュ
考察
今回、DatabricksのGit統合を試してみました。Notebookでコードを書いて共有する場合は、コード管理する場合に有用そうです。
参考