The dbt Cloud + Databricks experience is getting even betterの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
dbt Cloudで専用のdbt-databricksアダプターが利用できます。
dbt-databricksアダプターの提供
2021/12/6はdbtとDatabricksのユーザーにとって偉大な日になりました。我々の業界カンファレンスCoalesce 2021の初日であるだけではなく、dbt Coreで使用できる専用のdbt-databricksアダプターをDatabricksがリリースした日でもありました。Databricksチームはdbt Labsと連携して、dbt Labsのdbt-sparkアダプターが提供する基盤の上に構築し、いくつかの重要な改善を行いました。新たなアダプターは:
- セットアップが簡単であり、
- Databricksに適したデフォルト設定がされており、最も重要なこととして、
- Unity Catalogをサポートしています。これは、dbtバージョン1.1以降と互換性があります。
Databricks共同創始者であるAli Ghosdiによる強力なコミットによって、dbtコミュニティ新たなアダプターが利用できる様になりました。
これらの見慣れないアダプターは、dbtが固有のウェアハウス、データレイク、クエリーエンジンに接続、処理できる様にすることを目的として設計されており、これは全体のワークフローにおいて重要なコンポーネントとなっています。
dbt Cloudにおけるdbt-databricksアダプター利用開始の発表
しばらくの間、我々はdbt-databricksアダプターに興奮していましたが、今ではdbt Cloudでも利用できる様になったことを発表できて、さらに興奮しています!
dbt Cloudは、dbtプロジェクトを開発、デプロイするための最も簡単かつ信頼できる手段です。より強力なすべてのパワーを提供しつつも、複雑性を取り除く役に立ちますので、DatabricksのUnity Catalogのサポートとより適したデフォルトのモデル設定によって、よりシンプルになったDatabricks接続体験を提供できることに興奮しています。
これは、dbt-sparkアダプタとdbt Cloudを既に使用している数百のDatabricksのお客さまにとっては素晴らしいニュースです。更なる価値を解放するために、自分等の接続設定をdbt-databricksに移行することができます。Databricksチームは今後もこのアダプターをメンテナンス、改善していくことにコミットしているので、dbtとDatabricksのベストな部分を提供する統合体験を確実にすることができます。
dbt-databricksは、機能性の違いはありますが、dbt Cloudで以下のバージョンのdbt Coreとの互換性があります。
dbtバージョン | 利用可能な機能 |
---|---|
1.3 (all) | dbt-databricksの容易なセットアップ、優れたデフォルト設定、Unity Catalog、Pythonモデルのサポート |
1.2 (all) | dbt-databricksの容易なセットアップ、優れたデフォルト設定、Unity Catalog |
1.1 (all) | dbt-databricksの容易なセットアップ、優れたデフォルト設定、Unity Catalog |
1.0 (all) | dbt-databricksの容易なセットアップ、優れたデフォルト設定 |
移行プロセスを容易にするために、現時点ではdbt Cloudはdbt-sparkとdbt-databricksの両方から接続することができます。最終的にはdbt-spark経由でのDatabricks接続は廃止される予定です。すべてのプロジェクトがdbt-databricksで作成されるか、移行されることをお勧めします。dbt Cloudにおけるdbt-spark経由でのSparkへの接続は維持される予定です。
dbt-databricksの利点
それでは、なぜ我々はそんなにdbt-databricksに興奮しているのでしょうか?そして、すでにdbt Cloudで利用できるsparkアダプターとの違いは何でしょうか?メリットには以下が含まれます:
-
セットアップが容易
Databricksへの接続はシンプルなものではありませんでした。入力する必要があるのは:
- Databricksワークスペースのサーバーホスト名
- Databricks SQLウェアハウスあるいはクラスターのHTTPパス
- 適切な認証情報
これによって、Databricksに接続する際にdbt-sparkを用いるよりも劇的にすっきりしたものとなっています。
-
優れたデフォルト設定
dbt-databricksアダプターは優れたデフォルト値を持ち、かつ、より明確になっており、ユーザーは少ない労力で素晴らしい体験を得られる様にガイドしています。dbt-databricksの設計時の選択内容にいは以下が含まれます:
- Deltaフォーマットがデフォルト
- インクリメンタルモデルでの
merge
の使用 - ユニークキーの生成の様な高コストなクエリーではPhotonを使用
-
Unity Catalogのサポート
Unity CatalogによってDatabricksユーザーは、すべてのデータ資産を集中管理し、アクセス管理をシンプルにし、検索やクエリー性能を改善することができます。今ではDatabricksユーザーは、カタログ、スキーマ、モデル名の3つのデータ階層を使用することができ、データの整理やガバナンスにおける長期手な摩擦点を解決することができます。
dbt Cloudにおける信頼できるアダプターのエクスペリエンス
dbt Coreが様々なウェアハウスに接続できるようにするオープンソースのdbtアダプターは多数存在しています。アダプターのいくつかはdbt Labsによってメンテナンスされておりdbt Cloudから利用することができます。その他のアダプターは、ベンダーパートナーや自身の成果を他人と共有したいと考えるコミュニティの良きサマリア人によってメンテナンスされています。想像できる様に、オープンソースのdbtアダプターの品質にはばらつきがあり、残念なことに、我々ではすべてが信頼できる体験を提供していることを検証できてはいません。
これまでは、dbt Cloudで利用できるすべてのアダプターはdbt Labsによって開発されたものでしたが、本日、Databricksチームによるアダプターを皮切りとして、dbt Labsによる検証が行われるパートナーがメンテナンスするアダプターをdbt Cloudで利用できる様にする第一歩を踏み出しました。我々は、dbtとDatabricksにおいて信頼できるファーストクラス体験として、この新たなアダプターが我々のバーを満足していることを確実にするために時間を費やしており、より多くのアダプターが同様のバーを満足できる様にするために、パートナーとより密接に取り組んでいくつもりです。これは、お客さまがdbt Cloudに期待することに対する大きな一歩です。dbt Cloudにおけるアダプターのメニューを拡張するために、データプラットフォームやdbt Cloudのお客様から非常に大きな興味が寄せられており、向こう数ヶ月を通じて、皆さまが今感じられている保証はそのままに、さらなる選択肢を提供する予定です。