Orchestrate Production dbt Projects on the Lakehouse With Databricks Workflows - The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
高信頼のレイクハウスオーケストレーターであるDatabricksワークフローがパブリックプレビューとしてdbtプロジェクトのサポートを発表できることを嬉しく思います。このプレビューによって、データチームはdbtプロジェクトと、ノートブックからMLモデルに至るレイクハウスのすべての機能をコーディネートすることができるようになります。この機能によって、オープンソースdbtユーザーによるSQLを用いたデータの変換、レイクハウスを通じたデータとMLのパイプラインのモニタリング、メンテナンスがシンプルなものとなります。
ジョブを実行する際、あなたのdbtプロジェクトはGitリポジトリから収集され、シングルノードのクラスターが構築され、dbt-coreとプロジェクトの依存関係がそこにインストールされます。dbtによって生成されたSQLはサーバレスSQLウェアハウスで実行され、容易なデバッグと優れたパフォーマンスを提供します。また、失敗したランのリペアや、dbtタスクが失敗した際にSlackやwebhookの宛先へのアラート送信、言うまでもないことですが、Jobs APIを通じたこの様なジョブの管理機能など堅牢かつオペレーションに関する機能も提供しています。
Databricksでdbtを使い始めるには、シンプルにDatabricksでpip install dbt-databricks
を実行します。これによって、dbt Labsとその他のコントリビューターと開発したオープンソースのdbt-databricks packageがインストールされます。SQLウェアハウスで実行できるサンプルプロジェクトを使い始めるために詳細ガイドを参考にすることもできます。ソースコードをGitリポジトリにコミットすると、プロダクションでdbtモデルを実行するための新たなdbtタスクタイプを使用できる様になります(Azure、AWSのドキュメントをご覧ください。GCPも間も無く提供されます)。この機能はサーバレスSQLウェアハウス(Azure、AWS)をサポートしているすべてのリージョンで利用できます。
Databricksワークフローにおけるdbtの機能について我々は興奮しています。更なるリージョンにこのプレビューを拡大し、更なる計算オプションを提供できることを楽しみにしています。dbt CoalesceにおけるDatabricksブースで皆さまとお話しできることを楽しみにしています。同時に、この新機能に対する皆様のフィードバックをお聞かせいただければと思います。