Orchestrate Production dbt Projects on the Lakehouse With Databricks Workflows - The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
Databricksワークフローにおけるdbtプロジェクトのオーケストレーションサポートの正式提供(GA)を発表できることを嬉しく思っています。パブリックプレビュー以来、数百のお客様がDatabricks SQLのデータをコラボレーティブに変換、テスト、ドキュメント化を行うためにdbtのインテグレーションを活用しています。
ワークフローにおけるdbtサポートによって、お使いのdbtプロジェクトがGitリポジトリから取得され、dbt-coreとプロジェクトの依存関係がインストールされたシングルノードクラスターが起動されます。dbtによって生成されたSQLはサーバレスSQLウェアハウスで実行され、容易なデバッグと優れたパフォーマンスを提供します。また、失敗したジョブの復旧や、dbtタスクが失敗した際にSlackやwebhookを通じたアラートの送信のような堅牢かつ運用向けの機能、Jobs APIを通じたログのようなdbtアーティファクトの取得やジョブの管理機能もあります。
GAによって、既存のサーバレスSQLウェアハウスのサポートに加えてSQL Proウェアハウスのサポートも追加しています。さらに、Databricks on Google Cloud Platform (GCP)でのサポートを発表できることを嬉しく思っています。dbtプロジェクトで定義された変換処理のリネージも自動でUnity Catalogで記録されます。最後になりますが、dbt-artifactsのようなdbtコミュニティのパッケージもDatabricksで動作するようになっています。
Databricksでdbtを使い始めるには、シンプルにpip install dbt-databricks
を実行するだけです。これによって、dbt Labsとその他のコントリビューターによって開発されたオープンソースのdbt-databricksパッケージがインストールされます。サンプルプロジェクトで利用を開始するには詳細なガイドを参照することができます。ソースコードをgitリポジトリにコミットすれば、プロダクション環境でご自身のdbtモデルを実行するためにDatabricksワークフローを活用することができます。(ドキュメントもご覧ください。[AWS | Azure| GCP])