Introducing Databricks Workflows - The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
訳者注
これまでDatabricksジョブと呼ばれていた機能がDatabricksワークフローという名称に変わりました。サイドメニュー上の名前もジョブからワークフローに変更されています。
データ、分析、AIに対する信頼性のあるオーケストレーション
本日、我々はDatabricksレイクハウスプラットフォームと深くインテグレーションされている完全マネージドなオーケストレーションサービスであるDatabricksワークフローをご紹介できることを嬉しく思っています。ワークフローを用いることで、データエンジニア、データサイエンティスト、アナリストは複雑なインフラストラクチャを管理する必要なしに、信頼性のあるデータ、分析、MLワークフローを構築することが可能となります。結果として、皆様のビジネスにおける取り組みにおけるタイムリー、正確、そしてアクション可能な洞察を得るために、全てのユーザーが支援を受けることが可能となります。
レイクハウスを用いることで、野心的なデータ&AIの取り組みを実行することがとても簡単になります。しかし、複雑な外部ツール(Apache Airflowなど)やクラウド固有のソリューション(Azure Data Factory、AWS Step Functions、GCP Workflowなど)を必要とする本格運用ワークフローのオーケストレーションと管理が、多くの企業にとってのボトルネックとなっています。これらのツールは背後にあるデータ処理プラットフォームとは別にタスクのオーケストレーションを行うため、観測可能性を制限し、エンドユーザーにとっての全体の複雑性を増加させます。
Databricksワークフローは、全てのデータ、分析、AI要件に対する完全マネージドなオーケストレーションサービスです。背後のレイクハウスプラットフォームとの密連携により、エンドユーザーに対して深くかつ集中管理されたシンプルなモニタリングを提供しつつも、任意のクラウドで信頼性のあるプロダクションのワークフローを作成、実行することを保証します。
あらゆるものをオーケストレート
ワークフローを用いることで、ユーザーはDelta Live Tablesを用いてデータ取り込み、リネージュ(依存関係)を含む自動で管理されるETLパイプラインを構築することが可能となります。また、他システムの呼び出しを含むジョブワークフローとして、ノートブック、SQL、Spark、機械学習モデル、dbtを組み合わせたオーケストレーションが可能となります。ワークフローはGCP、AWS、Azureで利用可能なので、完全な柔軟性とクラウドに対する独立性を手に入れることができます。
高信頼かつ完全マネージド
徹底的に高い信頼性を提供するために設計されており、全てのワークフローとワークフローに含まれる全てのタスクは分離されており、他のチームの作業に影響を与えることを心配することなしに、異なるチームがコラボレーションすることが可能となります。クラウドネイティブなオーケストレーターとして、ワークフローが皆様のリソースを管理するので、皆様がリソースを管理する必要はありません。すでに数千のお客様がワークフローを用いて日次ベースかつマルチクラウドで数百万のマシンによる処理を起動しており、皆様は自身のいかなるサイズのデータを活用するためにワークフローを頼りにすることができます。
全てのユーザーによるシンプルなワークフロー作成
Databricksワークフローを開発する際、我々はいかなるユーザー、データエンジニア、アナリストが、複雑なツールを理解したり、ITチームに依頼したりする必要がないように、シンプルなものにしたいと考えました。レコメンデーションを行うMLモデルのトレーニングを行うサンプルケースを考えてみます。ここでは、Auto Loaderを用いて注文データを取り込み、標準的なPythonコードでデータをフィルタリングし、モデルトレーニングとバージョンを管理するためにMLflowを用いたノートブックを使うためにワークフローが活用されます。データチームはこれらすべてをワークフローのUIを用いることで構築、管理、モニタリングすることが可能となります。高度なユーザーは、CI/CDのサポートも含む多彩な表現が可能なAPIを用いてワークフローを構築することもできます。
「Databricksワークフローを用いることで、我々のアナリストはインフラストラクチャを管理することなしに容易にデータパイプラインの作成、実行、モニタリング、修復が行えるようになりました。これによって、我々のクライアントに提供すべき洞察を生み出すETLプロセスの設計、改善における完全な自律性を手に入れることができました。我々はAirflowのパイプラインをDatabricksワークフローに移行できることを嬉しく思っています。」Anup Segu, Senior Software Engineer, YipitData
レイクハウスにインテグレーションされたワークフローモニタリング
皆様の組織でデータワークフロー、MLワークフローを作成するにつれて、追加のインフラストラクチャをデプロイすることなしに、これらを管理、モニタリングすることが不可欠となってきます。ワークフローは、Databricksにすでにあるリソースのアクセスコントロールとインテグレーションされており、部門、チームオーダンのアクセスを容易に管理することが可能です。さらに、Databricksワークフローには、オーナーやマネージャがクイックに問題を特定、診断できるように、ネイティブのモニタリング機能が含まれています。例えば、新たに導入されたマトリクスビューを用いることで、ユーザーはすぐに異常なワークフロー実行をトリアージすることができます。
すでに個々のワークフローはモニターされているので、Azure Monitor、AWS CloudWatch、Datadog(現在プレビュー)のような既存モニタリングソリューションとインテグレーションすることも可能です。
「Databricksワークフローはルーチンのワークフロー実行におけるロジスティクス対応に必要な時間を解放してくれました。新たに実装されたリペア/リラン機能によって、問題を修正した後に、修正前にすでに完了しているステップを再実行することなしにジョブの実行を継続できるので、ワークフローのサイクルタイムを削減する助けとなりました。MLモデル、データストア、SQL分析ダッシュボードなどと組み合わせることで、我々のビッグデータパイプラインを管理するための完全なスイートを手に入れることができました。」Yanyan Wu VP, Head of Unconventionals Data, Wood Mackenzie – A Verisk Business
Databricksワークフローを使ってみる
完全マネージドかつレイクハウスとインテグレーションされたオーケストレーターが提供する生産性のブーストを体験するために、今日にでも最初のDatabricksワークフローを作成することをお勧めします。
Databricksワークスペースにログインし、再度メニューからワークフローを選択して作成します。最初のタスクを追加するために、UIのプロンプトの指示に従い、以降のタスクと依存関係を追加していきます。Databricksワークフローの詳細に関しては、Webページにアクセスいただくか、ドキュメントをご覧ください。
Databricksワークフローの使いやすさをご覧いただくには、以下のデモ動画をチェックしてみてください。