What's new in Workflows? | Databricks Blogの翻訳です。
本書は著者が手動で翻訳したものであり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
Databricks Workflowsは、世界中の数千の企業の重要なデータとAIのワークロードを強化するオーケストレーションエンジンとして機能するDatabricksデータインテリジェンスプラットフォームにおける基盤です。このことを踏まえ、Databricksでは、モダンなデータエンジニアリングやAIプロジェクトの進化し続ける要件に応えるため、ワークフローの改善に投資を続けています。
今年の夏には、Databricksワークフローに対する革新的な機能やエンハンスメントを明らかにしたData + AI Summitを開催しました。Data + AI Summitで発表された最新のアップデートには、データ駆動のトリガー、AIアシストのワークフロー作成、SQLインテグレーションの強化が含まれており、これらすべては、信頼性、スケーラビリティ、使いやすさの改善を狙いとしています。また、管理の自動化のためにPyDABs やTerraformのようなinfrastructure-as-codeを導入し、シームレスでスケーラブルなオーケストレーションを確実にするためのワークフロー向けサーバレスコンピュートの正式提供を発表しました。2024年においては、コントロールフローオプションの拡張、行動なトリガー機構、新たな統合LakeFlowソリューションの一部として、ワークフローのLakeFlowジョブへの進化のようなさらなる進化をもたらすことになるでしょう。
この記事では、これらの発表を再訪問し、ワークフローの次に来るものを探索し、これらの機能をすぐに活用するにはどうしたらいいのかをガイドします。
Databricksワークフローの最新の改善点
過去一年において、オーケストレーションの機能を向上させるために70以上の新機能がDatabricksワークフローに導入され、Databricksワークフローの変革が行われました。キーとなるハイライトのいくつかを以下に示します:
データ駆動のトリガー: 必要としたときに正確なものを
- テーブルとファイルの到着トリガー: 不要な実行を削減しつつ、データの新鮮度を保つためには、従来の時間ベースのスケジューリングは不十分でした。我々のデータ駆動のトリガーによって、新たなデータが利用できるようになった際に、あなたのジョブが正確に実行されるようになります。あなたのテーブルが更新されたのか(プレビュー中)、新たなファイルが到着したのか(正式提供)をチェックし、必要な際には計算資源とあなたのワークロードを起動します。これによって、必要な時だけリソースを消費し、コストとパフォーマンスを最適化し、データが新鮮であることを確実なものにします。特にファイル到着トリガーに関しては、以前存在していたワークフローがモニターできるファイルの数の制限を撤廃しています。
- 定期的なトリガー: 定期的なトリガーによって、cronのスケジュールを気にする必要なしに週次や日時のような定期的な間隔でジョブの実行をスケジュールすることができます。
AIアシストのワークフロー作成: 全てのステップにインテリジェンスを
- AI支援によるcron構文の生成: 複雑なcron構文が必要となる際には特に、ジョブのスケジューリングはうんざりするものとなります。Databricksアシスタントは、シンプルな言語の入力によって正しいcron構文を提案することでこのプロセスをシンプルにし、全てのレベルのユーザーがアクセスできるようになりました。
- デバッグのためにAIアシスタントと連携: Databricksアシスタントは直接ワークフローの中で使えるようになりました(プレビュー)。ジョブ実行の過程でエラーが生じた際にはオンラインヘルプを提供します。ノートブックの失敗や不適切なタスクのセットアップのような問題に直面した際、Databricksアシスタントは、問題をクイックに特定し修正するための、特定かつアクション可能なアドバイスを提供します。
大規模ワークフローの管理
- ジョブあたり1,000タスク: データワークフローがより複雑になると、オーケストレーションのスケール要件は重要になります。Databricksワークフローでは、単一のジョブで最大1,000のタスクをサポートするようになり、最も複雑なデータパイプラインのオーケストレーションであっても実現できるようになりました。
- お気に入りのジョブやタグによるフィルタリング: ワークフロー管理をスムーズにするために、ユーザーはお気に入りやジョブに適用したタグでジョブをフィルタリングできるようになりました。これによって、"Financial analysts"とタグ付けされたあなたのチームのジョブをクイックに特定することができます。
- タスクバリュー選択を容易に: UIではタスクバリューに対する強化オートコンプリーションを提供するようになり、手動入力によるエラーなしにタスク間の情報の共有が容易になりました。
- 説明文: 説明文によって、ワークフローの文書化を行うことができ、チームではクイックにジョブを理解、デバッグできるようになります。
- クラスターのデフォルトの改善: インタラクティブな開発から実行のスケジュールに移行する際の互換性を改善し、コストを削減するために、ジョブクラスターのデフォルトを改善しました。
オペレーションの効率性: パフォーマンスとコストの最適化
- コストとパフォーマンスの最適化: ワークフローの新たなタイムラインビューとクエリーの洞察は、あなたのジョブのパフォーマンスに関する詳細情報を提供し、スピードとコスト効率性の両面で、ボトルネックを特定し、あなたのワークフローを最適化することができます。
- コストの追跡: あなたのワークフローのコストに関する示唆の理解は、予算管理とリソース使用率の最適化において重要となります。ワークフローのシステムテーブルを導入することで、それぞれのジョブのコストの時間変化を追跡し、トレンドを分析し、コスト削減の機会を特定することができます。また、我々はシステムテーブルをベースとしたダッシュボードを構築しており、これをワークスペースにインポートし、容易にカスタマイズすることができます。これらは、"先月最もコストを要したジョブはどれか?"や"どのチームで予算を超えそうか?"というような質問に対する答えを得る助けとなります。また、これらに対する予算やアラートを設定することができます。
強化されたSQLインテグレーション: SQLユーザーにさらなるパワーを
- SQLにおけるタスクバリュー: SQL実践者は、あるSQLタスクの結果を以降のタスクで活用できるようになります。この機能によって、あるクエリーのアウトプットが次のロジックに直接影響を与えることができる、動的かつ適応型のワークフローを実現し、複雑なデータ変換処理を円滑にします。
- マルチSQLステートメントのサポート: 単一のタスクにおける複数SQLステートメントをサポートすることで、Databricksワークフローは、SQLドリブンのパイプラインの構築における多大なる柔軟性を提供します。このインテグレーションによって、コンテキストやツールを切り替えることなしに、より洗練されたデータ処理を可能にします。
ワークフロー、DLT、ノートブックのサーバレスコンピュート
- ワークフロー向けサーバレスコンピュート: DAISでのノートブック、ワークフロー、Delta Live Tables向けのサーバレスコンピュートの正式提供を発表できたことに興奮を覚えています。これらの機能はほとんどのDatabricksリージョンでロールアウトされており、あなたのワークフローにおけるパフォーマンスにフォーカスした高速な起動時間、スケーリング、インフラストラクチャ管理からの解放といったメリットを提供します。サーバレスコンピュートは、複雑な設定の必要性を排除し、クラシックなクラスターよりも管理が非常に簡単です。
Databricksワークフローの次の新機能は?
先を見通すと、2024年はDatabricksワークフローにおけるさらなる前進を示す一年となることでしょう。この水平線の先にあるエキサイティングな機能エンハンスをちょっと見てみましょう:
ワークフロー管理の整流化
Databricksワークフローの今後のエンハンスは、複雑なワークフローの管理における明確さと効率性にフォーカスしています。これらの変更は、ジョブのタスクの構成、自動化、再利用に対する新たな方法を導入することで、ユーザーがより簡単に洗練されたデータパイプラインを整理、実行できるようにすることを狙いとしています。全体的な意図は、複雑なデータプロセスのオーケストレーションをシンプルにすることであり、ワークフローがスケールしたとしても、自分たちのワークフローをより効果的に管理できるようにするということです。
サーバレスコンピュートの強化
サーバレスコンピュートによって容易にメリットを享受できるワークロードの特定を容易にするために、互換性チェックを導入する予定です。また、サーバレスコンピュートにユーザーの移行を支援するために、Databricksアシスタントのパワーを活用する予定です。
Lakeflow: データエンジニアリングの統合かつインテリジェントなソリューション
サミットでは、LakeFlow Connect(取り込み)、Pipelines(変換処理)とJobs(オーケストレーション)から構成される統合データエンジニアリングソリューションであるLakeFlowを紹介しました。ここで議論したオーケストレーションの改善の全ては、ワークフローがLakeFlowのオーケストレーションのピースであるLakeFlow Jobsに進化する過程で、この新たなソリューションの一部となります。
すぐに最新のワークフロー機能をトライしましょう!
皆様に、Databricksワークフローのパワフルな新機能を体験していただけたら幸いです。スタートするには:
- Databricksワークフローを探索する
- Databricksワークフローのデモを視聴する
- DAIS 2024のワークフローのプレゼンテーション
- ワークフローのサーバレスコンピュートのツアー
- AI時代におけるサーバレスデータエンジニアリング
- フリートライアルにサインアップ