How to Orchestrate Data and ML Workloads at Scale - The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
Databricksワークフローは、データ、分析、AIのための完全マネージドのオーケストレーターです。本日、最も需要のあるデータとML/AIのワークロードを容易にクラウドに導入できるようにする幾つかのエンハンスメントを発表できることを嬉しく思っています。
ワークフローは、主要な複数のクラウドプロバイダー: GCP、AWS、Azureに対して高い信頼性を提供します。これまでは、Databricksワークスペースで管理できるジョブの数は1000(これはプランによって異なります)に限定されていました。このプラットフォームの制限を回避するために、お客様は多くのデータ、ML/AIワークロードを別のワークスペースのジョブに割り振らなくてはなりませんでした。本日、この制限を10,000にまで大幅に引き上げられることを発表できて嬉しく思っています。新たなプラットフォームの制限は全てのお客様のワークスペースに自動で適用されます(シングルテナントは除きます)。
多くのお客様は、CI/CDシステムを含む自分達のアプリケーションからジョブを作成、管理するためにJobs APIを活用しています。ジョブの制限の増加とともに、高速かつページネーションされたバージョンのjobs/list APIを導入し、ジョブのページにページネーションを追加しました。
ページネーションを伴うジョブのリスト
また、ワークスペースの制限の引き上げによって、名称、タグ、ジョブIDによる検索を可能とする整理された検索体験も提供します。
名称、タグ、ジョブIDによる検索
まとめると、新機能によってワークスペースを大量なジョブにスケールさせることができます。上述した機能の変化が望ましくないようなレアケースにおいては、Adminコンソールから古い挙動に戻すことが可能です(最大3000ジョブを持つワークスペースのみで可能です)。特に数千のジョブを保存しているワークスペースにおいては、ジョブの一覧を取得するためにこの新しいページめくりバージョンのAPIに切り替えることを全てのお客様に強くお勧めします。
Databricksワークフローを使い始めるには、Databricksジョブのクイックスタートをご覧ください。また、体験したことや知りたい他の機能に関してフィードバックがあれば是非お知らせください。
詳細はこちら