Comprehensive Guide to Optimize Data Workloads | DatabricksのセクションDelta Live Tables (DLT)の翻訳です。
- 本書は著者が手動で翻訳したものであり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
- 2023年時点の内容です。一部情報が古いものがあります。
Delta Live Tables(DLT)によって、Databricksのレイクハウスプラットフォームで高品質なデータをデリバリーする、高信頼のバッチとストリーミングデータパリプラインの構築と管理を容易にします。
DLTは、宣言型パイプライン開発、自動データテスト、監視と復旧のための深い可視性によって、データエンジニアリングがETL開発や管理をシンプルにする手助けをします。
データパイプラインの構築と維持を容易に
Delta Live Tablesによって、SQLやPythonでエンドツーエンドのデータパイプラインを容易に定義します。サイロ化されたデータ処理ジョブを手動で繋ぎ合わせるのではなく、シンプルにデータソース、変換ロジック、データの目的の状態を指定します。パイプラインにおける全てのデータの依存関係を自動で維持し、環境から独立したデータ管理によってETLパイプラインを再利用します。バッチあるいはストリーミングモードで処理を行い、それぞれのテーブルに対してインクリメンタルかコンプリートな処理かを指定します。
自動のデータ品質テスト
Delta Live Tablesは、後段のユーザーに高品質なデータを提供することで、高精度で有用なBI、データサイエンス、機械学習を確実なものにする助けとなります。事前に定義したエラーポリシー(失敗、削除、警告、データの検疫)でデータ品質エラーを回避し、検証や一貫性チェックを通じて不適切なデータがテーブルに流れ込むことを回避します。さらに、あなたのデータがどのように進化しており、どこで変更が必要になるのかに関する洞察を得るために、データ品質の時間変化を監視することができます。
効率的な計算資源のオートスケーリングを通じたコスト効率の高いストリーミング
Delta Live Tablesの強化オートスケーリングは、変動が激しく予測できないストリーミングワークロードに対応するために設計されています。エンドツーエンドのSLAを維持しつつも、必要なノード数にのみスケールアップし、不必要な出費を避けるために使用率が低いノードを安全にシャットダウンすることで、クラスターの使用率を最適化します。
パイプラインの監視と観測可能性に対する深い可視性
オペレーションの統計情報とデータリネージをビジュアルで追跡するためのツールを用いて、パイプラインのオペレーションに対する深い可視性を獲得します。自動エラーハンドリングと容易な再実行でダウンタイムを削減します。シングルクリックでのデプロイメントとアップグレードでメンテナンスをスピードアップします。
- DLTは、クラスター、オートスケール、失敗時のリトライ、そのほかの調整をバックグラウンドで行いつつも、ユーザーがビジネスロジックの記述にフォーカスできるようにするマネージドのETLフレームワークです。このため、ユーザーがSparkのチューニングやクラスターの設定やチューニング(こちらのセクションをご覧ください)、Deltaのメンテナンスタスクなどに気を取られることのないように、可能な限りデータエンジニアリングのワークロードでDLTを使うことをお勧めします。