Introduction to Delta Lake | Databricks on AWS [2022/1/23時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
有用なデータドリブンによる意思決定を行うための重要な条件の一つは、背後にあるデータストアの構造、アクセス容易性、品質です。このため、すべてのエンドユーザーのデータアクセスに対する適切な戦略を持つことが重要になります。
このような戦略の一つの観点は、Delta Lakeによって提供されるようなデータストレージフォーマットとなります。
Delta Lakeとは?
Delta LakeはDatabricksレイクハウスアーキテクチャの鍵となるコンポーネントです。Deltaテーブルフォーマットは、大規模エンタープライズレイクハウスで広く使われている標準となっています。別のオープンソースフォーマットであるParquetをベースとしており、Delta Lakeはさらなる頑健性、スピード、バージョン管理、データウェアハウスのようなACID準拠のような高度な機能を提供します。これは、既存の安価なblobストレージサービスを用いることによるコストメリットに追加されるものとなります。
DatabricksにはDelta Lakeのビルトインサポートがあり、最新のDatabricksランタイムには、さらにスピードと性能を改善するパフォーマンスのエンハンスメントが含まれています。
Delta Lakeとその機能に関するプレゼンテーションやディスカッションに関しては、Making Apache Spark better with Delta Lakeをご覧ください。
Delta LakeとDelta Live Tablesによるデータパイプライン
全体的なデータ戦略を分解すると、Delta Lakeで構築されたデータパイプラインは、レイヤー分けされたマルチホップの戦略に従うことになります。これは、生データ(ブロンズレベル)に対するデータクレンジング、データ変換の処理がされた状態(シルバーレベル)、最も処理され、ビジネスに活用できるテーブル(ゴールドレベル)に至る連続的なパターンとなります。
このアプローチに関する全体的な検証に関しては、プレゼンテーションSimplify and Scale Data Engineering Pipelinesをご覧ください。
また、Databricksには高信頼、メンテナンス可能、テスト可能なデータ処理パイプラインを構築するためのパワフルなフレームワークであるDelta Live Tablesが含まれています。お手元のデータに対する変換処理を定義することができ、Delta Live Tablesはタスクオーケストレーション、クラスター管理、モニタリング、データ品質、エラーハンドリングを管理します。
一連の別々のApache Sparkタスクを用いてデータパイプラインを定義するのではなく、Delta Live Tablesはそれぞれのステップで定義したターゲットスキーマに基づいてデータの変換を行います。
イントロダクションに関しては、Delta Live Tablesクイックスタートをご覧ください。
概要とクイックスタート
Delta LakeとDelta Live Tablesを使い始めるには、以下をご覧ください。