1
1

More than 1 year has passed since last update.

Delta Lakeガイドのイントロダクション

Last updated at Posted at 2022-07-05

Introduction | Databricks on AWS [2022/5/23時点]の翻訳です。

本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

Delta Lakeデータレイクレイクハウスアーキテクチャの構築を可能にするオープンソースプロジェクトです。Delta LakeはACIDトランザクション、スケーラブルなメタデータハンドリング、既存のデータレイクでのストリーミングバッチデータ処理の統合を可能にします。

Delta Lakeのクイックなオーバービューとメリットに関しては、Youtubeをご覧ください(3分)。

特に、Delta Lakeは以下の機能を提供します。

  • SparkにおけるACIDトランザクション: シリアライズ可能なアイソレーションレベルによって、読み取り側で一貫性のないデータを参照することがなくなります。
  • スケーラブルなメタデータのハンドリング: 数十億のファイルから構成されるパタバイト規模の全てのメタデータを容易に取り扱うことができる、Sparkの分散処理のパワーを活用します。
  • ストリーミングバッチの統合: Delta Lakeのテーブルはバッチテーブルであるのと同時に、ストリーミングのソース、シンクでもあります。ストリーミングのデータ取り込み、バッチによる過去データのバックフィル、インタラクティブなクエリーすべてを簡単に実行できます。
  • スキーマ強制: データ取り込みの際に不正なレコードの挿入を防ぐために、自動でスキーマの変更をハンドリングします。
  • タイムトラベル: データのバージョン管理によって、ロールバック、完全な履歴の監査証跡、再現可能な機械学習エクスペリメントを実現します。
  • upsertdelete: チェンジデータキャプチャやSCD(slowly-changing-operation)オペレーション、ストリーミングによるupsertなど複雑なユースケースを実現するためのmerge、update、deleteオペレーションをサポートします。

Delta Lakeの一般的なイントロダクションとデモンストレーションに関しては、こちらのYoutubeをご覧ください(51分)。

Deltaエンジンによる最適化によって、Delta Lakeのオペレーションは非常に高性能なものとなり、大規模ETL処理からアドホックなインタラクティブなクエリーといった幅広いワークロードをサポートすることができます。Deltaエンジンに関しては、Optimizationsをご覧ください。

クイックスタート

Delta Lakeのクイックスタートでは、Delta Lakeの操作方法の基礎に関するオーバービューを提供します。クイックスタートでは、Delta Lakeへのデータのロード、テーブルの変更、テーブルの読み込み、テーブル履歴の表示、テーブルの最適化に関して説明します。

これらの機能をデモンストレーションするDatabricksノートブックに関しては、Introductory notebooksをご覧ください。

Delta Lakeを試すには、Databrikcsにサインアップしてください。

主要なタスク

以下のリストでは、一般的なDelta Lakeのタスクに関するドキュメントへのリンクを提供しています。

リソース

Delta Lakeにディープダイブするトレーニングについては、こちらのYoutubeをご覧ください。

Databricks 無料トライアル

Databricks 無料トライアル

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1