0
0

More than 1 year has passed since last update.

DeloitteによるDelta Live Tablesを用いた宣言型データパイプラインに関するガイド

Posted at

Deloitte’s Guide to Declarative Data Pipelines With Delta Live Tables - The Databricks Blogの翻訳です。

本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

この記事はDeloitteとの共著です。Deloitte ConsultingのStrategy and Analytics, AI and Data EngineeringであるMani Kandasamyに感謝の意を表します。

本日我々はDeloitteとDatabricksのコラボレーションによって作成されたDelta Live Tables(DLT)新たなホワイトペーパーを共有できることを嬉しく思っています。このホワイトペーパーでは、DLTに対する我々の視点とレイクハウスに構築されたモダンなデータ分析プラットフォームの重要性を共有しています。DLTを用いることで、データアナリストとデータエンジニアはオペレーションのためのツールに費やす時間を削減し、データから価値を生み出すことにより多くの時間を費やせる様になります。

Deloitteのデータモダナイゼーションにおけるグローバルの経験とDatabricksレイクハウスプラットフォームによる高度な分析を組み合わせることで、いかなる規模の企業において、自身の短期かつ長期的な目標を戦略的に達成するためにデータとAIプラットフォームを立ち上げようとしている人たちを助け続けています。設計フェーズからオペレーションに至るまで、我々はレイクハウスのイネーブルメントやAI/MLマイグレーションのような主要な取り組みに対して、設えたアプローチを通じてすべての場面で自動化を適用しています。

これらの取り組みを通じて、我々は企業がレイクアウスアーキテクチャを導入すると、データエンジニアが連続的に到着するデータをキャプチャ、追跡する効率的な手段を必要としていることを観測しました。彼らは多くの場合、複雑なデータをクレンジングし、分析や機械学習に適したフォーマットに変換するための困難なタスクに直面していました。適切なツールを用いたとしても、ストリーミングのユースケースを実装することは容易ではなく、データ管理フェーズの複雑性が、後段の分析の能力に制限を課していました。ここでDLTが登場します。

より簡単にデータパイプラインを構築、維持する

DLTは高信頼データパイプラインの構築や管理を容易にし、Delta Lake上により高品質なデータをデリバリーします。データエンジニアリングチームが宣言型データパイプラインを構築し、定義されたデータ品質ルールやモニタリングを通じてデータの信頼性を改善し、イベントログを通じたデータパイプラインの状態やリネージュに対する深い可視性によってオペレーションをスケールさせることで、これを実現します。

今では、データチームはDatabricksレイクハウスプラットフォームの膨大な処理能力を活用することができる様になっており、同時にモダンなデータスタックを容易に利用できる状態を維持しています。我々のホワイトペーパーでは、以下に示すDLTのメリットにそれぞれについて詳細を説明しています。

図1. Delta Live Tablesは継続的に機能を改善しつつも、これらのメリットを提供しています。

DLTを用いることで、データチームは新世代のデータ、分析、AIをデリバリーするために、自身のデータパイプラインを構築、活用できる様になります。上述したメリットのうち、DLTがデータエンジニアの負荷を削減し、洞察をより迅速に得られる様にする特定の方法として3つのポイントをハイライトしたいと思います。

  1. 自動化されたインフラストラクチャの管理: タスクオーケストレーション、エラーハンドリング、パフォーマンス最適化のような複雑かつ時間がかかるアクティビティを自動化することでオーバーヘッドを除去。
  2. ストリーミングとバッチをシンプルに: 別々のパイプラインを構築する必要なしに、ストリーミングとバッチを統合し、順序を守らないデータを取り扱うためにAuto Loaderとインテグレーションし、データが到着するとすぐに利用可能に。
  3. データ構造変更の自動ハンドリング: レコードの変更と部分的アップデートを組み合わせ、単一かつ完全、そして最新のレコードに。

これらのDLTのメリットは、データソース、変換ロジック、出力先のデータの状態を指定することでエンドツーエンドのデータパイプラインの定義を容易なものにします。サイロ化されたデータ処理のジョブを手動で繋ぎ合わせるのではなく、今ではデータチームはパイプラインにまたがるすべてのデータの依存関係を維持し、環境非依存のデータ管理機構とETLパイプラインを再利用することができます。

例としては、大規模な投資銀行においてDeloitteとDatabricksは、複数のリアルタイムデータセットとバッチデータセットを並行して取り込むために、メタデータドリブンのフレームワークを実装しました。ここから、クライアントは自身のデータパイプラインにおいて30倍から50倍のパフォーマンス改善を実現し、開発者の生産性においては多大なる改善を達成することができました。

Delta Live Tablesのホワイトペーパーを読む

より迅速に、より信頼できるデータドリブンの意思決定を可能にするために、どのようにDLTを活用すべきかに関するDeloitteとDatabricksの視点について学ぶには、ホワイトペーパーDelta Live Tables: Value Proposition and Benefitsをダウンロードしてください。この中では、特定のDLTユースケースを見つけることができ、コアの変換ロジックによりフォーカスし、オペレーション上の複雑性に対する時間を削減する役に立つベストプラクティスを学ぶこともできます。

DLTによるデータエンジニアリングの最先端にいられることに興奮しています。Databricksはイノベーションを継続しており、新たなDLT機能をリリースしつつけているので、開発者コミュニティや我々のお客様がモダンなレイクハウスプラットフォームからより多くのメリットを享受できることを嬉しく思っています

その他のリソース

Databricks 無料トライアル

Databricks 無料トライアル

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0