1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Delta Live TablesとUnity Catalogで制御されたパイプラインを構築

Posted at

Build governed pipelines with Delta Live Tables and Unity Catalog | Databricks Blogの翻訳です。

本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

Unity CatalogのDelta Live Tables(DLT)サポートのパブリックプレビューを発表できることを嬉しく思っています。このプレビューによって、すべてのデータチームがDelta Live Tablesによって生成されるデータ資産に対してきめ細かいデータガバナンスポリシーを定義、実行できるようになります。我々はUnity Catalogのパワーをデータエンジニアリングパイプラインにもたらします: パイプラインとDelta Live Tablesはあなたの他のUnity Catalog資産とともに管理、制御できるようになります。

Delta Live TablesとUnity Catalogによるデータエンジニアリングの革新

Unity Catalogレイクハウスアーキテクチャ向けに設計された包括的なデータガバナンスソリューションです。S3、ADLS、GCSのようなデータレイクは、それらのスケーラビリティやコスト効率によって、膨大な量のデータの格納、処理において人気を得ています。しかし、データレイクでのガバナンスの管理は困難なものとなっています。Unity Cataologは標準的なANSI SQLやユーザーフレンドリーなUIを用いたきめ細かいデータ権限を提供することで、この課題に取り組んでいます。これによって、企業は行、列、ビューレベルでの権限を管理できるようになり、データアクセスに対するコントロールを提供し、データガバナンスポリシーへの準拠を確実なものとします。Unity Catalogはテーブル管理の先を行き、MLモデルやファイルを含む他のタイプのデータ資産に対するガバナンスに拡張します。これによって、企業は集中管理されたプラットフォームから自分たちのすべてのデータとAIの資産を制御できるようになります。

Delta Live Tablesは、Databricksで提供されるパワフルなETL(Extract, Transform, Load)フレームワークです。これによって、データエンジニアやアナリストはストリーミングとバッチの両方のワークロードを処理する効率的で信頼できるデータパウプラインを構築できるようになります。DLTはユーザーがSQLやPythonを用いて宣言的にデータパイプラインを表現できるようにすることで、ETL開発をシンプルにします。この宣言型のアプローチによって、手動でのコードの繋ぎ合わせの必要性を排除し、データパイプラインの開発、テスト、デプロイメント、オペレーションを円滑にします。また、DLTはクラスターのサイズ、オーケストレーション、エラーハンドリング、パフォーマンスの最適化の面倒を見ることで、インフラストラクチャの管理も自動化します。これらのオペレーションタスクを自動化することで、データエンジニアはデータの返還処理にフォーカスすることができ、自分たちのデータから価値のある洞察を導き出すことができます。

整流化されたデータエンジニアリングプロセスでエンドツーエンドのデータガバナンスを統合

Unity CatalogとDelta Live Tablesの強みを組み合わせることで、企業はエンドツーエンドのデータガバナンスを実現し、自分たちのデータエンジニアリングプロセスを円滑にすることができます。このインテグレーションによって、データチームはUnity Catalogで定義されたガバナンスポリシーに準拠しつつも、Delta Live Tablesを用いてデータパイプラインを開発、実行することができるようになります。このシームレスな相互運用性によって、データエンジニア、アナリスト、ガバナンスチーム間の効率的なコラボレーションを実現し、データライフサイクルを通じてデータ資産が適切に制御され、保護され、準拠することを確実にします。Unity CatalogとDelta Live Tablesが一緒に動作することで、企業はデータガバナンスとセキュリティの最高の基準を保ちつつも、ご自身のデータレイクハウスアーキテクチャの完全なポテンシャルを解き放つことができます。

Block(以前のSquare)は、このインテグレーションの初期プレビューのお客様の一つです。自分たちの企業データプラットフォームにおけるDelta Live Tablesのアーリーアダプターとして、Blockは自分たちのDLTパイプラインとUnity Catalogを活用することで得られる凄まじいポテンシャルに興奮しています。

「我々は信じられないほどにDelta Live TablesとUnity Catalogとのインテグレーションに興奮しています。このインテグレーションによって、自分たちのDLTパイプラインのデータガバナンスを整流化し、自動化する助けとなり、我々はリアルタイムで数百万のイベントを取り込んでいるので、センシティブなデータとセキュリティ要件を満たす役に立ちます。これは、リスクモデリングや不正検知に関連する我々のビジネスユースケースにおいて、可能性と強化の世界の扉を開きます。」— Yue Zhang, Staff Software Engineer, Block

Delta Live TablesでどのようにUCを有効化するのか?

UIでDelta Live Tableパイプラインを作成する際にDestinationオプションでUnity Catalogを選択します。

すべてのライブテーブルが3レベルの名前空間(catalog.schema.table)に公開されるターゲットカタログとスキーマを選択するプロンプトが表示されます。

DLTとUCをどのように活用するのか?

任意のソースからの読み込み: HiveメタストアとUnity Catalogのテーブル、ストリーミングソース

Unity Catalog + Delta Live Tablesは、DLTパイプライン能力をさまざまなソースからのデータを読み込めるように拡張します。DLT + Unity Catalogのパイプラインは以下から読み込みを行えます。

  • Unity Catalogのマネージドテーブルと外部テーブル
  • Hiveメタストアのテーブルとビュー
  • ストリーミングソース(Apache KafkaやAmazon Kinesis)
  • Databricks Auto Loaderやcloud_files()を用いてクラウドオブジェクトストレージから読み込み

例えば、ある企業では、複数のチャネルにまたがる顧客のインタラクションを分析したいと考えています。彼らは、Hiveメタストアテーブルに格納されている顧客インタラクションのログ、Kafkaからのリアルタイムストリーム、UC管理のテーブルからのデータのようなソースからのデータを取り込み、処理するためにDLTを活用することができます。このソースの組み合わせによって、顧客インタラクションの包括的なビューを提供し、価値のある洞察や分析を可能とします。

DLTが公開したテーブルに対するきめ細かいアクセスコントロール

Unity Catalogのきめ細かいアクセスコントロールによって、パイプラインの作成者がライブテーブルに対するアクセスを容易に管理できるように支援します。DLTパイプライン開発者として、カタログ内の特定のライブテーブルに誰がアクセスできるのかに関して完全なコントロールを持つことになります。

シンプルなANSI SQLコマンドを通じてメタストアのグループのアクセスを許可、あるいは取り消すことができます。

GRANT SELECT ON TABLE
  my_catalog.my_schema.live_table
TO
finance_users;

例えば、センシティブな顧客データを格納するライブテーブルをUCに作成し、その特定のテーブルで作業する必要があるデータアナリストやデータサイエンティストにアクセスを選択的に付与することができます。GRANT SELECT ON TABLEのようなSQLコマンドを用いることで、正確なアクセスレベルを指定し、データ探索や分析のためにセキュアで制御された環境を提供することができます。

あなたの企業で必要とする物理的データ分離の強制

データの分離は、コンプライアンスやセキュリティを保証するために多くの企業にとって重要です。DLTとUnity Catalogによって、適切なカタログレベルのストレージロケーションにデータセットを書き込むことで、物理的なデータの分離を矯正できるようになります。

この機能によって、皆様の企業の要件に基づいてカタログごとに関連づけられた個別のストレージロケーションに別々にデータセットを格納、管理できるようになります。この機能は、センシティブなデータは分離され続け、他のデータセットから隔離されることを保証し、データガバナンスやコンプライアンスにおける強固な基盤を提供します。

続報をお待ちください!

これまで以上に堅牢で、セキュアかつシームレスなデータエンジニアリング体験を提供するために、我々は継続的にDelta Live Tables(DLT)とUnity Catalog(UC)の機能強化を続けていきます。DLTとUC間のインテグレーションを強化し続け、トップノッチのガバナンスやセキュリティを保持しつつも、皆様のデータレイクハウスアーキテクチャのポテンシャルを最大化できるようにします。

すぐにトライしましょう

Delta Live TablesとUnity Catalogのパワーをまず体験するには、今日にもでもトライすることをお勧めします。

Unity CatalogにおけるDelta Live Tablesをトライしていただくか、ドキュメント(AWS | Azure)をご覧ください。

Databricksクイックスタートガイド

Databricksクイックスタートガイド

Databricks無料トライアル

Databricks無料トライアル

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?