DatabricksとSnowflakeをつなぐ最新データ相互利用術

Last updated at 2025-04-22Posted at 2025-04-22

概要

「Cross Data Platforms Meetup #1」にて、「DatabricksとSnowflakeをつなぐ最新データ相互利用術」というタイトルで発表しました。本記事では、その発表内容を整理してご紹介します。

「データ分析基盤の構築方法論」や「関連テクノロジーの調査」、「エラー対応方法」など、データ分析の上流から下流まで幅広いテーマを扱った記事を投稿しています。

データ統合は、組織内に散在するデータを一貫した形式で集約するプロセスを指します。ただし、単に集約するだけではなく、システム間で連携できる“相互運用性”を確保することも重要です。また、システム面だけでなく運用体制にも配慮する必要があります。

「DMBOK（データマネジメント知識体系ガイド）」でも、データガバナンスを考える上で重要な領域の1つとしてデータ統合と相互運用性が挙げられています。

出所：『データマネジメント知識体系ガイド　第二版』　DAMA International編著、DAMA日本支部、Metafindコンサルティング株式会社監訳、日経BP

最新版のDMBOKでは、データ統合と相互運用性について以下のように説明されています。

データ統合はデータストア、アプリケーション、組織の内部および相互間におけるデータの移動と統合を表している。データの相互運用性とは様々なシステムが情報を連携する能力を表す。

出所：『データマネジメント知識体系ガイド　第二版　改定新版』　DAMA International編著、DAMA日本支部、Metafindコンサルティング株式会社監訳、日経BP

これらについては、書籍内の第8章に詳しく解説されていますので、興味がある方はぜひご一読ください。

データ統合は、大きく「物理データ統合」と「仮想データ統合」の2つに分類されます。前者はデータを事前に移動・集約する方法で、後者はデータを移動せず仮想的に統合する方法です。

物理データ統合と仮想データ統合では、それぞれ性能やコストなど異なる特性を持つため、目的や利用シーンに応じて使い分けが必要です。仮想データ統合はデータ移動が不要な点で理想的に見えますが、性能やコスト面の注意が欠かせません。

データ統合が必要となる主なケースは以下の4つです。近年は特に、DWH同士の連携が注目を集めています。

DatabricksとSnowflakeを連携させる場合、まずはどのようにデータをロードするかを明確にし、必要となる機能を洗い出すことが重要です。下表に示すように、全件連携や差分連携などさまざまなパターンがありますが、実務で最もよく使われるのはパターン1と2です。

#	連携方法	データローディングパターン
1	全件連携	最後に連携されたデータで上書きする処理
2	差分連携	差分データを用いてUpsertする処理
3	差分連携	特定のカラム値に基づき選択的に上書きする処理
4	差分連携	一定期間のデータを上書きする処理
5	差分連携	連携されたデータをAppendする処理
6	履歴連携	タイムスタンプで管理するSCD Type 2の差分履歴データを連携する処理
7	履歴連携	ソースシステムの主キー列とINGEST_TIMESTAMPに基づいたUPSERT処理
8	OTFによる連携	Open Table Format（OTF）でデータを相互利用する方法

実装するパターンに応じて、必要な機能を検討する必要があります。

#	機能名	概要
1	テーブルの上書き機能	テーブルデータをソースのデータで置き換える機能。CTASやOVERWRITEが典型的。
2	変更データ提供機能	テーブルにおける変更内容を提供する機能。DELETEレコードの特定が重要。
3	ファイル取り込み機能	指定ディレクトリ上のデータを取り込む機能。ファイルのメタデータ取得や冪等性の担保が理想。
4	データ取得機能	他システムからデータを取得する機能。
5	書き込み時のスキーマ進化機能（スキーマ展開機能）	ソースデータに応じてカラムの追加やデータ型の変更を行う機能。

DatabricksとSnowflake間でデータ統合を行う場合、以下のような方法があります。

データ統合方法	Databricks -> Snowflake	Snowflake -> Databricks
全件連携	- SparkによるOverwrite	- IcebergテーブルをソースとしてCTAS - 外部サービスで書き込み後にCTAS
差分連携	- CDFデータをMerge	- STREAMデータをMerge
OTFによる連携	- UniFormでIcebergテーブル化 - Delta LakeをIcebergテーブル化	（実施方法は未検証）
仮想データ統合	（実施方法は未検証）	- Lakehouse Federation機能を利用