6
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

BigQuery ×Databricks × Snowflake の相互運用 ~忍び寄る Apache Iceberg をどう迎えるか~

Last updated at Posted at 2025-10-15

概要

「Cross Data Platforms Meetup #2」にて、「BigQuery ×Databricks × Snowflake の相互運用 ~忍び寄る Apache Iceberg をどう迎えるか~」というタイトルで発表しました。本記事では、その発表内容を整理してご紹介します。

資料

発表内容補足

manabian について

image.png

引用元:最強のデータ分析基盤を目指して~汎用的なデータ分析基盤の選定方法の提案~

image.png

引用元:データエンジニアリングの背景を踏まえてdbt(Data Build Tool)を少し深く理解してみる #Python - Qiita

image.png

引用元:サイロ化したBigQueryをAnalyticsHubにより統合するアーキテクチャの検討時のメモ #GoogleCloud - QiitaBigQuery

image.png

引用元:BigQuery × Spark:BigQuery サンドボックス環境と Google Colab で始める高速データ分析 #Python - Qiita

データ統合と相互運用性

データ統合は、組織内に散在するデータを一貫した形式で集約するプロセスを指します。ただし、単に集約するだけではなく、システム間で連携できる“相互運用性”を確保することも重要です。また、システム面だけでなく運用体制にも配慮する必要があります。

「DMBOK(データマネジメント知識体系ガイド)」でも、データガバナンスを考える上で重要な領域の1つとしてデータ統合と相互運用性が挙げられています。

image.png

出所:『データマネジメント知識体系ガイド 第二版』 DAMA International編著、DAMA日本支部、Metafindコンサルティング株式会社 監訳、日経BP

最新版のDMBOKでは、データ統合と相互運用性について以下のように説明されています。

データ統合はデータストア、アプリケーション、組織の内部および相互間におけるデータの移動と統合を表している。データの相互運用性とは様々なシステムが情報を連携する能力を表す。

出所:『データマネジメント知識体系ガイド 第二版 改定新版 』 DAMA International編著、DAMA日本支部、Metafindコンサルティング株式会社 監訳、日経BP

これらについては、書籍内の第8章に詳しく解説されていますので、興味がある方はぜひご一読ください。

image.png

出所:データマネジメント知識体系ガイド 第二版 改定新版 | 日経BOOKプラス

データ統合が必要なケース

データ統合が必要となる主なケースは以下の4つです。近年は特に、DWH同士の連携が注目を集めています。

  1. 業務系システム間でのデータ統合
  2. 業務系システムからデータ分析基盤(DWH等)へのデータ統合
  3. データ分析基盤(DWH等)間でのデータ統合
  4. データ分析基盤(DWH等)から他システムへのデータ統合

image.png

BigQuery とのデータ統合

Google Analytics のデータを BigQuery にエクスポートする機能がよく利用されています。

Snowflake と Databricks における BigQuery とのデータ統合機能には下記のようなものがあります。

BigQuery には下記の方法で、データ統合ができる。

# データの連携方法 概要
1 BigQuery へ連携する方法 BigQuery のコンピューティングリソースにより BigQuery Storage にデータの書き込み/読み込みをする方法。
2 BigQuery Storage API による方法 BigQuery Storage に直接データを書き込み/読み込みをする方法。 コンピューティングリソースを用いないため割安。
3 BigLake tables for Apache Iceberg in BigQuery による方法 BigQuery のコンピューティングリソースにより GCS上の Iceberg テーブルにてデータを読み込みをする方法。
4 Apache Iceberg external tables による方法 BigQuery のコンピューティングリソースにより GCS上の Iceberg テーブルにてデータを読み込みをする方法。
5 BigLake external tables for Delta Lake による方法 BigQuery のコンピューティングリソースにより GCS上の Delta Lake テーブルにてデータを読み込みをする方法。

関連ドキュメントは下記。

Open Table Format とは

Apache Iceberg について下記ブログにて言及しています。

image.png

出所:cloud.google.com/blog/ja/products/data-analytics/announcing-bigquery-tables-for-apache-iceberg

Google Cloud では BigLake metastore にて Apache Iceberg のカタログとして利用する方針が提示されています。

image.png

出所:BigQuery 内の Apache Iceberg 用 BigLake テーブル | Google Cloud

Apache Iceberg による相互運用の海外事例

2025年6月に開催された Databricks のイベントである Data + AI Summit 2025 のセッション。

日本でも Apache Iceberg の足音が。。。

下記リンク先にて事例が紹介されています。

BigQuery における OTF の活用

BigQuery の OTF 機能に関する検証結果の記事を公開していますなお、 OTF を理解するためには、 Google Colab (Spark)にて操作する方法がおすすめです。

BigQuery × Snowflake における OTF の活用

BigQuery × Databricks における OTF の活用

Uniyt Catalog に ストレージ資格情の設定が、 Databricks on Google Cloud でのみ言及されている。資格情報を Spark Config に設定する方法でアクセスは可能だが、 Databricks の Serverless 利用時には設定が不可能。

image.png

出所:Google Cloud Storageに接続するためのストレージ資格情報を作成する | Databricks on Google Cloud

Databricks -> BigQuery へのデータ連携時には、 Databricks の Deep Clone 機能が便利。

<参考> BigQuery -> Databricks のデータ連携方法

Databricks にて BigQuery と連携する方法については下記の記事で整理しています。

ビュー参照時にテーブルとは異なる権限が必要となることに注意してください。

image.png

出所:Databricks で BigQuery のデータを取得する方法の徹底ガイド #Spark - Qiita

Apache Iceberg 機能はまだ成長期

カタログを参照できる機能がリリースされてきており、 相互運用の少しずつ近づいています。

Apache Iceberg の最新バージョンは v3 であるが、BigQuery、 Databricks、 BigQuery がサポートしているのは v2 です。 バージョンのダウンロードがサポートされていないことが言及されるなど、 Apache Iceberg のバージョン選定の調整が必要となります。

⚠️ Important: Before upgrading, make sure the table is not being accessed by engines or applications that don’t support v3 yet. Once upgraded, downgrading to v1 or v2 is not supported. For this reason, all readers must be compatible with v3. Note that the default version remains v2.

image.png

出所:Iceberg v3 + Starburst | Starburst

⚠️ 重要: アップグレードする前に、v3 をまだサポートしていないエンジンやアプリケーションによってテーブルがアクセスされていないことを確認してください。アップグレード後の v1 または v2 へのダウングレードはサポートされません。このため、すべてのリーダーは v3 と互換性がある必要があります。デフォルトのバージョンは v2 のままであることに注意してください。

上記翻訳

BigQuery から他クラウドのストレージを参照できる BigQuery Omni 機能にてサポートされているロケーションが限定的です。 AWS や Azure のストレージをベースにした基盤としている場合には、 GCS への連携方法も考慮する必要があります。

image.png

出所:BigQuery Omni の概要 | Google Cloud

6
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?