Apache Icebergについて整理した

Posted at 2025-06-15

背景・目的

先日、下記のイベントに参加しIcebergについていろいろな機能が増えていることに気づきました。

また、そもそもIcebergについて基本をあまりわかっていないので基本的な知識を整理したいと思います。

下記に特徴を整理します。

特徴	説明
Iceberg	大規模な分析データセット向けのオープンテーブルフォーマット SQLテーブルと同様に動作する高性能なテーブル形式を使用して、各コンピューティングエンジンにテーブルを追加する
User experience	Icebergは、予期せぬ事態を回避する Schema evolutionは適切に機能し、誤ってデータを復元することはないユーザーはパーティショニングについて意識することなく、高速なクエリを実行できる
Reliability and performance	Icebergは巨大なテーブル向けに構築された Icebergは、単一のテーブルに数十ペタバイトのデータが含まれるような本番環境で使用され、このような巨大なテーブルであっても分散SQLエンジンなしで読み取ることができる
Branching and Tagging	Icebergのテーブルメタデータは、テーブルに適用された変更を表すスナップショットログを保持するライフサイクルは、ブランチおよびタグレベルの保持ポリシーによって制御される
ユースケース	GDPR要件への対応や、監査のための重要な履歴スナップショットの保持に活用できる

下記を基に整理します

Icebergは巨大なテーブル向けに構築された
Icebergは、単一のテーブルに数十ペタバイトのデータが含まれるような本番環境で使用され、このような巨大なテーブルであっても分散SQLエンジンなしで読み取ることができる
- Scan planning is fast
  - テーブルを読み込んだりファイルを検索したりするのに分散SQLは不要
- Advanced filtering
  - テーブルメタデータを使用して、パーティションおよび列レベルの統計情報でデータファイルが整理ｓれる
Iceberg は、最終的に一貫性のあるクラウドオブジェクトストアの正確性の問題を解決するために設計された
- あらゆるクラウドストアで動作し、HDFS でのリスト作成や名前変更を回避することで NN の混雑を軽減する
- 直列化可能な分離
  - テーブルの変更はアトミックであり、読者は部分的またはコミットされていない変更を見ることはない
- 複数の同時書き込みは楽観的同時実行を使用し、書き込みが競合した場合でも互換性のある更新が成功するように再試行する

今回は、Introductionをまとめました。今後、詳細を継続して学んでいきたいと思います。