Iceberg Advent Calendar 2025

Apache Icebergでストレージを中立に保つ

Last updated at 2025-12-21Posted at 2025-12-21

想定読者

AI・分析基盤の変化が速い時代、何を標準の土台にするべきかが読みにくくなりました。クエリエンジンもAI基盤も、数年（数ヶ月かも...）スパンで「こっちの方が速い」「こっちの方が使いやすい」が起きます。

だからこそ、変わるもの（コンピュート）と、長く残るもの（ストレージ）を分離して設計するのが重要だと感じています。

そう思うようになったきっかけは、今年 9 月のServerless Daysでの、AWSの下佐粉さんのApache Icebergセッションです。

Icebergの仔細については、Beringさんの記事がまとまっています。
https://bering.hatenadiary.com/entry/2023/09/24/175953

Icebergのイメージを簡単に説明すると、「S3＋Parquetにテーブル管理を足したもの」です。

私は、新卒1年目として、クライアント先でAWS上にデータ基盤の構築をする業務に携わっておりまして、日々の業務では、

ところが、実際に基盤を運用してみると、次のような悩みが出てきます。

Icebergであれば、S3上のParquetを「ちゃんとテーブルとして扱う」ための仕組みを提供してくれます。運用で困るポイントをテーブル側が吸収してくれます。

今の時代に怖いのが、特定の製品に寄せた形式でデータを持ってしまって、移行が重くて身動きが取れなくなってしまうことです。

IcebergはOTF（Open Table Format）なので、

データのストレージとコンピュートを疎結合で持っておく。
私はこの発想がいちばん刺さりました。