はじめに
NTTテクノクロスのメガクラウドチームに所属している加藤です。
普段はAWS関連の業務をしています。
この記事の内容は、2025年5月13日開催のJAWS-UG朝会セッション枠発表資料「猫でもわかるS3 Tables【Apache Iceberg編】」を再構成・追記したものになります。
【2025/06/27追記】
2025/06/24に新機能「ソートとZオーダー圧縮によりAmazon S3でのApache Icebergクエリのパフォーマンスを向上」がサポートされました。
作成動機
2024年後半からデータ分析基盤構築に関連してSnowflake、Databricksを調査・動作検証をしています。そこでApache Icebergの存在を知りました。その後re:Inventで発表されたApache IcebergのマネージドサービスであるS3 Tablesを見て、Apache Icebergの理解を深めておく必要があると感じ資料化しました。
Apache Icebergとの出会い
AWSにはS3 Tables発表前からApache Iceberg on AWSがありました。しかし私は「Snowflake、Databricks調査」 → 「Amazon S3 Tables」→ 「Apache Iceberg on AWS」の順で調査を行いました。そのためApache Iceberg on AWSをメインで使われている方からは、「かなり変わった経緯でApache Icebergにたどり付きましたね」との感想を何度か頂きました。
資料紹介
2025年5月13日開催のJAWS-UG朝会セッション枠で発表した資料の再構成・追記版になります。発表時は時間(20分枠)の関係で資料から落としていたCopyーon-Write(CoW)、Mergeーon-Read(MoR)などを復活させました。
想定読者
- Amazon S3 Tablesは知っている、試しに使ってみたけどApache Icebergについては名前ぐらいしか知らないような方
- データ分析基盤はAWSで完結していて、Snowflake、Databricksなどは使ったことがない方
伝えたいこと(完全なる個人の感想)
いまフロントサイドはMCPが熱いが、サーバサイドはApache Icebergが熱い!
資料:猫でもわかるS3 Tables【Apache Iceberg編】
資料内容抜粋紹介
S3 Tablesのシームレスな統合
S3 Tablesを統合することでGlue Data Catalogを介してのアクセスが可能になります。
Athenaから検索する場合のカタログ指定
汎用バケットのファイル(非Apache Iceberg)をGlueで検索する場合と、Table統合されたS3 Tablesを検索Uする場合とでは指定するカタログが異なります。
Apache Icebergファイル構成(アクセス順)
Apache IcebergのRead時のファイルアクセス順です。S3 Tablesの場合はバケット内が隠蔽されているためマネジメントコンソールから中身を確認することはできません。
Apache Icebergの書込みプロセスイメージ
楽観的同時実行制御をおこなうことでファイルの書込みを高速化しています。
S3 Tablesを使う上での注意点
S3 Tablesは単独で使う場合と、Glueと統合した場合ではデータカタログが異なります。Apache Iceberg REST エンドポイントを比較すと理解しやすいです。
種別 | エンドポイント |
---|---|
Glue非統合時 |
https:// s3tables.<REGION>.amazonaws.com/iceberg
|
Glue統合時 |
https:// glue.<REGION>.amazonaws.com/iceberg
|
またGlue統合時でもS3エンドポイントとRMS(Redshift Managed Storage)用の拡張エンドポイントではパスが異なります。
種別 | エンドポイント |
---|---|
S3 |
https://glue.<REGION>.amazonaws.com/ iceberg
|
RMS |
https://glue.<REGION>.amazonaws.com/ extensions
|
【補足】Apache Iceberg on AWS Meetup情報
2025年5月14日に「Apache Iceberg on AWS Meetup ~話題のIcebergをAWSで徹底活用~」がリアル+オンライン開催されました。
No. | 内容 |
---|---|
01 | Apache Iceberg on AWS |
02 | Amazon S3 Tables - テーブルバケットと汎用バケット |
03 | Apache Iceberg への移行アプローチの勘所 |
04 | Apache Iceberg と AWS で実現するストリーミングワークロード |
05 | 金融データサイエンスにおける Apache Iceberg / PyIceberg の可能性 |
2025年5月26日時点ではまだ資料は公開されていませんが、どの資料も一読の価値があると思います。私は資料内の厳選されたリンク情報がとても参考になりました。
おわりに
個人的にはApache Icebergは今後データ分析基盤を構築する上では避けて通れない技術たと感じています。現在活発に開発が進んでいますので今後のロードマップも意識した上でどう使っていくかを考えていくつもりです。
猫でもわかるシリーズ紹介
過去に私が作成した猫でもわかるシリーズ記事の紹介です。2025年6月時点ではQiita上で発表済みのものです
- 猫でもわかるDirect Connect(Cloud Wan対応版
- 猫でもわかるBLEA
- 猫でもわかった気になるRedshift Serverless(更新系限定) 追加情報
- 猫でもわかるRoute53(Resolver,Hosted zone)
参考文献
- AWS 規範ガイダンス AWS で Apache Iceberg を使用する
- Amazon S3 Tables
- AWS Blackbelt Online Seminar re:Invent 2024 アップデート速報
- 【Microsoft】OneLake で Iceberg テーブルを使用する
- 【Google】Apache Iceberg 用の BigQuery テーブル
- Amazon Simple Storage Service ユーザーガイド
- AWS Glue ユーザーガイド
- 【AWSブログ】Amazon S3 Tables と Amazon SageMaker Lakehouse の統合の一般提供を開始
- Amazon SageMaker Unified Studio ユーザーガイド
- O’REILLY Apache Iceberg The Definitive Gude(dremio Download site)
- 【dremio】Apache Iceberg: An Architectural Look Under the Covers
- 【Snowflake】Introducing Polaris Catalog: An Open Source Catalog for Apache Iceberg
- データブリックス、Apache Iceberg™の創始者が設立した Tabular社の買収に合意