概要
データ基盤について調査したので、具体的な事例をまとめておく。
具体例
Data Lakeに対してTransaction機能を持たせるパターン
Netflix
-
S3
に対して、Iceberg
を使っている - Optimizing data warehouse storage
エブリー
- Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計
- Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics
- Bronze、Silver、Goldと定義される三段階にデータ構造を分離する
DWHを使うパターン
クックパッド
- Redshift Spectrumを中心にして構築している
-
データ活用基盤の今 〜DWH外観図〜
+ -
最新のログもすぐクエリできる速くて容量無限の最強ログ基盤をRedshift Spectrumで作る
- 遅延データに対する「締め」という概念
ZOZO
- BigQueryが中心
- RDBからDWHのデータ移動にはDigdag/Embulkを使用
- ZOZOTOWNの事業を支えるBigQueryの話 / BigQuery behind ZOZOTOWN
Klab
- BigQueryが中心
- ETLはSQL+CloudFunction or Cloud Dataflow
- モバイルゲームのためのデータ分析