Google Cloud の勉強を記録するためのメモ。
混同しがちな 「Data Lake」 と 「Data Ware House(DWH)」の違い。
Data Lakeとは
Data Lakeは、大量の Raw Data を保存するための場所。
データ形式は統一性がなくても、とにかく生のデータをそのままストックすることに意味がある
(=構造化されたデータ、非構造のデータ問わず保存する)
Google Cloudでは、Cloud Storageが代表的なサービス。
Data Ware House とは
Data Ware House は、Data Lake からデータ分析に利用できるよう、データを構造化してストックする場所。意志決定のため、目的別に編成され、統合された時系列で、削除や更新しないデータの集合体。
Google Cloudでは Big Query が代表的なDWHのサービス。
Data Pipeline(データパイプライン)とは
Data Lakeにストックされたデータを、DWHで利用できるように生データを加工し、DWHへインポートするための手順。データの構造化→インポートを処理する手順を指す。
Google Cloudでは、Data Flow やData Prepが代表的な Data Pipeline 構築のためのサービス。