LoginSignup
1
0

Data Lake と Data Ware Houseの違い

Last updated at Posted at 2024-03-20

Google Cloud の勉強を記録するためのメモ。

混同しがちな 「Data Lake」 と 「Data Ware House(DWH)」の違い。

Data Lakeとは

Data Lakeは、大量の Raw Data を保存するための場所。
データ形式は統一性がなくても、とにかく生のデータをそのままストックすることに意味がある
(=構造化されたデータ、非構造のデータ問わず保存する)

Google Cloudでは、Cloud Storageが代表的なサービス。

Data Ware House とは

Data Ware House は、Data Lake からデータ分析に利用できるよう、データを構造化してストックする場所。意志決定のため、目的別に編成され、統合された時系列で、削除や更新しないデータの集合体。

Google Cloudでは Big Query が代表的なDWHのサービス。

Data Pipeline(データパイプライン)とは

Data Lakeにストックされたデータを、DWHで利用できるように生データを加工し、DWHへインポートするための手順。データの構造化→インポートを処理する手順を指す。

Google Cloudでは、Data Flow やData Prepが代表的な Data Pipeline 構築のためのサービス。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0