参考:https://www.dal.co.jp/column/b-dwh/
データウェアハウスとは
Inmon氏いわく
意志決定のため、目的別に編成、統合された時系列で、削除や更新しないデータの集合体
通常のDBは業務に特化したデータを保管する
DWHは企業の意思決定を行うために必要なデータを保管する(横断的なデータ)
DBとの違い
大量データを高速で検索・分析
DWHの様なデータ分析を目的としているDBは、従来型DBより検索・分析機能にたけている
並列処理アーキテクチャを採用しているため、一つのクエリに対して複数のアクセスポイント(ワーカー)から独立したデータ処理を行える
これを実装しているDWH製品が(Hadoop/Spark/Google BigQuery(Dremel))等
統合的なデータ分析に特化している
各個別DBから集約するデータは、単に集約するわけではない
従来型のDBでは、データを目的別に分けていた
→DWHでは「商品」「店舗」「従業員」「取引」というようにサブジェクト(主題)ごとに分解・整理して格納する
時系列でのデータ分析が可能
基幹系DBなどでは、売上等のログは日次、週次、月次などの単位の管理を基本とする
このため、ストレージ容量確保のために過去データは集計処理等をすると削除する
→DWHでは業務上発生した取引記録などのデータをすべて格納しておく
これで過去の売り上げ推移や顧客の趣向変遷等を時系列で分析できる
→ストレージ容量については過去データなどについてはGoogle BigQueryはディスカウントされる(90日間更新がないデータに対して等)
→また、蓄積されるデータについては不変性を持っている