データウェアハウス層とは
データレイクにある生データを加工したものが置かれている場所
例:自社ECサイトの売上に付け加えて、サイト外での販売、自社外のWebサイトでの販売などの他の売上も結合したデータがある場所
DWH層を作る手順
データクレンジング
データクレンジングとは、データの欠損を埋めたり、重複削除や名寄せを行うこと
名寄せとは、複数のデータベースの中から、氏名、住所、電話番号等の情報を手がかりにして、同じ人物や同じ企業のデータを1つにまとめること
データクレンジングは、オリジナルのデータで複数のデータソースを統合できない場合に実施する
理想は大元のデータソースを修正すべきなので、一時的な処置として行う
データレイクでは絶対に行わない
スタースキーマの作成
スタースキーマとは、データベース内のデータを整理することで、理解や分析がしやすくなった多次元データモデルのこと
引用元: スタースキーマとは
データクレンジング後に行う
ファクトテーブルとディメンションテーブルを作成する
- ファクトテーブルとは、イベントの発生ごとに一行で表現したテーブル
- ディメンションテーブルとは、分析の切り口となる属性値を表現したテーブル
7W3Hの形で、属性を洗い出すことでディメンションテーブルは作成可能
共通指標
部署横断して問題が起きないように、部署間で同じ認識の指標を作ること
作成方法
- 作成したスタースキーマを使う
- モニタリングしたい指標は何なのか明確にして、ディメンションを使い集計
部署横断の共通指標はデータウェアハウス層で管理し、部署によって用途が異なるデータはデータマート層で管理する
ポイント
DWH層のデータを分析用DB(DWH製品)に置くべき
- DWH製品はBIツールや表計算ソフトに参照されるように設計されているが、逆はそうではないため
DWH層で共通指標を集計すべき
- 部署や部門ごとに指標の捉え方が異なるのは日常茶飯事
- DWH層で共通指標を集計しておけば、今後の部署横断可能なデータ活用が容易になるため
早すぎる最適化に注意
- データ活用が進んでいない段階でDWH層を作ることはできない
- なぜなら、共通指標を作る事ができないから
- 上記の場合はデータソースからデータレイク、データレイクからデータマートの両端を充実させ、データ活用を進めた後にDWH層を作る